white paper series zbirka bela knjiga the slovene slovenski … · 2012-06-19 · zbirka bela...

87
White Paper Series THE SLOVENE LANGUAGE IN THE DIGITAL AGE Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek

Upload: others

Post on 08-Mar-2020

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

White Paper Series

THE SLOVENELANGUAGE IN

THE DIGITALAGE

Zbirka Bela knjiga

SLOVENSKIJEZIK VDIGITALNIDOBI

Simon Krek

Page 2: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE
Page 3: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

White Paper Series

THE SLOVENELANGUAGE IN

THE DIGITALAGE

Zbirka Bela knjiga

SLOVENSKIJEZIK VDIGITALNIDOBI

Simon Krek “Jožef Stefan” Institute, Amebis, d. o. o.

Georg Rehm, Hans Uszkoreit(urednika, editors)

Page 4: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

PREDGOVOR PREFACEBela knjiga je del zbirke, s katero širimo zavedanje o is white paper is part of a series that promotesjezikovnih tehnologijah in o možnostih, ki jih ponu- knowledge about language technology and its poten-jajo. Namenjena je izobraževalcem, novinarjem, poli- tial. It addresses journalists, politicians, language com-tikom, jezikovnim skupnostim in vsem ostalim, ki jih munities, educators and others. e availability andzanima jezik. Dostopnost in raba jezikovnih tehnologij use of language technology in Europe varies betweenv Evropi se razlikuje od jezika do jezika. V skladu languages. Consequently, the actions that are requireds tem se dejanja, potrebna za podporo raziskovanju to further support research and development of lan-in razvoju, med seboj razlikujejo in so odvisna od ra- guage technologies also differs. e required actionszličnih dejavnikov, na primer od zahtevnosti jezikov depend on many factors, such as the complexity of aali velikosti njihovih skupnosti. given language and the size of its community.V projektu META-NET, mreži odličnosti, ki jo fi- META-NET, a Network of Excellence funded by thenancira Evropska komisija, smo analizirali obstoječe European Commission, has conducted an analysis ofstanje na področju jezikovnih virov in tehnologij (glej current language resources and technologies in thisstr. 79). Analiza zajema 23 uradnih evropskih jezikov white paper series (p. 79). e analysis focused on thein ter nekatere druge pomembne evropske nacionalne 23 official European languages as well as other impor-in regionalne jezike. Rezultati analize kažejo, da pri tant national and regional languages in Europe. e re-vsakem jeziku obstaja precej vrzeli, detajlna strokovna sults of this analysis suggest that there are tremendousanaliza in ocena trenutnega stanja pa bo pripomogla k deficits in technology support and significant researchnajboljšemu izkoristku novih raziskav in zmanjšanju s gaps for each language. e given detailed expert anal-tem povezanih tveganj. ysis and assessment of the current situation will helpMrežo META-NET sestavlja 54 raziskovalnih centrov maximise the impact of additional research.iz 33 držav (stanje novembra 2011, glej str. 75). V As of November 2011, META-NET consists of 54projektu sodelujemo z déležniki iz gospodarstva (raču- research centres from 33 European countries (p. 75).nalniška podjetja, ponudniki tehnologij, uporabniki), META-NET is working with stakeholders from econ-državnih institucij, raziskovalnih organizacij, nevlad- omy (Soware companies, technologyproviders, users),nih organizacij, jezikovnih skupnosti in evropskih uni- government agencies, research organisations, non-verz. Skupaj z navedenimi skupnostmi v projektu governmental organisations, language communitiesMETA-NET ustvarjamo skupno tehnološko vizijo in and European universities. Together with these com-strateški raziskovalni načrt za večjezično Evropo 2020. munities, META-NET is creating a common technol-

ogy vision and strategic research agenda for multilin-gual Europe 2020.

III

Page 5: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

META-NET – [email protected] – http://www.meta-net.eu

Avtor se zahvaljuje dr. Marku Stabeju (Filozofska fakulteta,Univerza v Ljubljani) in dr. Tomažu Erjavcu (Institut “JožefStefan”) za njun prispevek pri nastanku te publikacije. Polegtega se zahvaljuje avtorjem bele knjige o nemškem jezikuza dovoljenje glede uporabe jezikovno neodvisnih delovpublikacije [1].

Izdelava bele knjige je bila financirana s sredstvi Sedmega

okvirnega programa in Programa za podporo razvoju politik

informacijsko-komunikacijskih tehnologij Evropske komisije

v okviru pogodb T4ME (sporazum o dodelitvi sredstev

249119), CESAR (sporazum o dodelitvi sredstev 271022),

METANET4U (sporazum o dodelitvi sredstev 270893) in

META-NORD (sporazum o dodelitvi sredstev 270899).

e author of this document would like to thank Marko Stabej(Faculty of Arts, University of Ljubljana) and Tomaž Erjavec(“Jožef Stefan” Institute) for their contributions to this whitepaper. Furthermore, the author is grateful to the authors ofthe white paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

e development of this white paper has been funded by the

Seventh Framework Programme and the ICT Policy Support

Programme of the European Commission under the contracts

T4ME (Grant Agreement 249119), CESAR (Grant Agree-

ment 271022), METANET4U (Grant Agreement 270893)

and META-NORD (Grant Agreement 270899).

IV

Page 6: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

KAZALO CONTENTS

SLOVENSKI JEZIK V DIGITALNI DOBI

1 Povzetek 1

2 Tveganje za naše jezike in izziv za jezikovne tehnologije 32.1 Jezikovne meje ovirajo evropsko informacijsko družbo . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Naši jeziki so ogroženi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Jezikovne tehnologije so ključne podporne tehnologije . . . . . . . . . . . . . . . . . . . . . . . 52.4 Priložnosti za jezikovne tehnologije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.5 Izzivi za jezikovne tehnologije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.6 Usvajanje jezika pri ljudeh in strojih . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Slovenščina v evropski informacijski družbi 93.1 Splošni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Značilnosti slovenskega jezika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Razvoj v zadnjem času . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.4 Skrb za jezik v Sloveniji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.5 Jezik v izobraževanju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.6 Mednarodni vidiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.7 Slovenščina na internetu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4 Jezikovne tehnologije za slovenščino 174.1 Procesna arhitektura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.2 Ključne aplikacije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.3 Druge aplikacije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 Izobraževalni programi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.5 Nacionalni projekti in pobude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.6 Dostopnost virov in orodij . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.7 Primerjava med jeziki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.8 Zaključek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5 O projektu META-NET 35

Page 7: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

THE SLOVENE LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 37

2 Languages at Risk: a Challenge for Language Technology 392.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 402.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 412.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 The Slovene Language in the European Information Society 443.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.2 Particularities of the Slovene Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.4 Official Language Protection in Slovenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.7 Slovene on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4 Language Technology Support for Slovene 534.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 About META-NET 70

A Bibliografija -- References 71

B Članstvo v META-NET -- META-NET Members 75

C Zbirka Bela knjiga META-NET -- The META-NET White Paper Series 79

Page 8: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

1

POVZETEK

V zadnjih 60 letih je Evropa postala prepoznavna poli-tična in ekonomska danost, vendar je kulturno injezikovno še vedno zelo raznolika. To pomeni, da seod portugalščine do poljščine, od italijanščine do is-landščine neizogibno soočamo z jezikovnimimejami privsakodnevni komunikaciji med prebivalci Evrope, kottudi znotraj poslovne in politične sfere. Evropske in-stitucije potrošijo približno milijardo evrov na leto zavzdrževanje politike večjezičnosti, torej za prevajanjebesedil in za tolmačenje pri govorni komunikaciji. Paje nujno, da takšno breme ostaja še naprej? Sodobnejezikovne tehnologije in jezikoslovne raziskave lahkopomembno prispevajo k rušenju jezikovnihmeja. Kom-binirane s pametnimi napravami in računalniškimi pro-grami bodo jezikovne tehnologije v prihodnosti pripo-mogle, da bodo prebivalci Evrope lahko govorili drugz drugim ali skupaj poslovali, tudi če ne bodo govoriliskupnega jezika.

Jezikovne tehnologije gradijo mostove.

Slovensko gospodarstvo je v juliju 2011 v države EUizvozilo 71,9 % od celotnega izvoza blaga. Nemškogospodarstvo kot največje evropsko gospodarstvo je vletu 2010 v države EU izvozilo 60,3 % blaga, z dodat-nimi 10,8 % izvoza v ostale evropske države. Jezikovnemeje lahko poslovanje povsem zaustavijo, kar velja pred-vsem za mala in srednja podjetja, ki nimajo finančnihsredstev za prilagoditev stanju. Edina (nezamisljiva) al-ternativa večjezični Evropi bi bila, če bi dovolili, da enjezik prevzame dominantni položaj in na koncu nado-

mesti vse ostale jezike. Tradicionalna pot za premago-vanje jezikovnih ovir je učenje tujih jezikov. Todabrez tehnološke podpore je obvladovanje 23 uradnihin približno 60 drugih evropskih jezikov nepremostljivaovira za evropske državljane, evropsko gospodarstvo,politične razprave in znanstveni razvoj. Rešitev jev razvoju ključnih podpornih tehnologij. Te bodoevropskim akterjem zagotovile prednost ne le v okviruskupnega evropskega trga, temveč tudi pri trgovanju stretjimi državami, predvsem s hitro rastočimi gospo-darstvi. Da bi ta cilj dosegli in ohranili evropsko kul-turno in jezikovno raznolikost, je najprej treba sistema-tično analizirati jezikovne značilnosti vseh evropskihjezikov in trenutno stanje jezikovnotehnološke podporeza vsakega od njih. Jezikovnotehnološke rešitve bodo nakoncu služile kot most med evropskimi jeziki. Orodjaza strojno prevajanje in procesiranje govora, ki so navoljo na tržišču, še ne izpolnjujejo tega zahtevnega cilja.Prevladujoči igralci na tem področju so predvsem za-sebna tržno usmerjena severnoameriška podjetja. Že vpoznih 70-ih letih je EU prepoznala pomen jezikovnihtehnologij kot gonila evropske enotnosti in začela finan-cirati prve raziskovalne projekte, kakršen je bil npr. EU-ROTRA. Hkrati se je začelo financiranje nacionalnihprojektov, katerih rezultatih so bili dragoceni, todaskupna usklajena evropska akcija ni bila nikoli izpeljana.V nasprotju z omenjenimi nepovezanimi napori pri fi-nanciranju so druge večjezične družbe, kot sta Indija (22uradnih jezikov) ali JužnaAfrika (11 uradnih jezikov), vzadnjem času izdelale dolgoročne nacionalne programeraziskovanja jezikov in tehnološkega razvoja.

1

Page 9: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Jezikovne tehnologije kot ključ za prihodnost.

Sedanji prevladujoči igralci na področju jezkovnihtehnologij se zanašajo na nenatančne statističnepristope, pri katerih ne uporabljajo zahtevnejšihjezikoslovnih metod in znanja. Stavki so denimo preve-deni avtomatsko zgolj s primerjavonovonastalega stavkas tisoči stavkov, ki so jih prevedli ljudje. Kvaliteta rezul-tata je v veliki meri odvisna od količine in kakovostidostopnega korpusa vzorcev. Če z avtomatskim pre-vajanjem preprostih stavkov pri jezikih, za katere jena voljo zadostna količina besedilnega gradiva, lahkopridemo do uporabnih rezultatov, so statistične metodeobsojene na neuspeh pri jezikih, za katere je na voljoprecej manjša količina vzorčnega gradiva ali pri stavkihz zapleteno strukutro.

Jezikovne tehnologije pomagajozdruževati Evropo.

Evropska unija je zato sklenila, da bo financiralaprojekte, kot sta EuroMatrix in EuroMatrixPlus (odl. 2006) in iTranslate4 (od l. 2010), v okviru ka-terih se izvajajo temeljne in aplikativne raziskave inki ustvarjajo vire, potrebne za vzpostavljanje kvalitet-nih jezikovnotehnoloških rešitev za vse evropske jezike.Analiza globjih strukturnih značilnosti jezikov je edinapot naprej, če želimo zgraditi aplikacije, ki dobro delu-jejo pri celotnem razponu evropskih jezikov. Dosedanjeevropske raziskave so bile na tem področju že zelo us-pešne. Prevajalske službe Evropske unije tako uporab-ljajo prosto dostopni strojni prevajalnik MOSES, ki jebil razvit pretežno v okviru evropskih raziskovalnih pro-jektov.Po dosedanjih dognanjih se zdi, da bodo današnje“hibridne” jezikovne tehnologije, pri katerih se zah-tevnejša analitična obdelava meša s statističnimi meto-dami, lahko premostile vrzeli med vsemi evropskimi

jeziki ter med drugimi jeziki. Kot kaže ta zbirkabelih knjig, med članicami Evropske unije v zvezi zjezikovnimi rešitvami in stanjem raziskav obstajajo dra-matične razlike glede pripravljenosti. Po natančnempregledu in primerjavi z drugimi jeziki lahko ugo-tovimo, da je stanje pri jezikovnih tehnologijah in virihza slovenščino dokaj zaskrbljujoče, in sicer iz dveh ra-zlogov. Prvi razlog je razumljiv in izhaja iz števila go-vorcev slovenščine. Teh je približno 2 milijona, karne zagotavlja, da bi se viri in tehnologije lahko razvi-jali zgolj znotraj komercialnega okolja. Na drugi stanidržava Slovenija oz. institucije, ki znotraj slovenskejezikovne skupnosti skrbijo za razvoj jezika, v zad-njem desetletju niso uspele zagotoviti ustreznega insti-tucionalnega okvira, kjer bi potekal načrten in sistema-tičen dolgoročni razvoj tehnologij, virov in orodij, kiso jezikovno specifični. Brez tega ni mogoče pričako-vati, da bo slovenščina obdržala enakovreden status vprihodnjem digitalnem okolju. Posledica pomanjkanjatrajnega institucionalnega okvira je tudi ta, da je vslovenskem akademskem okolju študij računalniškegaprocesiranja naravnih jezikov bistveno premalo pris-oten. Najpomembnejši korak pri zagotavljanju kvalitet-nih jezikovnih tehnologij in virov za slovenščino bi bilatorej čimprejšnja izdelava programa njihovega razvoja inzagotovitev ustreznega institucionalnega okvira, ki bi taprogram izvajal. Dolgoročni cilj mreže META-NET jeuvedba kakovostnih jezikovnih tehnologij za vse jezike,da bi vzpostavili politično in ekonomsko enotnost skozikulturno različnost. Tehnologije bodo pomagale po-dreti zidove in zgraditi mostove med evropskimi jeziki.Za to je potrebno, da vsi deležniki – v politiki, razisko-vanju, gospodarstvu in v družbi – združijo svoje naporeza prihodnost.Zbirka Bela knjiga dopolnjuje strateške akcije, ki jih iz-vaja mreža META-NET (za pregled glej prilogo). Svežeinformacije, kot npr. zadnjo verzijo Strateške vizije [2]ali Strateški raziskovalni načrt, jemogočenajti na spletnistrani mreže META-NET: http://www.meta-net.eu.

2

Page 10: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

2

TVEGANJE ZA NAŠE JEZIKE IN IZZIV ZAJEZIKOVNE TEHNOLOGIJE

Priča smo digitalni revoluciji, ki korenito spreminjakomunikacijske navade in družbo nasploh. Naj-novejše dosežke na področju digitalnih informacij-skih in komunikacijskih tehnologij včasih primerjajo zGutenbergovim izumom tiskarskega stroja. Toda kajnam ta primerjava lahko pove o prihodnosti evropskeinformacijske družbe, zlasti pa o naših jezikih?

Priča smo digitalni revoluciji,ki jo je mogoče primerjati z Gutenbergovim

izumom tiskarskega stroja.

Po Gutenbergovem izumu je šele ob dejanjih, kot je bilLutherjev prevod Biblije v vernakularni jezik, sledil pre-boj v komunikaciji in izmenjavi znanja. V naslednjihstoletjih so se razvile kulturne tehnike, ki so izpopolnileprocesiranje jezika in izmenjavo znanja:

pravopisna in slovnična standardizacija večjihjezikov je omogočila hitro širjenje novih znanstvenihin intelektualnih idej;

razvoj uradnih jezikov v okviru določenih (pogostopolitičnih) meja je njihovim prebivalcem olajšal ko-municiranje;

s poučevanjem jezikov in prevajanjem so bile ustvar-jene možnosti za izmenjavo med jeziki;

nastanek uredniških in bibliografskih smernic jezagotovil kvaliteto in dostopnost tiskanega gradiva;

nastanek različnih medijev, kot so časopisi, radio,televizija, knjige in ostali formati, je zadovoljil ra-zlične komunikacijske potrebe.

V zadnjih dvajsetih letih je informacijska tehnologijaprispevala k avtomatizaciji in izboljšanju mnogih odomenjenih procesov:

programi za namizno založništvo so nadomestili tip-kanje in tiskarsko stavljenje;

Microsoov PowerPoint je nadomestil grafoskopein prosojnice;

e-pošta omogoča hitrejše pošiljanje in prejemanjedokumentov kot faksirni stroj;

Skypeponuja poceni internetne telefonske pogovorein gosti virtualne sestanke;

formati za kodiranje avdia in videa omogočajo pre-prosto izmenjavo multimedijskih vsebin;

spletni iskalniki zagotavljajo dostopnost spletnihstrani na podlagi ključnih besed;

spletni servisi kot Google Translate ponujajo hitrepribližne prevode;

okolja družabnih omrežij, kot so Facebook, Twitterin Google+ lajšajo komunikacijo, sodelovanje in iz-menjavo informacij.

Čeprav so ta orodja in programi v veliko pomoč, ševedno niso zmožni podpirati trajnostno naravnane, več-jezične evropske družbe, v kateri je vsem pripadnikomomogočen prost pretok informacij in blaga.

3

Page 11: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

2.1 JEZIKOVNE MEJE OVIRAJOEVROPSKO INFORMACIJSKODRUŽBONemogoče je natančno napovedati, kakšna bo videtibodoča informacijska družba. Vendar je hkratimogoče reči, da revolucija na področju komunikacij-skih tehnologij na nov način združuje ljudi, ki go-vorijo različne jezike. Posamezniki so s tem izpostav-ljeni pritisku, da se učijo druge jezike, razvijalci pav še večji meri temu, da ustvarijo nove tehnološkeizdelke, ki omogočajo medsebojno razumevanje indostop do skupnega znanja. V globalnem gospo-darskem in informacijskem prostoru je z novimi vrstamimedijev stik med več jeziki, govorci in vsebinami vsehitrejši. Trenutna popularnost družabnih medijev(Wikipedia, Facebook, Twitter, YouTube in v zadnjemčasu Google+) je le vrh ledene gore.

Zaradi globalnega gospodarskega ininformacijskega prostora smo soočeni z vedno

več jeziki, govorci in vsebinami.

Danes lahko prenašamo gigabajte besedila okrog svetav nekaj sekundah, še preden se zavemo, da je besedilo vjeziku, ki ga ne razumemo. Sodeč po nedavni raziskaviEvropske komisije 57 % uporabnikov interneta v Evropikupuje blago in storitve v jeziku, ki ni njihov maternijezik. (Najbolj pogost tuji jezik je angleščina, ki musledijo francoščina, nemščina in španščina.) 55 %uporabnikov bere vsebine v tujem jeziku, a le 35 %uporablja tuji jezik pri pisanju elektronskih sporočil alispletnih komentarjev [3]. Pred nekaj leti je bila an-gleščinamorda res lingua franca na spletu– velika večinaspletnih vsebin je bila v angleščini – toda stanje se jezdaj korenito spremenilo. Količina spletnih vsebin vdrugih evropskih jezikih (tudi azijskih in jezikih Sred-njega vzhoda) je skokovito narasla.

Začuda ta vseprisotna digitalna vrzel kot posledicajezikovnih meja v javnosti ni zbudila veliko pozornosti;kljub temu pa izpostavlja zelo pereče vprašanje: katerievropski jeziki bodo v omreženi informacijski družbiznanja dobro uspevali in kateri so obsojeni na izginotje?

2.2 NAŠI JEZIKI SO OGROŽENIMedtem ko je tiskarski stroj prispeval k povečanju ob-sega izmenjave informacij v Evropi, je obenem pripo-mogel tudi k izginotju mnogih evropskih jezikov. Re-gionalni in manjšinski jeziki so redko prišli do tiskaneoblike in jeziki, kot sta kornijski ali dalmatinski, so biliomejeni le na prenos govorjene oblike, kar je povzročilo,da so bili rabljeni manj in manj. Bo internet imel enakvpliv na naše jezike?

Raznolikost evropskih jezikov je ena odnajbogatejših in najpomembnejših kulturnih

dragocenosti Evrope.

Približno 80 evropskih jezikov je ena najbogatejšihin najpomembnejših kulturnih dragocenosti Evrope inključni del njenega edinstvenega družbenega modela[4]. Medtem ko bosta angleščina in španščina zagotovopreživela na nastajajočem digitalnem tržišču, mnogievropski jeziki v omreženi družbi lahko postanejonepomembni. To bi ošibilo globalni položaj Evropein bi bilo v nasprotju s strateškim ciljem zagotavljanjamožnosti enakopravne udeležbe za vse državljane neglede na jezik.

Kot ugotavlja UNESCO v poročilu o večjezičnosti, jejezik osnovni medij uživanja enakih pravic, kot je prav-ica do političnega izražanja, izobrazbe in sodelovanja prijavnih zadevah [5].

4

Page 12: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

2.3 JEZIKOVNE TEHNOLOGIJESO KLJUČNE PODPORNETEHNOLOGIJEV preteklosti se je investiranje v ohranjanje jezika osre-dotočalo na poučevanje jezika in prevajanje. V skladuz eno od ocen je bil v letu 2008 evropski trg preva-janja, tolmačenja, lokalizacije programske opreme inglobalizacije spletnih strani vreden 8,4 milijarde evrov,pričakuje pa se, da bo letno naraščal za 10 odstotkov[6]. Ta številka pokriva le manjši del sedanjih in prihod-njih potreb po medjezikovnem komuniciranju. Naj-bolj prepričljiva rešitev, ki bi zagotovila tako obsegkot doseg rabe jezikov v Evropi tudi v prihodnje, jeuporaba primerne tehnologije, podobno kot uporab-ljamo tehnologijo pri transportu in energetiki, ali den-imo pri pomoči osebam s posebnimi potrebami.

Evropa potrebuje robustne in dostopne jezikovnetehnologije za vse evropske jezike.

Digitalne jezikovne tehnologije (katerih cilj so vseoblike pisnega in govorjenega jezika) ljudem poma-gajo pri sodelovanju, poslovanju, izmenjavi znanja inudeleževanju v družabnih in političnih razpravah neglede na jezikovne meje ali obvladovanje računalnika.Tehnologije so pogosto nevidne kot del zapletenih raču-nalniških sistemov, ki nam pomagajo:

najti informacije s pomočjo spletnih iskalnikov;

preverjati črkovanje ali slovnično ustreznost v ureje-valnikih besedil;

pregledovati priporočila o izdelkih v spletnih trgov-inah;

poslušati govorjena navodila v navigacijskih sistemihv avtomobilu;

prevajati spletne strani s spletnimi prevajalniki.

Jezikovne tehnologije sestavlja večje število jedrnih ap-likacij, ki omogočajo procesiranje jezika v okviru večjihprogramskih sistemov. Namen zbirke Bela knjigav projektu META-NET je preverjanje stanja jedrnihtehnologij za vse evropske jezike.

Evropa bo potrebovala jezikovne tehnologije, prilago-jene za vse evropske jezike, ki bodo hkrati robustne,dostopne in polno integrirane v ključna programskaokolja, če želimo obdržati svoj položaj v prvih vrstah.Brez jezikovnih tehnologij ne bomo mogli doživetiresnično učinkovite interaktivne, večpredstavne in več-jezične uporabniške izkušnje v bližnji prihodnosti.

2.4 PRILOŽNOSTI ZAJEZIKOVNE TEHNOLOGIJEV svetu tiska je hitro razmnoževanje slike besedila (kn-jižne strani) predstavljalo pravi tehnološki preboj – obuporabi tiskarskega stroja na primeren pogon. Kljubtemu so ljudje še vedno morali opravljati naporno delopregledovanja, branja, prevajanja ali povzemanja znanja.Treba je bilo počakati na Edisona, da je bilo mogočeshraniti govorjeni jezik – toda njegova tehnologija jeomogočala zgolj izdelavo analognih kopij.

Z digitalnimi jezikovnimi tehnologijami je zdajmogočeavtomatizirati procese prevajanja, ustvarjanja vsebin inupravljanja z znanjem za vse evropske jezike. Z njimi jemogoče tudi opremljati intuitivne tekstovne ali govornevmesnike v gospodinjskih aparatih, strojih, vozilih, raču-nalnikih in robotih. Dejanska komercialna in industri-jska uporaba tehnologij je še v zgodnjih fazah razvoja,toda z raziskovalnimi dosežki se odpira pravo oknopriložnosti. Strojno prevajanje, na primer, je na ome-jenih področjih že zadovoljivo natančno, poskusne ap-likacije pa zagotavljajo večjezično upravljanje z informa-cijami in znanjem za mnoge evropske jezike.

Tako kot pri večini tehnologij so bile prve uporabne ap-likacije, kot so govorni uporabniški vmesniki ali sistemi

5

Page 13: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

dialoga, razvite za ozko specializirana področja in nji-hova uporabnost je bila pogosto dokaj omejena. Tržnepriložnosti pa se odpirajo v izobraževalni in zabavniindustriji z vključevanjem jezikovnih tehnologij v igre,spletne informacije o kulturni dediščini, zabavne izo-braževalne pakete (edutainment), knjižnice, simulacij-ska okolja in programe za usposabljanje. Mobilneinformacijske storitve, programska oprema za učenjejezikov s pomočjo računalnika, e-izobraževalna okolja,orodja za samoevalvacijo in programi za odkrivanje pla-giatorstva so le nekatera od področij, kjer jezikovnetehnologije lahko odigrajo pomembno vlogo. Popu-larnost družabnih omrežij, npr. Twitterja in Facebooka,kaže, da obstajajo potrebe po zahtevnejših jezikovnihtehnologijah, ki omogočajo spremljanje objav, povze-manje razprav, detekcijo mnenjskih trendov, zazna-vanje čustvenih odzivov, prepoznavanje kršenja av-torskih pravic ali spremljanje zlorab.Jezikovne tehnologije so izjemna priložnost za Evrop-sko unijo. Pomagajo lahko pri razreševanju zahtevnihvprašanj evropske večjezičnosti – dejstva, da v evrop-skih poslovnih okoljih, organizacijah in šolah naravnosobivajo različni jeziki. Toda državljani se morajosporazumevati tudi izven jezikovnih meja, ki prečijoevropski skupni trg, in jezikovne tehnologije lahkopripomorejo pri odstranjevanju te zadnje ovire, pri če-mer hkrati tudi podpirajo svobodno in odprto raboposameznih jezikov.

Jezikovne tehnologije pomagajo pripremagovanju “hendikepiranosti” zaradi

jezikovne različnosti.

Če se ozremo celo dlje, bodo inovativne evropske večjez-ične jezikovne tehnologije postavile merila za naše part-nerje po svetu, ko bodo ti začeli vzpostavljati svoje več-jezične skupnosti. Jezikovne tehnologije je mogoče do-jeti kot eno od oblik “tehnologij za izboljšanje kakovosti

življenja”, ki pomagajo pri premagovanju “hendikepira-nosti” zaradi jezikovne različnosti in jezikovnim skup-nostim omogočajo medsebojni dostop.

Eno od dejavnih področij raziskovanja je nenazadnjetudi uporaba jezikovnih tehnologij pri reševalnih op-eracijah na prizadetih območjih, kjer uspešno delovanjelahko odloča o življenju in smrti. Bodoči inteligentniroboti s sposobnostjo večjezične komunikacije bodo de-jansko lahko reševali tudi življenja.

2.5 IZZIVI ZA JEZIKOVNETEHNOLOGIJEČeprav so jezikovne tehnologije v zadnjih letih precejnapredovale, sta tehnološki razvoj in uveljavljanje in-ovativnih proizvodov prepočasna. Splošno razširjenetehnologije, kot so črkovalniki in slovnični moduli vurejevalnikih besedil, so tipično enojezični in na voljole za peščico jezikov.

Tehnološki razvoj je trenutno prepočasen.

Spletni strojni prevajalni sistemi se ob zahtevi ponatančnih in dokončnih prevodih spopadajo z množicotežav, čeprav so uporabni za hitro tvorjenje približnevsebine dokumentov. Zaradi zapletenosti človeškegajezika je računalniško modeliranje jezikov in testiranjev realnih okoliščinah dolg in drag proces, ki potrebujedolgoročno finančno podporo. Ob soočanju z izzivivečjezične družbe mora Evropa vztrajati pri svoji pio-nirski vlogi in si zamisliti nove metode pospeševanjarazvoja po svojem celotnem zemljevidu. Te metodelahko vključujejo tako napredek znotraj računalništvakot tudi tehnike, kakršna je izkoriščanje moči množice(crowdsourcing).

6

Page 14: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

2.6 USVAJANJE JEZIKA PRILJUDEH IN STROJIHDa bi prikazali, kako računalniki obvladujejo jezikin zakaj jih je težko sprogramirati tako, da bi ga us-pešno uporabljali, najprej poglejmo, kako ljudje usvajajoprvi ali drugi jezik, potem pa še načine, kako delujejojezikovnotehnološki sistemi.Ljudje osvojijo jezikovne spretnosti na dva načina. Do-jenčki jezik usvajajo s spremljanjem realne komunikacijemed starši, brati in sestrami ali drugimi družinskimičlani. Od drugega leta naprej otroci začnejo izgovar-jati prve besede in kratke zveze. To je možno zato, kerso ljudje genetsko nagnjeni k oponašanju in kasnejšemuracionaliziranju tega, kar slišijo.Učenje drugega jezika v kasnejših letih zahteva večnapora, predvsem zato, ker otrok ni del jezikovneskupnosti maternih govorcev. V šoli usvajanje tujihjezikov običajno poteka ob učenju slovničnih struk-tur, besedišča in izgovorjave, z uporabo vaj, ki opisu-jejo jezikovna dejstva v obliki abstraktnih pravil, tabelin primerov. Učenje tujih jezikov torej z leti postane vsetežje.

Ljudje usvajajo jezikovne spretnosti na dvanačina: z učenjem primerov in z učenjem prikrikih

jezikovnih pravil.

Pri dveh glavnih tipih jezikovnotehnoloških sistemov“usvajanje” jezikovnih zmožnosti poteka na podobennačin. Pri statističnem (ali “podatkovnem”) pristopujezikovno znanje izvira iz ogromnih zbirk konkretnihprimerov besedil. Za učenje strojnih mehanizmov zapotrebe črkovalnikov, na primer, zadostujejo besedila venem jeziku, za učenje strojnih prevajalnikov pa morajobiti na voljo vzporedna besedila v dveh (ali več) jezikih.Algoritmi strojnega učenja potem “povzamejo” vzorce, skaterimi so prevedene besede, kratke zveze ali celi stavki.

Pri statističnempristopumoramo imeti na voljo namili-jone stavkov, kakovost pa narašča s količino analiziranihbesedil. To je eden od razlogov, zakaj ponudniki splet-nih iskalnikov skušajo zbrati kolikor je mogoče velikogradiva. Črkovalniki v urejevalnikih besedil in servisi,kot sta Google Search ali Google Translate, se vsi opi-rajo na statistični pristop. Velika prednost statistike jeta, da se strojni mehanizmi učijo hitro v ponavljajočih seučnih ciklih, kljub temuda kvaliteta potem lahko variirana nepredvidljiv način.

Drugi pristop k jezikovnim tehnologijam in pred-vsem strojnemu prevajanju je izdelava sistemov na pod-lagi pravil (rule-based systems). Strokovnjaki s po-dročja jezikoslovja, računalniškega jezikoslovja in raču-nalništva morajo najprej pretvoriti slovnične analize vsistem (pravila prevajanja) in sestaviti spiske besed (lek-sikone). To zahteva veliko časa in izjemen napor. Neka-teri od vodilnih strojnih prevajalnikov na podlagi pravilso v procesu nenehnega dopolnjevanja že več kot dvajsetlet. Velika prednost sistemov na podlagi pravil pa je ta,da imajo strokovnjaki podrobnejši nadzor nad procesi-ranjem jezika. To omogoča, da lahko napake v sistemusistematično odpravljajo in uporabniku ponudijo po-drobno povratno informacijo, predvsem kadar se takisistemi uporabljajo za poučevanje jezika. Zaradi vi-sokih stroškov potrebnega dela pa so bile jezikovnetehnologije, ki temeljijo na pravilih, razvite le za največjejezike.

Ker se prednosti in slabosti pri obeh pristopih, statis-tičnem in pri sistemih na podlagi pravil, dopolnjujejo,se raziskave trenutno osredotočajo na hibridne pristope,ki kombinirajo obe medotologiji. Toda ti pristopi sobili v industrijskih aplikacijah precej manj uspešni kotv raziskovalnih laboratorijih.

Kot smo videli v tem poglavju, mnoge aplikacije, ki jihv današnji informacijski družbi vsakodnevno uporab-ljamo, ne morejo delovati brez uporabe jezikovnihtehnologij. To zaradi večjezične skupnosti še to-

7

Page 15: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

liko bolj drži za evropski gospodarski in informacij-ski prostor. Čeprav je bil pri jezikovnih tehnologijahv zadnjih nekaj letih narejen precejšen korak naprej,imajo jezikovnotehnološki sistemi še vedno precejšnjemožnosti za izboljšanje kvalitete.

V naslednjem poglavju opisujemo vlogo slovenščinev evropski informacijski družbi in trenutno stanjejezikovnih tehnologij za slovenščino.

8

Page 16: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

3

SLOVENŠČINA V EVROPSKIINFORMACIJSKI DRUŽBI

3.1 SPLOŠNI PODATKIPo ocenah približno 2,5 milijona ljudi po svetu govoriali razume slovenski jezik, od teh jih velika večina živiv Republiki Sloveniji ali na mejnih območjih v Italiji,Avstriji in naMadžarskem. Na zadnjempopisu prebival-stva leta 2002 je 87,8 % prebivalcev Slovenije – takrat vskupnem številu nekaj manj kot 2 milijona – izjavilo, daje slovenščina njihov materni jezik, nadaljnje 3,3 % pre-bivalstva pa je izjavilo, da doma uporabljajo slovenščinokot jezik vsakdanje komunikacije. To pomeni, da jeskupaj 91,1 % prebivalcev uporabljalo slovenščino kotprvi jezik, ta številka pa Slovenijo postavlja v skupinodržav v EU z eno najbolj homogenih jezikovnih situacij.Od ostalih jezikovnih skupin so daleč najbolj številnimaterni govorci jezikov bivše Jugoslavije, pri čemer3,3 % prebivalcev v vsakdanji komunikaciji uporabljakombinacijo slovenščine in svojega maternega jezika,nadaljnji odstotek pa le svoj materni jezik – bosanščino,hrvaščino, srbščino ali črnogorščino. Med številčnejšimiskupnostmi so še govorci albanščine, makedonščine inromskega jezika [7].Podobno kot v drugih primerih v evropski zgodovinije zapleten tok dogodkov v preteklosti privedel dostanja, da pripadniki dokaj velikih slovenskih manj-šin živijo v Italiji v pokrajini Furlanija – Julijska kra-jina, v avstrijskih zveznih deželah Koroška in Štajerskater na mejnih območjih na Madžarskem in v hrvaškiIstri. Hkrati pripadniki italijanske in madžarske man-jšine živijo v Sloveniji na mejnih območjih z Italijo

in Madžarsko. Ustava obema manjšinama zagotav-lja pravico do uporabe maternega jezika, saj določa,da je uradni jezik v Sloveniji slovenščina in da sta“na območjih občin, v katerih živita italijanska alimadžarska narodna skupnost”, uradna jezika tudi itali-janščina oz. madžarščina.

V ostalih delih sveta so večje skupnosti izseljencev izSlovenije v ZDA, Kanadi, Argentini in Avstraliji. Vprvem primeru gre predvsem za nasledek večjih valovekonomske emigracije v drugi polovici 19. stoletja doprve svetovne vojne, v ostalih treh primerih pa za poli-tično emigracijo po drugi svetovni vojni, ko je Slovenijapostala del socialistične Ljudske republike Jugoslavije.Obe skupnosti, zamejske Slovence in izseljence, podpiraUradVladeRepublike Slovenije za Slovence v zamejstvuin po svetu, ki ga vodi minister brez listnice, kar – gledena visoki ministrski položaj – kaže na visoko raven skrbiza Slovence po svetu.

Medtem ko prvi pisni viri, ki so bili prepoznani kotslovenščina, segajo v pozno 10. stoletje, je bil jezik prvičstandardiziran in opisan v času protestantske reforma-cije v 16. stoletju. Leta 1550 je protestantski reformistPrimožTrubar izdal prvi dve slovenski knjigi “Catechis-mus” in “Abecedarium”. Drugi dve najpomembnejšiprotestantski deli sta bili Biblija, ki jo je v slovenščinoprevedel Jurij Dalmatin, ter slovenska slovnica AdamaBohoriča – obe deli sta bili izdani v letu 1584. V drugipolovici 19. stoletja je bil proces standardizacije v velikimeri zaključen, ko je bila splošno sprejeta pisava gajica.

9

Page 17: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Najbolj očitna razlikamed novo pisavo in bohoričico, kije bila v rabi prej, je bila menjava črk “ſ ” s “s” in “s” z “z”,ter črkovnih sklopov “zh”, “”, “sh” z novimi črkami č,š, ž, ki so tudi danes del standardne slovenske abecede s25 črkami.Poleg pogosto negotovih političnih okoliščin, ki soovirale rabo slovenščine na vseh področjih življenja –zgodovinsko je bilo področje del večjih političnih skup-nosti, pogosto s težnjami po centralizaciji in enojez-ičnosti – je bil razvoj standardne slovenščine težaventudi zaradi nenavadno velikega števila narečij glede narazmeroma majhno število govorcev in velikost po-dročja, kjer se ta uporabljajo. Prepoznanih je bilo večkot 40 narečij v sedmih večjih narečnih skupinah, karpovzema ljudski rek, da ima “vsaka vas svoj glas”.

Sodobna standardna slovenščina je v veliki meriše vedno dojeta kot pisni jezik.

Sodobna standardna slovenščina je tako v veliki meriše vedno dojeta kot pisni jezik, medtem ko govorjenoslovenščino sestavlja množica govorjenih variant, kijih določa regionalna in narečna pripadnost, starostnaskupina, stopnja izobrazbe in drugi demografski de-javniki. Regionalni standardi obstajajo in so v rabitudi v javnem govoru, najbolj prestižno obliko govora– zborno izreko – pa uporabljajo bolj ali manj le profe-sionalni govorci na nacionalnem radiu in televiziji ter nauradnih javnih prireditvah.

3.2 ZNAČILNOSTISLOVENSKEGA JEZIKAPrepoznavna značilnost slovenščine, ki ima posledicetudi za računalniško procesiranje naravnega jezika, jeohranjanje dvojine kot slovničnega števila pri sklanjanjusamostalnikov, pridevnikov, zaimkov in števnikov terpri spreganju glagolov. Slovenščina je eden od zelo

redkih indoevropskih jezikov, pri katerih je ta lastnostpreživela razvoj od hipotetičnega protoindoevropskegajezika. Dvojina je pri veliki večini samostalnikov torejizražena z različnimi obrazili (glej Tabelo 1).

Od ostalih lastnosti slovenski samostalniki izkazujejošest sklonov v treh spolih, ki se pregibajo glede naveč sklanjatvenih vzorcev. To pomeni, da obstaja celamnožica pregibnih samostalniških oblik. Pri pride-vnikih je stanje celo bolj zapleteno, saj pridevniki po-leg spola, sklona in števila lahko izražajo tudi stopnjo indoločnost. En sam slovenski pridevnik, npr. “pameten”,lahko tako izkazuje nič manj kot 164 različnih preg-ibnih oblik, kjer ima denimo angleščina le tri: “wise”,“wiser”, “wisest”. Lahko si je predstavljati, kakšen na-por je zato potreben pri učenju slovenščine kot tujegajezika, s tehnološkega stališča pa topomeni, da semorajooblikoslovni označevalniki in skladenjski razčlenjeval-niki za slovenščino spopasti z naborom oblikoskladen-jskih oznak, ki vsebujejo skoraj 2.000 slovničnih oznak.Tako ni čudno, da so nekateri angleško govoreči tuji go-vorci slovenščino poimenovali “nekaj med matematikoin jezikom”, saj niso navajeni izračunavati oblike glede natri spole, tri števila in šest sklonov, preden lahko izrečejoprvi stavek. Pri seminarjih, kjer se poučuje slovenščinakot tuji jezik, so bile zato razvite učne strategije s ciljem,da se učeči razbremenijo tega oblikoslovnega napora.

Če na isto lastnost pogledamo z drugega zornega kota,si je zanimivo ogledati podatke o pogostosti rabe oblik sposameznim slovničnim številom. Študije so pokazale,da je dvojina v besedilih uporabljena pri manj kot 1% samostalnikov, ednina v 75 % in množina v ostalihprimerih. V primerjavi s samostalniki so glagoli bolj“dvojinski” z 2,7 % oblik v dvojini. A ker je dvojina rab-ljena pri relativnomajhnem številu oblik, tomorda kaže,zakaj je postopoma izginila v drugih jezikih – ta procespa je zdaj mogoče opazovati tudi pri slovenščini.

Ker ima slovenščina veliko število pregibnih oblik, jemogoče predvidevati, da besedni red v stavkih ne bo zelo

10

Page 18: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

ednina dvojina množina

stol (m. sp.) stol stola stolimiza (ž. sp.) miza mizi mizeokno (s. sp.) okno okni okna

1: Značilnost slovenščine je ohranjanje slovničnega števila dvojine

strogo določen. Tako kot pri večini slovanskih jezikovje stavčne člene mogoče najti takorekoč na vseh mestihv stavku, te pozicije pa je mogoče tudi menjati. Postav-ljanje členov na različna mesta v stavku pa pomeni, dabomo s tem poudarili različne elemente, ta pojav včasihimenujemo “členitev po aktualnosti”. Iz preprostegastavka s petimi besedami Eva je Adamu dala jabolko, kiga sestavljajo osebek, predmeta v tožilniku in v dajalnikuter povedek, sestavljen iz pomožnega glagola “biti” indeležnika, ki tvorita glagolsko obliko za pretekli čas, jemogoče sestaviti nič manj kot 120 permutacij. Nekatereod teh je mogoče uporabiti za tvorbo vprašanj, nekaterezvenijo nekoliko nenavadno, nekatere bi bilo mogočeuporabiti le v pesniškem besedilu, skoraj vse pa so legit-imne za uporabo v takem ali drugačnem sobesedilu.

Besedni red v slovenščini ni strogo določen,temveč je odvisen od tega, kateri stavčni element

želimo poudariti.

Če preverimo le nekaj možnosti:

Eva je Adamu dala jabolko.[zaporedje, najbližje nevtralnemu besednemu redu]

Eva je dala jabolko Adamu.[poudarek: Adam je bil tisti, ki mu je Eva...]

Adamu je Eva dala jabolko.[poudarek: jabolko je bilo tisto, kar... (in Adam jebil tisti, ki mu je Eva...)]

Adamu je jabolko dala Eva.[poudarek: Eva je bila tista, ki... (in Adam je bil tisti,ki mu je Eva...)]

Jabolko je Eva dala Adamu.[poudarek: Adam je bil tisti, ki mu je Eva... (injabolko je tema stavka)]

Jabolko je Adamu dala Eva.[poudarek: Eva je bila tista, ki je Adamu... (injabolko je tema stavka)]

Zahtevne oblikoslovne lastnosti slovenščine tervprašanje prostega besednega reda ter členitve po aktu-alnosti vplivajo na delovanje vseh jezikovnotehnološkihaplikacij za slovenščino, skupaj z dokaj zapletenimrazmerjem med govorjenim in pisnim jezikom,opisanim v preteklem poglavju.

3.3 RAZVOJ V ZADNJEM ČASUV kolektivnem spominu govorcev slovenščine so trijejeziki, s katerimi je bil v zgodovini vzpostavljen posebenodnos, vsi pa so povezani z državnimi tvorbami, ka-terim so v različnih zgodovinskih obdobjih pripadalaobmočja s slovensko govorečim prebivalstvom. Kerje večina slovenskega ozemlja od časov pred prvimistandardizacijskimi napori v 16. stoletju pa vse dol. 1918 spadala v države pod vladavino Habsburžanov,je bil prvi in najpomembnejši tovrstni jezik nemščina.Habsburška monarhija je bila država, ki so jo sestavljaleštevilne nacionalne in etnične skupine, njena prevladu-joča jezikovna politika pa je bila neke vrste antinacional-istična večjezičnost. To je pomenilo, da obstoj ali ob-vladovanje različnih jezikov nista bila problematizirana,dokler to ni imelo emacipatoričnih protimonarhičnihimplikacij. Proces standardizacije pisne slovenščine v

11

Page 19: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

18. in 19. stoletju sta torej v marsičem določala na enistrani nacionalni emancipatorični naboj, na katerega jenemško govoreči vladajoči sloj gledal z globokim neza-upanjem, ter na drugi strani napor, da bi pri rabi jezikaavtentično slovansko jedro osvobodili nemškega vplivatako v besedišču kot pri slovnici, predvsem z izposojan-jem iz drugih slovanskih jezikov namesto iz nemščine aliz izumljanjem novega besedišča, kjer drugi zgledi nisobili na voljo. Ta proces je definiral osnovni vzorec, nakaterega govorci slovenščine obravnavajo dominantnijezik širšega okolja.

V kolektivnem spominu govorcev slovenščine sotrije jeziki, s katerimi je bil v zgodovini

vzpostavljen poseben odnos: nemščina,srbohrvaščina in angleščina.

Po prvi svetovni vojni in razpadu Avstro-Ogrske jevečina ozemlja s slovensko govorečim prebivalstvompostala del nove državne tvorbe z imenomKraljevina Sr-bov, Hrvatov in Slovencev, ki se je kasneje preimenovalav Kraljevino Jugoslavijo, ta pa se je po drugi svetovni vo-jni preoblikovala v Socialistično federativno republikoJugoslavijo. Z novim okoljem je prišel tudi novi dom-inantni jezik okolja, ki je bil na sebi zanimiv jezikovnipojav, sestavljen po jezikoslovnih naporih v 19. stoletjukot kombinacija hrvaških, srbskih in drugih narečij. Včasu Jugoslavije se je imenoval srbohrvaščina, po njenemrazpadu pa se je razdelil na nič manj kot štiri različnejezike. Čeprav so ti jeziki jezikoslovno pravzaprav naj-bolj sorodni slovenščini, so bolj normativno naravnanijezikoslovci v času Jugoslavije skrbno preverjali, katerobesedišče in skladenjske strukture bi bilomogoče identi-ficirati kot srbohrvaško, večina slovenskega prebivalstvapa se je jezika naučila vsaj pasivno v šoli, preko televizije,revij, stripov, glasbe in drugih popularnih medijev tegaobdobja. Moški del prebivalcev se je s srbohrvaščinosrečal tudi med enoletnim obveznim služenjem vo-jaškega roka v Jugoslovanski ljudski armadi.

Stanje se je radikalno spremenilo, ko so bile po raz-glasitvi neodvisnosti Slovenije in z začetkom vojne naHrvaškem in v Bosni na začetku 90-ih pretrgane vezi zdrugimi deli bivše Jugoslavije. Danes po dvajsetih letihvečina mlajše populacije v Sloveniji teh jezikov ne go-vori, vloga srbohrvaščine kot domnevno ogrožajočegajezika pa je bolj ali manj minila. Toda s širitvijo in-terneta, procesom globalizacije in z vstopom Slovenijev Evropsko unijo l. 2004 je to vlogo po nujnosti pre-vzela angleščina. V zadnjem času potekajo številne de-bate, ali angleščina vdira v slovenščino in jo izkrivlja, po-leg izražanja splošne zaskrbljenosti pa se razprave osre-dotočajo na nekaj področij, kot so imena novoustanov-ljenih podjetij, ki morajo biti “v slovenskem jeziku” terna upad rabe slovenščine v določenih sferah, kot je den-imo visoko šolstvo in raziskovanje.Poleg najbolj perečega vprašanja “anglizmov” bolj nor-mativne reakcije proti onesnaževanju jezika še vednovključujejo tudi “srbohrvatizme” (čeprav mlajše gen-eracije v mnogih primerih ne prepoznavajo več nji-hovega srbskega oz. hrvaškega izvora), medtem ko sonekatere popačene izposojenke iz nemščine ali “nem-cizmi”, kot npr. “šefla” /Schöpelle/ ali “šraufenciger”/Schraubenzieher/, preživele v govorjenem jeziku, v stan-dardnem pisnem jeziku pa jih najdemo le redko. Raz-lični “-izmi” pa so kot značilnost vmesnega jezika medgovorjenim in bolj nadzorovanim standardnim jezikomrazmeroma pogosto v rabi na spletnih forumih, blogih,kratkih sporočilih in v drugih oblikah novih medijev.

3.4 SKRB ZA JEZIK V SLOVENIJIZa jezike z relativno majhnim številom govorcev jeznačilno, da so njihove jezikovne skupnosti občutljiveglede rabe jezika, zato je tudi v Sloveniji jezikovna poli-tika na več področjih bolj nadzorovalna kot mordapri večjih jezikovnih skupnostih. Osrednja institucija,ki ima deklarirano vlogo skrbnika slovenskega jezika,je Inštitut za slovenski jezik Frana Ramovša v okviru

12

Page 20: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Znanstvenoraziskovalnega centra Slovenske akademijeznanosti in umetnosti. Inštitut izdaja slovarje in drugejezikovne priročnike za slovenščino, s “pravopisom”kot osrednjo publikacijo, ki določa želeno in standard-izirano rabo pisnega (in do nekemere tudi govorjenega)jezika. Zadnja verzija pravopisa je bila objavljena l. 2001in je dostopna tudi na spletu [8].

Osrednja institucija, ki ima deklarirano vlogoskrbnika slovenskega jezika, je Inštitut za

slovenski jezik Frana Ramovša.

Poleg določila v 11. členuUstaveRepublike Slovenije, daje “uradni jezik v Sloveniji slovenščina”, rabo slovenščinedoločata še dva posebna zakona. Najpomembnejši jeZakon o javni rabi slovenščine, sprejet l. 2004, ki meddrugim v 28. členu zahteva, da se drugi pravni akt o rabijezika, Resolucija o nacionalnemprogramu za jezikovnopolitiko, posodablja na vsakih pet let. Zadnja resolucijaje bila sprejeta za obdobje 2007–2011, nova je trenutnov pripravi.Poleg omenjenih zakonodaja s tega področja obsega šetri navodila, katerih naslovi kažejo, katera področja sozakonodajna telesa želela podrobneje urediti:

Navodilo o načinu izvajanja javnih prireditev, na ka-terih se uporablja tudi tuji jezik, iz l. 2005,

Navodilo o ugotavljanju jezikovne ustreznosti firmepravne osebe zasebnega prava oziroma imena fizičneosebe, ki opravlja registrirano dejavnost, pri vpisu vsodni register ali drugo uradno evidenco, iz l. 2006,

Uredba o potrebnem znanju slovenščine zaposamezne poklice oziroma delovna mesta vdržavnih organih in organih samoupravnih lokalnihskupnosti ter pri izvajalcih javnih služb in nosilcihjavnih pooblastil, iz l. 2008.

Poleg omenjenih približno 70 zakonov tako ali drugačeomenja ali določa rabo jezika, kar kaže, da je zakon-odajna skrb za slovenščino dokaj intenzivna, zanjo pa

je zadolžena Služba za slovenski jezik na Ministrstvu zakulturo.Eden od zakonov – Zakon o medijih – med drugimdoloča delež slovenske glasbe, ki se predvaja v radijskihprogramih. Ko je vlada l. 2010 delež želela zmanjšati, jeto privedlo do polemike, v kateri so slovenski glasbenikizahtevali, da se delež dvigne s sedanjih 20 % celo napolovico. Lastniki radijskih hiš so na drugi strani trdili,da slovenska glasbena produkcija ni dovolj velika, da bibilo mogoče zagotoviti takšen delež (popularne) glasbezadovoljive kvalitete.

3.5 JEZIK V IZOBRAŽEVANJUVečina predšolskih otrok, osnovnošolcev in srednješol-cev v Sloveniji obiskuje javne vrtce (98,3 %) in šole(99 %), katerih ustanovitelj in financer so država inobčine. V šolskem letu 2009/10 je delovalo 849 os-novnih šol, med katerimi so bile tri zasebne (dve wal-dofski in ena katoliška) ter 136 javnih ter 6 zasebnihsrednjih šol [9].Slovenska zakonodaja določa, da mora poučevanje všolah, ki so del sedanjega izobraževalnega sistema odvrtcev douniverze, potekati v slovenskem jeziku. V itali-janskih manjšinskih vrtcih, osnovnih in srednjih šolahpoteka pouk v italijanščini, slovenščina in madžarščinapa sta v rabi v dvojezičnih šolah na področjih, kjer živimadžarska manjšina. Posebej je urejen pouk za otroke,katerih materni jezik ni slovenščina, izobraževanje rom-skih otrok, otrok tujih državljanov in otrok oseb brezdržavljanstva.Ker govorci slovenskega jezika ne morejo pričakovati,da bodo lahko slovenščino uporabljali v vsakodnevnikomunikaciji izven Slovenije in njene neposredne oko-lice, v skupnosti vlada širok konsenz, da bi vsi prebi-valci morali obvladati vsaj en tuj jezik. Najpopularnej-ša izbira je angleščina, v nekaterih delih tudi nemščina.V sedanjem izobraževalnem sistemu je poučevanje tu-jih jezikov močno spodbujano in prvi tuji jezik (naj-

13

Page 21: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

večkrat angleščina) se poučuje kot obvezni predmet oddevetega leta starosti. Nova Bela knjiga o vzgoji inizobraževanju iz l. 2011 [10] in zakon, ki je v parla-mentarni obravnavi, pa določata, da bi bilo treba za-četek učenja tujega jezika glede na starost potisnitinavzdol na sedem let. Šole pa bi morale poskrbeti zamožnost učenja tujega jezika oz. angleščine od šestegaleta starosti, ko otroci vstopijo v obvezno devetletnoosnovno šolo. Pogosto se učenje angleščine začne žev predšolskem času v vrtcih, spremembe pa so usmer-jene k temu, da bi omogočili nepretrgano učenje tujegajezika od zgodnjega otroštva. V sedanjem sistemu seučenje drugega tujega jezika začne pri starosti dvanaj-st let kot izbirni predmet, v omenjeni Beli knjigi pa jepodan predlog, da bi šole morale ponuditi angleščino,pa tudi francoščino, nemščino, hrvaščino, italijanščino,madžarščino, ruščino, španščino in latinščinokot izbirnipredmet v drugem triletju, ki se začne pri starosti devetlet.

92 % prebivalcev Slovenije v starosti od 25–64let lahko kumunicira vsaj v enem tujem jeziku.

Nedavna raziskava je pokazala, da 92 % prebivalcevSlovenije (od 25–64 let) lahko komunicira vsaj v enemtujem jeziku, od katerih 37,2 % lahko uporablja dva in34,1 % celo tri ali več jezikov [11]. Za trenutno stanje jeznačilno, da znanje angleščine drastično upada s pripad-nostjo starostni skupini:

75,5 % v skupini od 25 do 34 let,

50 % v skupini od 35 do 49 let,

27,8 % v skupini starejših od 50 let.

Znanje nemščine, francoščine in italijanščine se podrugi strani manj spreminja, pri čemer je nemščinapri 30 %, italijanščina pa pri 10 %. Pomembno jepoudariti, da odstotki v raziskavi zajemajo zelo različne

ravni znanja jezika od osnovne ravni komunikacije doodličnega znanja, toda v splošnem podatki kažejo, da jeznanje tujih jezikov v Sloveniji uveljavljena in konsen-zualno sprejeta praksa. Nekoliko bolj izrazite polemikeo rabi slovenščine (in angleščine) je bilo v preteklihletih mogoče spremljati pri visokem šolstvu – z dvemanasprotujočima stališčema glede jezikovne politike. Naeni strani Zakon o visokem šolstvu, sprejet l. 1993,določa, da visokošolski zavod lahko izvaja študijske pro-grame ali njihove dele v tujem jeziku samo v primeru:

če gre za programe poučevanja tujih jezikov;

če pri njihovem izvajanju sodelujejo gostujoči vi-sokošolski učitelji iz tujine ali je vanje vpisano večještevilo tujih študentov;

če se ti programi na visokošolskem zavodu izvajajotudi v slovenskem jeziku.

Delež tujih študentov, ki študirajo v Sloveniji inslovenskih študentov, ki študirajo v tujini, je med

najnižjimi med državami OECD.

Po drugi strani je študija OECD l. 2007 pokazala, da jedelež tujih študentov, ki študirajo v Sloveniji, in sloven-skih študentov, ki študirajo v tujini, med najnižjimimeddržavami OECD. Glede na ugotovitve OECD pred-laga, da bi bilo treba razviti programe, ki bi bili boljprivlačni za tuje študente in da bi bilo treba sprostitizakonodajo, ki omejuje ponudbo programov, ki se izva-jajo v tujih jezikih [12]. Mnoge visokošolske institucijese strinjajo s priporočili OECD in menijo, da je sedanjajezikovna politika preveč zaščitniška. Pričakovati je, dase bodo v tem desetletju smernice nekoliko spremenile,saj nova Resolucija o Nacionalnem programu visokegašolstva 2011–2020 iz marca l. 2011 določa naslednje:

do konca desetletja bo vsaka slovenska visokošolskainstitucija oblikovala nabor študijskih programov, ki

14

Page 22: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

jih bo ponujala v tujih jezikih za tuje študente, pritem so bodo prednostno usmerila v podiplomskeštudijske programe;

slovenske univerze bodo izvajale nekatere študijskeprograme za mednarodno mešane skupine študen-tov;

delež tujih državljanovmed študenti, visokošolskimiučitelji, sodelavci in raziskovalci se bo do leta 2020bistveno povečal, tako da bo skupaj zmednarodnimiaktivnostmi zagotavljal mednarodni značaj sloven-skih visokošolskih institucij [13].

3.6 MEDNARODNI VIDIKIKot je pričakovati, slovenščina izven okvira skupnostinjenih govorcev in statusa enega od uradnih jezikovEvropske unije nima širšega mednarodnega vpliva. Za-nimivo pa je, da obstaja specializirano znanstveno po-dročje, v katerem so slovenski izrazi rabljeni mednaro-dno kot znanstveni termini. V krasoslovju, ki ga Ox-ford English Dictionary definira kot “veda v geomor-fologiji, ki se ukvarja s kraškimi oblikami”, je sloven-ski Kras v svoji nemški različici (“karst”) uporabljen kotgenerični izraz za specifični geološki pojav, ki je bil v19. stoletju prvič raziskan v tem delu Slovenije. Tudidanes je področje Krasa obravnavano kot “klasični kras”v relevantni znanstveni skupnosti. Mednarodno rab-ljeni slovenski izrazi pa med drugim vključujejo “jamo”,“polje”, “ponor” in “strugo”, pri čemer vsi označujejospecifične kraške pojave.

Poznavanje slovenske literature izven Slovenije je ome-jeno na sosednje države ter na Srednjo Evropo terBalkan, s katerima je Slovenija zgodovinsko povezana.Najbolj znan in prevajan še živeči slovenski literarni av-tor je Drago Jančar. Kot ambasador slovenske znanostipa je eden od bolj znanih in mednarodno prepoznavnihosebnosti filozof Slavoj Žižek, ki ga običajno povezujejos filozofsko tradicijo hegeljanstva, marksizma, predvsem

pa z lacanovsko psihoanalizo. Žižek je kot kontroverznaosebnost pritegnil precejšnjo pozornost in je bil označenvse od “akademske rock zvezde” v New York Timesu do“najnevarnejšega filozofa na Zahodu” v nemškem DerSpieglu. Njegova dela in predavanja (ki jih včasih opisu-jejo kot predavanja-performansi) na provokativen načinpovezujejo teme od popkulture in vsakdanjega življenjaz zahtevnimi filozofskimi koncepti, pri čemer običajnozavestno postavlja pod vprašaj temeljne in splošno spre-jete ideje zahodne filozofije.

Slovenščina izven okvira skupnosti njenihgovorcev in statusa enega od uradnih jezikovEvropske unije nima širšega mednarodnega

vpliva.

Za mednarodno promocijo slovenske literature, pre-vode slovenskih avtorjev v tuje jezike in za splošno pod-poro literarni produkciji skrbi Javna agencija za kn-jigo, neodvisna državna agencija, ki je bila ustanovljenal. 2009 [14]. Kot relativno majhna skupnost z ustreznomajhno literarno produkcijo so govorci slovenščine vprecejšnji meri odvisni tudi od prevajanja tuje literaturein drugih knjižnih zvrsti. Statistični podatki kažejo, daje bilo v letu 2009 izdanih 6.139 novih knjig, od tega 71% izvirnih del v slovenščini ter 29 % prevodov. Od tehje bilo 1.473 literarnih del s 37-odstotnim deležem ro-manov, 26%kratke proze, 20%poezije in 1%dramskihdel.Država Slovenija poučevanje inmednarodno promocijoslovenščine kot tujega jezika podpira preko Centra zaslovenščino kot drugi/tuji jezik, ki je organizacijsko deloddelka za slovenistiko na Filozofski fakulteti Univerzev Ljubljani [15]. Center podpira in promovira med-narodno raziskovanje slovenskega jezika in literature,organizira strokovne in znanstvene konference in vz-držuje infrastrukturo za pridobivanje, preverjanje in cer-tificiranje znanja slovenščine kot tujega/drugega jezika.Eden od programov Centra, ki se imenuje Slovenščina

15

Page 23: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

na tujih univerzah, študentom po svetu omogoča študijslovenskega jezika. Trenutno slovenščino ob podporiMinistrstva za visoko šolstvo, znanost in tehnologijopoučujejo na 57 lektoratih.

3.7 SLOVENŠČINA NAINTERNETUPo podatkih Statističnega urada Republike Slovenije jeimelo v prvi četrtini leta 2010 dostop do interneta 68% gospodinjstev (62 % s širokopasovnim dostopom).Statistika kaže, da je 49 % oseb v starosti 10–74 let in-ternet uporabljalo za izobraževanje; 44 % oseb je prekinterneta pridobivalo nova znanja in informacije, 26 %pa informacije o izobraževanju in tečajih; tečaje je prekinterneta (e-izobraževanje) opravljalo 5% oseb. Nadaljeje 71 % od teh oseb že uporabilo iskalnik za iskanje in-formacij, elektronsko pošto s pripetimi datotekami ježe pošiljalo 58 % oseb, 30 % oseb je že kdaj pošiljalosporočila v spletne klepetalnice, novičarske skupine alispletne forume, 24 % jih je že uporabilo peer-to-peer iz-menjavo filmov, glasbe ali drugih datotek, 22 % oseb ježe uporabljalo internet za telefoniranje, 11 % oseb paje že kdaj oblikovalo spletno stran. Te številke pa bodoverjetno v prihodnosti še narasle: 69 % oseb v starosti10–15 let je internet uporabljalo vsak ali skoraj vsak dan,mobilni telefon pa je uporabljalo 98% oseb v tej starosti[16].Poleg mednarodnih spletnih strani so najpopularnejšestrani na slovenskem delu spleta slovenski novičarskiportali (24u.com, rtvslo.si in siol.net) ter lokalni spletniiskalnik najdi.si. Slovenska Vikipedija kot pomemben

vir za procesiranje naravnega jezika vsebuje nekaj manjkot 115.000 člankov, kar je precej manj od največjihVikipedij – angleške, nemške in francoske, po številučlankov pa je na 35. mestu blizu bolgarske, hrvaškein slovaške [17]. Uspešen projekt s prostodostopnimijezikovni viri se nahaja tudi v okviru portala Vikivir, kjerse zbirajo starejša literarna in druga dela [18].

V Sloveniji je l. 2010 69 % oseb vstarosti 10–15 let uporabljalo internet

vsak ali skoraj vsak dan, mobilni telefon pa jeuporabljalo 98 % oseb v tej starosti.

Iskanje po spletu je tudi sicer najpogosteje rabljenaspletna aplikacija, ta pa predpostavlja avtomatsko proce-siranje jezika na več nivojih, kot bo podrobneje opisanov drugem delu. Tehnologije procesiranja se pri vsakemjeziku malce razlikujejo, pri slovenščini, ki ima zah-tevno oblikoslovno podobo pa sta zelo pomembni kr-nenje (ohranjanje krna oz. osnove pri pregibnih ob-likah besed) in lematizacija (pripisovanje osnovne ob-like pregibnim oblikam besed). Uporabniki spleta inponudniki spletnih vsebin imajo korist od jezikovnihtehnologij tudi na bolj posreden način, npr. s strojnimprevajanjem spletnih strani. Glede na visoke stroškeročnega prevajanja vsebin in predpostavljene visokepotrebe, pa je bilo za slovenščino razvitih in uporab-ljenih relativno malo jezikovnih tehnologij.V naslednjem poglavju predstavljamo jezikovnetehnologije in ključna področja uporabe. Poleg tegapoglavlje vsebuje evalvacijo trenutnega stanja jezikovnihtehnologij za slovenščino.

16

Page 24: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

4

JEZIKOVNE TEHNOLOGIJEZA SLOVENŠČINO

Jezikovne tehnologije so računalniški sistemi, namen-jeni obdelavi jezika, ki ga ljudje uporabljajo za komu-niciranje, zato jih včasih imenujemo tudi “tehnologijeza obdelavo človeškega jezika”. Jeziki imajo dve obliki– pisno in govorno. Govor je najstarejša in v smislučloveške evolucije najbolj naravna oblika jezikovne ko-munikacije. V tekstovni obliki pa so shranjene kom-pleksne informacije in večina človeškega znanja seprenaša v tej obliki. S pomočjo govornih in tek-stovnih tehnologij obdelujemo ali tvorimo ti različniobliki jezika, pri obeh oblikah pa uporabljamo slovarje,slovnična pravila in semantiko. To pomeni, da jezikovnetehnologije jezik povezujejo z različnimi oblikamiznanja, neodvisno od izraznegamedija (govor ali tekst).Slika 2 prikazuje jezikovnotehnološko pokrajino. Kokomuniciramo, jeziku dodajamo druga komunikacij-ska in informacijska sredstva – govor na primer lahkokombiniramo z gestikulacijo in obrazno mimiko. Dig-italna besedila imajo povezave na slike in zvoke. Filmivsebujejo jezik v govorjeni in tekstovni obliki. Zdrugimi besedami, govorne in tekstovne tehnologije seprekrivajo in povezujejo z drugimi tehnologijami, kiomogočajo procesiranje multimodalne komunikacije invečpredstavnih dokumentov.

V nadaljevanju obravnavamo glavna področja, kjerse uporabljajo jezikovne tehnologije, npr. preverjanjejezikovne ustreznosti, spletno iskanje, govorno komuni-ciranje in strojno prevajanje. Ta vključujejo aplikacije intemeljne tehnologije, kot so:

preverjanje črkovanja

podpora sestavljanju besedil

računalniško podprto učenje jezikov

informacijsko poizvedovanje

luščenje informacij

avtomatsko povzemanje

avtomatsko odgovarjanje na vprašanja

prepoznava govora

sinteza govora

Jezikovne tehnologije so uveljavljeno raziskovalnopodročje z obsežno temeljno literaturo, zaintere-sirani bralci lahko preberejo naslednja dela: [19,20, 21, 22, 23]. Pred obravnavo omenjenih po-dročij bomo na kratko opisali arhitekturo tipičnegajezikovnotehnološkega sistema.

4.1 PROCESNA ARHITEKTURAProgrami za obdelavo jezika so tipično sestavljeni iz večkomponent, ki ustrezajo različnim jezikovnim ravni-nam. Slika 3 prikazuje poenostavljeno arhitekturo, ki joje mogoče najti v tipičnem sistemu za obdelavo jezika.Prvi trije moduli so namenjeni obdelavi strukture inpomena besedila:

1. predobdelava: v tem postopku čistimo podatke,analiziramo ali odstranimo formatiranje, prepoz-navamo jezik, preverjamopravilnost znakov “čšž” prislovenščini itd.

17

Page 25: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

večpredstavne & multimodalne tehnologije

jezikovne tehnologije

govorne tehnologije

tekstovne tehnologije

tehnologije znanja

2: jezikovne tehnologije

2. slovnična analiza: v tempostopku določimo glagole,njihove slovnične predmete, določila, druge besednevrste in razčlenimo stavčne strukture.

3. semantična analiza: v tem postopku izvedemo razd-voumljanje (tj. preračunamo ustrezni pomen besedev konkretnem sobesedilu); razrešimo anaforičnarazmerja (tj. na katere samostalnike se nanašajo za-imki v stavku) in izvedemo nadomeščanje izrazov;pomen stavka zapišemona način, ki je strojno berljiv.

Po analizi besedila lahko moduli, namenjeni različnimnalogam, izvedejo druge operacije, kot je avtomatskopovzemanje in pregledovanje baze. To je poenostav-ljen in idealiziran opis procesne arhitekture in nakazujekompleksnost jezikovnotehnoloških aplikacij.Po predstavitvi ključnih aplikacij sledi kratek pre-gled današnjega stanja pri raziskovanju in poučevanju

jezikovnih tehnologij ter pregled preteklih in tekočihraziskovalnih programov. Zatem bo predstavljenastrokovna ocena temeljnih jezikovnotehnoloških orodijin virov glede na različne kriterije, kot so dostop-nost, zrelost in kakovost. Splošno stanje pri jezikovnihtehnologijah za slovenščino je povzeto v tabelarni obliki(tabela 9) na strani 31. Orodja in viri, ki so v besedilu vkrepkem tisku, so navedeni v tabeli. Temu sledi primer-java stanja pri slovenščini z drugimi jeziki, ki so biliobravnavani v seriji Bela knjiga META-NET.

4.2 KLJUČNE APLIKACIJEV tem delu opisujemo najpomembnejša jezikovno-tehnološka orodja in vire ter podajamo pregled doga-janja pri jezikovnih tehnologijah v Sloveniji.

vhodno besedilo

predobdelava slovnična analiza semantična analiza moduli, namenjeni različnim nalogam

izhod

3: tipična arhitektura sistema za obdelavo besedila

18

Page 26: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

4.2.1 Preverjanje jezikovne ustreznosti

Vsi, ki so kdaj uporabljali urejevalnik besedil kotnpr. Microso Word, vedo, da je v paketu tudi črko-valnik, ki podčrta napake pri črkovanju in predlagapopravke. Prvi programi za črkovanje so primerjali listobesed iz besedila ter slovar pravilno črkovanih besed.Danes so ti programi bistveno bolj izpopolnjeni. Zuporabo jezikovno neodvisnih algoritmov pri slovničnianalizi besedila zaznavajo napake, povezane z oblikamibesed (npr. sklonske oblike) kot tudi skladenjske na-pake, kot so denimo manjkajoči glagol ali neujemanjemed osebkom in povedkom (npr. *šla smo v kino).Večina črkovalnikov pa ne bo našla napak v naslednjem(angleškem) besedilu [24]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Za obravnavo te vrste napak je navadnopotrebna analizasobesedila. Na primer pri vprašanju, ali je v naslednjemprimeru treba uporabiti veliko začetnico ali ne:

Preselili smo se v Vodice.

Limonin vonj brivske odice.

Taka analiza se bodisi zanaša na slovnice, ki jihstrokovnjaki v dolgotrajnem procesu vprogramirajo vračunalniške programe za vsak jezik posebej, ali pana statistične jezikovne modele. V zadnjem primeru

model za posamezno besedo izračuna verjetnost, da sebo pojavila na določenem mestu (npr. med besedami,ki so pred njo ali ji sledijo). Na primer: brivskeodice (“vodice” z malo začetnico) je veliko bolj ver-jetno zaporedje kot brivske Vodice (“Vodice” z velikozačetnico). Statistični jezikovni model je mogoče ust-variti avtomatsko z uporabo večje količine (pravilnih)jezikovnih podatkov (te podatke imenujemo besedilnikorpus). Oba pristopa sta bila večinoma razvita napodlagi podatkov iz angleščine. Nobenega od njiju pani mogoče enostavno prenesti v slovenščino, predvsemzaradi prostega besednega reda in množice različnihbesednih oblik.

Preverjanje jezikovne ustreznosti pa ni omejeno na ure-jevalnike besedil. Uprablja se tudi v t. i. “sistemih zapodporo pisanju” oz. “avtorskih sistemih”. To so pro-gramska okolja, v katerih nastajajo navodila, priročnikiin druga dokumentacija, ki so napisani v skladu s poseb-nimi standardi za zahtevne informacijsko-tehnološke,zdravstvene, tehnične in druge proizvode. Zaradi strahupred pritožbami strank zaradi nepravilne uporabe inpred odškodninskimi tožbami zaradi nerazumljivihnavodil se podjetja vedno bolj ukvarjajo s kakovostjotehnične dokumentacije, pri čemer hkrati ciljajo namednarodni trg (s pomočjo prevajanja ali lokalizacije).Napredek pri procesiranju naravnih jezikov je takospodbudil izdelavo programov za podporo pisanju, kipiscem tehnične dokumentacije pomaga uporabljatibesedišče in stavčne strukture, ki se skladajo s pravili in-dustrije in terminološkimi omejitvami v podjetjih.

vhodno besedilo preverjanje črkovanja preverjanje slovnice predlagani popravki

statistični jezikovni model

4: preverjanje jezikovne ustreznosti (zgoraj: statistično, spodaj: na podlagi pravil)

19

Page 27: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Poleg črkovalnikov in avtorskih sistemov je preverjanjejezikovne ustreznosti tudi pomemben del računalniškopodprtega učenja jezikov. Orodja za preverjanje črko-vanja pa so tudi del spletnih iskalnikov, kot npr. pripredlogih, ki jih Google ponuja s funkcijo “Ste mordamislili: …”.

Naprednejše preverjanje slovnice je omejeno naprogramski paket BesAna, avtorski sistemi, ki bi

vključevali slovenščino, pa dejansko ne obstajajo.

Črkovalniki za slovenščino imajo relativno dolgo tradi-cijo z začetkom v zgodnjih 90-ih letih prejšnjega sto-letja. Edini program, ki je ostal na tržišču kot samostojniprogramski paket, je μBesAna računalniškega podjetjaAmebis [25]. Isto podjetje ponuja tudi druga orodja,kot npr. slovnični pregledovalnik (BesAna) [26], delil-nik (za deljenje besed na koncu vrstice), lematizator(pripisovanje osnovnih oblik pregibnim oblikam) itd.Prosto dostopni črkovalniki za slovenščino so na voljoše v paketu OpenOffice, Mozilla Firefox/underbirdin v nekaterih drugih aplikacijah, kot npr. v spletnemiskalniku najdi.si. Po drugi strani pa je naprednejše pre-verjanje slovnice omejeno zgolj na programski paket Be-sAna, avtorski sistemi, ki bi vključevali slovenščino, padejansko ne obstajajo.

4.2.2 Iskanje po spletu

Iskanje po spletu, intranetih ali digitalnih knjižnicahpredstavlja najbrž najbolj pogosto, a hkrati tehnološkodokaj slabo razvito uporabo jezikovnih tehnologijdanes. Googlov spletni iskalnik, ki je bil postav-ljen na splet 1998, zdaj obvladuje približno 80 %poizvedovanj na spletu. Spletni vmesnik Googlovegaiskalnika in prikaz zadetkov se od prve verzije nibistveno spremenil, v sedanji različici pa Google ponujatudi popravke pri črkovanju narobe zapisanih besedin vključuje osnovne možnosti semantičnega iskanja,

ki lahko izboljšajo natančnost iskalnika z analizo po-mena izrazov v sobesedilu poizvedbe [27]. Googlovazgodba o uspehu kaže, da je pri veliki količini podatkovin z učinkovitimi tehnikami indeksiranja s statističnimpristopom mogoče priti do zadovoljivih rezultatov.

Pri pomenski interpretaciji besedila je za bolj zahtevnoiskanje informacij nujno vključiti globlje jezikoslovnoznanje. Poskusi z uporabo leksikalnih virov, kot sostrojno berljivi tezavri ali ontologije (npr. WordNet zaangleščino in sloWNet za slovenščino [28]), so pokazali,da je iskanje spletnih strani mogoče izboljšati z uporabosopomenk izvornih iskalnih izrazov, kot so npr. atom-ska / jedrska / nuklearna energija ali celo bolj ohlapnopovezanih izrazov.

Naslednja generacija spletnih iskalnikov bo morala vse-bovati precej bolj zapletene jezikovne tehnologije, šeposebno pri obdelavi poizvedovanj, ki so zapisana kotvprašanje oz. v stavčni obliki, ne le kot lista ključnihbesed. Za poizvedbo “poišči spisek vseh podjetij, ki sojih prevzela druga podjetja v zadnjih petih letih” morajezikovnotehnološki sistem analizirati skladnjo in po-men stavka ter za hitro izbiro relevantnih dokumentovizdelati indeks. Da bi prišli do zadovoljivega odgovora,mora skladenjski razčlenjevalnik analizirati skladenjskostrukturo stavka in ugotoviti, da uporabnik želi spisektistih podjetij, ki so bila prevzeta, in ne tistih, ki soprevzemala. Pri izrazu “v zadnjih petih letih” sistemmora določiti, za katera leta gre. Poizvedbo pa jetreba potem primerjati z ogromno količino nestruk-turiranih podatkov, da bi našli eno ali več informacij,ki jih potrebuje uporabnik. Ta postopek se imenuje“informacijsko poizvedovanje” in vključuje iskanje terrazvrščanje relevantnih dokumentov po pomembnosti.Da bi proizvedel spisek podjetij, mora povrhu tega sis-tem določene nize besed v dokumentu tudi prepoznatikot imena podjetij, ta proces pa imenujemo “prepozna-vanje imenskih entitet”.

20

Page 28: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

uporabnikova poizvedba

spletne strani

predobdelava analiza poizvedbe

predobdelava semantična obdelava indeksiranje

ujemanje &

relevantnost

rezultati iskanja

5: iskanje po spletu

Še bolj zahtevna naloga je primerjava poizvedbe venem jeziku z dokumenti v drugem jeziku. Med-jezično informacijsko poizvedovanje vključuje strojnoprevajanje poizvedbe v vse mogoče izvorne jezike innaknadno prevajanje rezultatov nazaj v ciljne jezike. Vzadnjem času podatke vedno pogosteje najdemo tudi vnebesedilnih formatih, zato nastaja potreba po servisih,ki izvajajo večpredstavno informacijsko poizvedovanje.V primeru zvočnih in video datotek modul za prepoz-navo govora mora pretvoriti govor v besedilo (ali vfonetični prepis), ki ga je potem mogoče uporabiti kotuporabniško poizvedbo.

Podjetja, ki se ukvarjajo s spletnim iskanjem, kot os-novno iskalniško infrastrukturo pogosto uporabljajoprostokodne tehnologije kot Lucene in Solr. Drugapodjetja, kot npr. FAST (norveško podjetje, ki ga jel. 2008 kupil Microso) ali francosko podjetje Exalead,se zanašajo na mednarodno uveljavljene tehnologije.

Ta podjetja se pri razvoju osredotočajo na dodatkein napredne iskalnike za posebne portale, pri katerihuporabljajo semantiko, povezano s specializiranim po-

dročjem. Zaradi nenehnega velikega povpraševanja poprocesorski moči so taki iskalniki uspešni le pri ob-delavi relativnomajhnih količin besedil. Procesorski časje nekajtisočkrat večji kot pri standardnih statističnihiskalnikih, kakršen je Google. Povpraševanje po tehiskalnikih je zato veliko pri področno omejenem mo-deliranju, ni pa jih mogoče uporabiti za iskanje po mili-jardah dokumentov na spletu.

Naslednja generacija spletnih iskalnikov bomorala vsebovati precej bolj zapletene jezikovne

tehnologije.

V slovenskem okolju najdi.si ponuja iskanje poslovenskem delu spleta, poleg tega imajo tudi iskalnikeza intranete, specifične spletne strani itd. Gre za dobrouveljavljen portal, ki ga je mogoče najti na prvih mestihobiskanosti med vsem spletnimi stranmi v Sloveniji[29]. Toda bolj zahtevne iskalne tehnike še niso bilerazvite za slovenščino in procesiranje jezika v iskalnikihje bolj ali manj omejeno na t. i. krnenje.

21

Page 29: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

4.2.3 Govorna komunikacija

Govorne tehnologije se uporabljajo za izdelavo računal-niških vmesnikih, ki uporabnikom omogočajo komu-nikacijo s pomočjo govora namesto z grafičnim vmes-nikom, tipkovnico in miško. Danes so govorni uporab-niški vmesniki (VUI – Voice User Interface) običajnodel delno ali popolnoma avtomatiziranih telefonskihservisov, ki jih podjetja uporabljajo za stranke, zaposleneali partnerje. Komercialna področja, ki se pri poslovanjunajbolj opirajo na VUI, so bančništvo, dobavne verige,javni prevoz in telekomunikacije. Govorne tehnologijeso poleg tega v uporabi tudi pri avtomobilskih navigacij-skih sistemih in kot alternativa grafičnim vmesnikom invmesnikom z zaslonom na dotik v pametnih mobilnihtelefonih.Govorne tehnologije vključujejo štiri različnetehnologije:

1. z avtomatsko razpoznavo govora (ASR – Auto-matic Speech Recognition) določimo, katere besedeso bile dejansko izgovorjene v nizu zvokov, ki jih jeproizvedel uporabnik;

2. z razumevanjem naravnega jezika analiziramoskladenjske strukture v uporabnikovi izjavi in jihinterpretiramo v skladu s sprejetim sistemom;

3. s sistemom dialoga določimo, kakšno dejanje moraslediti glede na uporabnikov vnos in funkcionalnostsistema;

4. s sintezo govora (Text-To-Speech ali TTS) pretvo-rimo odgovor sistema v zvok, ki ga sliši uporabnik.

Glavni izziv sistemov ASR je uspešna razpoznava besed,ki jih izgovori uporabnik. To pomeni, da razponmožnih izjav omejimo na zaključen niz ključnih besedali da ročno ustvarimo jezikovne modele, ki pokri-vajo vso paleto možnih izjav v naravnem jeziku. Stehnikami strojnega učenja lahko jezikovne modele ust-varimo tudi avtomatično iz govornih korpusov – ve-likih zbirk zvočnih datotek z govorom in njihovimi

transkripcijami oz. prepisi. Če v govornih vmesnikihdovoljeni vnos govora omejimo, s tem navadno prisil-imo ljudi, da jih uporabljajo na tog način, in to lahkookrni uporabniško izkušnjo; ustvarjanje, prilagajanje invzdrževanje bogatih jezikovnihmodelovpamočno zvišastroške. Govorni vmesniki, ki uporabljajo jezikovnemo-dele in na začetku dopustijo uporabniku, da izrazi svojnamen bolj prožno – po začetnem pozdravu Kako vamlahko pomagamo? – so navadno avtomatizirani in jihuporabniki bolje sprejemajo.

Podjetja za sestavljanje odgovorov v govornih vmesnikihnavadno uporabljajo predhodno posnete izjave profe-sionalnih govorcev. Pri statičnih izjavah, kjer besedilo niodvisno od okoliščin ali osebnih podatkov uporabnika,to lahko zadostuje za dobro uporabniško izkušnjo, todapri dinamični vsebini izjave to lahko vodi do nenaravneintonacije, ker so delčki zvočnih datotek preprosto zle-pljeni skupaj. Današnji sistemi TTS se izboljšujejo inustvarjajo dinamične izjave, ki zvenijo naravno (čepravbi jih bilo mogoče še optimizirati).

Govorne tehnologije se uporabljajo za izdelavoračunalniških vmesnikov, ki uporabnikom

omogočajo komunikacijo s pomočjo govoranamesto z grafičnim vmesnikom, tipkovnico in

miško.

V zadnjem desetletju so vmesniki pri govor-notehnoloških aplikacijah na tržišču postali precej stan-dardizirani, vsaj glede različnih tehnoloških kompo-nent. Pri razpoznavi in sintezi govora je prišlo do znatnekonsolidacije trga. Na nacionalnih trgih v državahG20 (skupina najhitreje rastočih gospodarstev z velikimštevilom prebivalcev) prevladuje le pet globalnih igral-cev, pri čemer sta v Evropi najbolj izpostavljena Nuance(ZDA) inLoquendo (Italija). V letu 2011 jeNuance na-javil prevzem Loquenda, kar predstavlja naslednji korakpri konsolidaciji trga.

22

Page 30: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

govor na vhodu obdelava signalov

govor na izhodu sinteza govora fonetično preverjanje & načrtovanje intonacije

razumevanje naravnega jezika

& dialog

razpoznava

6: arhitektura govornega sistema dialoga

Govorne tehnologije so glede na splošno razvitostjezikovnih tehnologij za slovenščino verjetno njihovnajbolj zrel del. V preteklosti so bile tudi relativnobolje finančno podprte z raziskovalnimi projekti, pričemer bi bilo mogoče ugibati, da je razlog tesnejšapovezava s tradicionalno bolj uveljavljenimi področjielektrotehnike in računalništva, v primerjavi z boljjezikoslovno usmerjenimi raziskavami pisnih besedil.Z govornimi tehnologijami se v Sloveniji ukvarja večraziskovalnih centrov, med njimi Laboratorij za umetnozaznavanje, sisteme in kibernetiko na Fakulteti za elek-trotehniko, Laboratorij za arhitekturo in procesiranjesignalov na Fakulteti za računalništvo in informatiko,oba pripadata Univerzi v Ljubljani, Laboratorij zadigitalno procesiranje signalov na Fakulteti za elek-trotehniko, računalništvo in informatiko Univerze vMariboru ter Odsek za inteligentne sisteme na Institutu“Jožef Stefan” v Ljubljani.

Na tržišču sta na voljo dva sistema TTS za slovenščino,oba sta bila razvita v sodelovanju med industrijskim inakademskim partnerjem. Sistem Govorec je bil razvitv sodelovanju med Institutom “Jožef Stefan” in podjet-jem Amebis in je v uporabi v več aplikacijah, npr. naspletnemportaluRTVSlovenija, v okviru vladnega por-tala e-uprava itd [30]. Drugi sistem TTS z imenomProteus je bil razvit v podjetju Alpineon, v sodelo-vanju s Fakulteto za elektrotehniko Univerze v Ljub-ljani [31]. Med leti 2004–2008 je skupina partner-

jev z Alpineonom kot vodilno institucijo razvila sistemza prevajanje govora (SST – Speech-to-Speech Transla-tion), imenovan VoiceTran po nazivu dveh zaporednihprojektov [32]. Drugi sistem SST (Babilon) nastajana Fakulteti za elektrotehniko računalništvo in infor-matiko Univerze v Mariboru, ista institucija pa razvijatudi večjezični sistem TTS z imenom Plattos ter sistemza govorni nadzor telefonov (govoFon) [33]. V naspro-tju s sistemi za sintezo govora (TTS), nobeden od siste-mov za prevajanje govora ni na voljo na tržišču.

Lokalni tržni izdelki za avtomatsko razpoznavo govora(ASR), ki vključujejo slovenščino, ne obstajajo izven sis-temov, ki so jih razvile globalne korporacije s tega po-dročja. Obstoječe aplikacije so omejene na projekte,kot so govorno vodeni informacijski portal festivalaLent, [34] sistem za rezervacijo vstopnic M-vstopnicain podobni [35]. Toda to so pilotni projekti in uporab-ljajo besedišče, ki je močno omejeno na vnaprej določenspisek festivalskih dogodkov, filmov, ki jih prikazujejo vkinu itd.

S širitvijo rabe pametnih telefonov kot nove platformeza komunikacijo med uporabniki – poleg stacionarnetelefonije, interneta in elektronske pošte – lahko v pri-hodnosti pričakujemo precejšnje spremembe, kar bovplivalo tudi na rabo govornih tehnologij. Na dolgi rokbo vedno manj telefonskih vmesnikov, govorjeni jezikpa bo igral vedno večjo vlogo kot uporabniško prijazenvnosni medij za pametne telefone. Ta bo temeljil na

23

Page 31: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

postopnih izboljšavah natančnosti prepoznave govoraneodvisno od govorca, s pomočjo centralizirane storitvediktiranja oz. nareka, ki jo ponudniki že zagotavljajouporabnikom pametnih telefonov.

4.2.4 Strojno prevajanje

Zamisel o uporabi računalnika za prevajanje naravnegajezika sega v oddaljeno leto 1946, tovrstne raziskave sobilemočnofinančnopodprte v 50-ih inponovnov80-ihletih prejšnjega stoletja. Toda strojno prevajanje (MT– Machine Translation) še vedno ne izpolnjuje prvotneobljube o docela avtomatiziranem prevajanju.

Najosnovnejši pristop k strojnemu prevajanju jeavtomatsko nadomeščanje besed iz besedila v

enem jeziku z besedami v drugem jeziku.

Najosnovnejši pristop k strojnemu prevajanju je av-tomatsko nadomeščanje besed iz besedila v enem jezikuz besedami v drugem jeziku. To je lahko uporabno nadoločenih omejenih področjih, kot denimo pri vremen-skih napovedih. Da pa bi prišli do dobrih prevodovmanj standardiziranih besedil, je treba za večje enotebesedila (besedne zveze, stavke, celo odlomke) v ciljnemjeziku najti ustreznice, ki najbolje nadomeščajo izvornedele. Največja zadrega pri tem je, da so naravni jezikidvoumni. Dvoumnost je izziv na večnivojih, denimoprirazločevanju pomenovna ravni besedišča (jaguar kot av-tomobilska znamka ali kot žival) ali pri pripisu pravegasklona na skladenjski ravni, npr.:

e woman saw the car and her husband, too.

[Ženska je videla avto in tudi svojega moža.][Ženska je videla avto in njen mož tudi.]

Eden od načinov izgradnje sistema za strojno prevajanjeje s pomočjo jezikoslovnih pravil. Za prevajanje sorod-nih jezikov je prevod z neposrednim nadomeščanjem

do neke mere izvedljiv. Sistemi na podlagi pravil (alina podlagi jezikoslovnega znanja) analizirajo vhodnobesedilo in ustvarijo vmesni simbolni prikaz besedila, izkaterega je mogoče sestaviti besedilo v ciljnem jeziku.Uspešnost teh metod je močno odvisna od dostopnostivelikih leksikonov z oblikoslovnimi, skladenjskimi in se-mantičnimi podatki ter nizov slovničnih pravil, ki jihskrbno oblikujejo izkušeni jezikoslovci. To je zelo dolgin zato drag proces.

V poznih 80-ih letih, ko je procesorska moč narasla inpostala cenejša, je naraslo zanimanje za statistične mo-dele strojnega prevajanja. Ti izhajajo iz analiziranja dvo-jezičnih besedilnih korpusov, kot je denimo vzporednikorpus Europarl, ki vsebuje razprave iz evropskega par-lamenta v 21 jezikih. Ob zadostni količini podatkovstatistično strojno prevajanje deluje dovolj dobro, da sprocesiranjem vzporednih verzij besedila in iskanjemverjetnih vzorcev besed proizvede približen pomen v tu-jejezičnem besedilu. V nasprotju s sistemi, ki temeljijona jezikoslovnem znanju (knowledge-driven), statis-tični ali na podatkih temelječi (data-driven) sistemistrojnega prevajanja pogosto proizvedejo negramatičneoz. slovnično nepravilne prevode. Statistično strojnoprevajanje ima prednost, da zahteva manj človeškeganapora, upošteva pa lahko tudi jezikovne posebnosti(npr. idiomatske izraze), ki jih na jezikoslovnem znanjutemelječi sistemi navadno ne zaznavajo.

Prednosti in slabosti obeh pristopov k strojnemu preva-janju se med sabo dopolnjujejo, zato se v zadnjem časuraziskovalci ukvarjajo s hibridnimi pristopi, pri katerihkombinirajo obe metodologiji. Pri enem pristopu obasistema uporabljajo skupaj z izbirnim modulom, ki od-loča o najboljšemprevodu za vsak stavek posebej. Rezul-tati za stavke, ki so daljši od npr. 12 besed pa so pogostodokaj slabi. Boljša rešitev je kombiniranje najboljših de-lov vsakega stavka iz več sistemov; to lahko postane pre-cej zahtevno, ker ustrezni deli iz več alternativnih pre-vodov niso vedno razvidni in jih je treba zato uskladiti.

24

Page 32: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

statistično strojno

prevajanje

besedilo v izvornem jeziku

besedilo v ciljnem jeziku

analiza besedila (formatiranje, oblikoslovje, skladnja itd.)

tvorba besedila

pravila prevajanja

7: strojno prevajanje (levo: statistično, desno: na podlagi pravil)

Pri sistemih strojnega prevajanja obstaja še precejšen po-tencial za izboljšanje kvalitete. Izziv je predvsem pri-lagajanje jezikovnih virov posameznim specializiranimpodročjem ter vključevanje tehnologij v sisteme, ki ževsebujejo terminološke baze podatkov in pomnilnikeprevodov. Dostopnost večjih količin besedil v dvehjezikih je ključen za statistično strojno prevajanje. Vz-poredni korpusi z več pari jezikov trenutno nastajajotudi za slovenski jezik, največji je Evrokorpus s 74 mili-joni besed pri angleško-slovenskem paru, večinoma paso v njem pravna besedila.Pri primerjanju sistemov strojnega prevajanja, različnihpristopov in statusa sistemov za različne pare jezikov sov pomoč evalvacijske študije. Spodnja tabela 8(p. 26), kije bila izdelana v okviru evropskega raziskovalnega pro-jekta Euromatrix+ [36], kaže uspešnost prevajanja pri22-ih parih od 23 uradnih jezikov EU (irščina ni bilavključena). Rezultati so razvrščeni po izračunu BLEU,pri katerem višje številke pomenijo boljši prevod [37].(Prevajalec bi dosegel približno 80 točk.)

Pri sistemih strojnega prevajanja obstajaprecejšen potencial za izboljšanje kvalitete.

Najboljše rezultate (v zeleni in modri barvi) dosegajojeziki, ki izkoriščajo pretekle znatne raziskovalne na-pore v koordiniranih programih ter obstoj množice vz-porednih korpusov (npr. angleščina, francoščina, ni-

zozemščina, španščina in nemščina). Rezultati prijezikih s slabšimi rezultati so prikazani v rdeči barvi.Pri teh jezikih bodisi ni bilo vlaganj v razvoj alipa se strukturno zelo razlikujejo od drugih jezikov(npr. madžarščina, malteščina, finščina).

Poleg dveh znanih prosto dostopnih statističnih siste-mov strojnega prevajanja podjetij Microso in Google,ki vključujeta tudi slovenski jezik, obstaja le en sis-tem, ki je bil razvit do te mere, da je dostopen tudi natržišču. Prevajalni sistemPresis [38], ki ga je razvilo pod-jetje Amebis, deluje na podlagi pravil in vključuje tuditehnologijo pomnilnikov prevodov, kar pomeni, da gaje mogoče nadgraditi z vključitvijo terminoloških zbirkv specifičnem podjetju. Presis vključuje prevajanje v an-gleščino innemščino ter obratno. Zelo uporaben spletniservis, ki ponuja primerjavo vseh strojnih prevajalnikov,ki vključujejo slovenščino, je bil razvit v okviru projektaiTranslate4 in ga je mogoče najti na spletni strani pro-jekta [39].

Raziskovanje na področju statističnega strojnega preva-janja za slovenščino poteka na nekaterih akademskihinstitucijah v Sloveniji. Vzporedni korpus ACQUISCommunautaire [40] – prevedena zakonodaja Evropskeunije, ki obsega 10 milijonov besed – je bila na Institutu“Jožef Stefan” uporabljena za poskuse s prevodnimimo-deli, prav tako na Fakulteti za matematiko, naravoslovjein informacijske tehnologije Univerze na Primorskem.V okviru različnih projektov s ciljem izdelave sistemov

25

Page 33: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

ciljni jezik — Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

8: Uspešnost strojnega prevajanja po jezikovnih parih v projektu Euromatrix+ — Machine Translation between 22EU-languages [36]

SST, omenjenih v preteklem besedilu, je bilo statističnoprevajanje tudi del raziskav projekta VoiceTran in se ševedno raziskuje na Fakulteti za elektrotehniko, računal-ništvo in informatiko Univerze v Mariboru, in sicer vokviru projekta Babilon.

4.3 DRUGE APLIKACIJESestavljanje jezikovnotehnoloških aplikacij vključujecelo vrsto pomožnih nalog, ki se ne kažejo vednona ravni interakcije z uporabnikom, vendar v sistemuzagotavljajo določeno funkcionalnost “pod pokrovommotorja”. Vsaka od njih predstavlja pomembno razisko-valno témo, iz katere so se zdaj razvila samostojna pod-področja računalniškega jezikoslovja.Naprimer, odgovarjanje na vprašanja je živahno razisko-valno področje, za potrebe katerega so bili izde-lani označeni korpusi besedil, organizirana so bila

tudi znanstvena tekmovanja. Koncept odgovarjanjana vprašanja presega zgolj poizvedovanje na podlagiključnih besed (pri katerem iskalnik odgovarja z listopotencialno relevantnih dokumentov) in uporabnikuomogoča, da postavi konkretno vprašanje, na kateregasistem da en sam odgovor. Na primer:

Vprašanje: koliko je bil star Neil Armstrong, ko jestopil na luno?

Odgoor: 38.

Medtem ko je odgovarjanje na vprašanja (QA – ques-tion answering) brez dvoma povezano z jedrnim po-dročjem iskanja po spletu, danes služi kot krovni ter-min za raziskovalna vprašanja, kot so: kateri so ra-zlični tipi vprašanj in kako jih obravnavati; kako lahkoanaliziramo in primerjamo serijo dokumentov, ki po-tencialno vsebujejo odgovor (ali ti ponujajo naspro-tujoče si odgovore?); kako je mogoče iz dokumenta

26

Page 34: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

zanesljivo izluščiti specifično informacijo (odgovor), neda bi prezrli sobesedilo.

Sestavljanje jezikovnotehnoloških aplikacijvključuje celo vrsto pomožnih nalog, ki se ne

kažejo vedno na ravni interakcije z uporabnikom,vendar v sistemu zagotavljajo določenofunkcionalnost “pod pokrovom motorja”.

Vse to pa je povezano z luščenjem informacij (IE – infor-mation retrieval), področjem, ki je bilo izjemno popu-larno in vplivno, ko je računalniško jezikoslovje krenilov statistično smer v začetku 90-ih let. Pri luščenju in-formacij skušamo prepoznati specifične delce informacijv specifični skupini dokumentov, kot na primer odkritiglavne igralce pri prevzemih podjetij, o katerih poročajočasopisi. Še en značilen scenarij, ki je bil raziskan, soporočila o terorističnih napadih. Težava je v tem, daje treba besedilo preslikati na predlogo, ki opredeljujestorilca, cilj, čas, kraj in rezultat dogodka. Polnjenjepredlog, omejenih na specifično področje, je osrednjaznačilnost luščenja informacij, to pa je še en primertehnologije “pod pokrovom motorja”, ki predstavlja do-bro definirano raziskovalno področje. V praksi morabiti luščenje informacij vgrajeno v ustrezno programskookolje.Povzemanje in tvorba besedila sta dve mejni področji,ki lahko nastopata v samostojnih aplikacijah ali igratapodporno vlogo “pod pokrovom”. Pri povzemanju pro-gramskušapodati bistvodolgega besedila v kratki obliki.Kot ena od funkcij je na voljo tudi v paketu MicrosoOffice. Ta uporablja predvsem statistični pristop, spomočjo katerega prepoznava “pomembne” besede vbesedilu (tj. besede, ki se pogosto pojavljajo v obde-lovanem besedilu, manj pogosto pa v splošni rabi) indoloča stavke, ki vsebujejo največ “pomembnih” besed.Te stavke potem izloča in sestavlja v povzetek. Pri temzelo običajnem komercialnem scenariju je povzemanjepreprosto oblika luščenja stavkov in celotno besedilo se

zmanjša na podmnožico vseh stavkov. Pri alternativnempristopu, ki je zdaj predmet raziskav, program gener-ira nove stavke, ki v izvornem besedilu ne obstajajo. Tozahteva globlje razumevanje besedila, kar pomeni, da jeta pristop (za zdaj) precej manj robusten. V splošnemso generatorji besedila redko uporabljeni kot samosto-jne aplikacije, temveč so vključeni v večja programskaokolja, kot so denimo klinični informacijski sistemi, skaterimi zbiramo, shranjujemo in procesiramo podatkeo pacientih. Izdelava poročil je le ena odmnogih uporabpovzemanja besedil.

Večjih projektov, ki bi se ukvarjali zodgovarjanjem na vprašanja in luščenjeminformacij, za slovenščino ni, prav tako ne

jezikovnih virov, potrebnih za izdelavo tovrstnihaplikacij.

Vsa omenjena raziskovalna področja so pri slovenščinibistveno manj razvita kot pri nemščini, francoščini indrugih jezikih. To še posebej velja za angleščino, pri ka-teri so bili odgovarjanje na vprašanja, luščenje informacijin povzemanje predmet številnih odprtih tekmovanj, kista jih organizirali predvsem agenciji DARPA in NISTv ZDA vse od začetka 90-ih let. Povzemalniki besedil zaslovenščino ne obstajajo. Razen nekaj študentskih na-log tudi ni večjih projektov, ki bi se ukvarjali z odgovar-janjem na vprašanja in luščenjem informacij, prav takone jezikovnih virov, potrebnih za izdelavo tovrstnih ap-likacij.

4.4 IZOBRAŽEVALNI PROGRAMIJezikovne tehnologije so interdisciplinarno področje,pri katerem je potrebno znanje računalniških strokovn-jakov in jezikoslovcev, a tudi matematikov, filozofov,psiholingvistov in nevrologov. JT v slovenskem uni-verzitetnem okolju še niso našle svojega mesta, pouče-

27

Page 35: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

vanje pa je omejeno na posamezne predmete v splošne-jših podiplomskih programih.

Podiplomska šola Instituta “Jožef Stefan” ponujamodul Jezikovne tehnologije v študijskem programuInformacijske in komunikacijske tehnologije, modulpa je opredeljen kot del raziskovalnega področjatehnologij znanja. V modulu je poseben poudarekna podatkovnem rudarjenju spleta in večpredstavnos-tnih vsebin, poleg tega še na besedilnih korpusih, ve-likih podatkovnih zbirkah označenih besedil, ki služijokot temeljna infrastruktura, potrebna za raziskovanjein procesiranje posamičnih jezikov, vključno z anal-izo besedilnih korpusov z metodami strojnega učenja.Predmet je osredotočen na procesiranje besedil vslovenščini. Kurzi računalniškega jezikoslovja so navoljo tudi v drugih podiplomskih programih. Fakultetaza elektrotehniko, računalništvo in informatiko Uni-verze v Mariboru ponuja 30-urni predmet Jezikovnetehnologije v okviru programa Računalništvo in infor-matika, Filozofska fakulteta Univerze v Ljubljani papredmet iz računalniške leksikografije. Ti so bolj alimanj omejeni na tekstovne tehnologije.

Vse predmete z jezikovnotehnološkimi vsebinamilahko obravnavamo kot bolj ali manj marginalne

znotraj splošnih študijskih programov, bodisijezikoslovnih, elektrotehničnih ali računalniških.

Od gornjih ločena je serija jezikovnotehnoloških pred-metov s področja govornih tehnologij. Ta tema-tika je del dodiplomskih in podiplomskih programovna tehniških fakultetah, kot denimo na Fakulteti zaelektrotehniko Univerze v Ljubljani in na Fakultetiza elektrotehniko, računalništvo in informatiko Uni-verze v Mariboru. Vse omenjene predmete pa lahkoobravnavamo kot bolj ali manj marginalne znotrajsplošnih študijskih programov, bodisi jezikoslovnih,elektrotehničnih ali računalniških.

4.5 NACIONALNI PROJEKTI INPOBUDENa splošno je mogoče reči, da jezikovne tehnologijeza slovenščino v preteklih dveh desetletjih nisobile podprte v konsistentno izdelanem nacionalnemprogramu financiranja. Dosedanji proces razvojajezikovnotehnoloških aplikacij, orodij in virov zaslovenski jezik je mešanica financiranja iz mednarod-nih projektov, ki so ob upoštevanju širitve EU razširiliobseg z zahodnoevropskih jezikov na srednje- in vzhod-noevropske, nacionalnega financiranja znanstvenihraziskav, kjer so bile govorne tehnologije osrednjeraziskovalno področje, ter navdušenja posameznikovnad jezikovnimi tehnologijami oz. večjih skupin, ki sose ukvarjale z lokalizacijo prosto dostopnih programov,kot so Linux, OpenOffice itd., v slovenščino. Številozasebnih podjetij, ki delujejo na področju jezikovnihtehnologij, je mogoče omejiti na vsega dve, Alpineond. o. o. [41] in Amebis d. o. o., Kamnik [42], obe pa stapodprti tudi s raziskovalnimi ali drugimi nacionalnimiviri financiranja. Poleg tega na to področje sega tudi de-lovanje zasebnega raziskovalnega zavoda Trojina [43].

Kot je bilo običajno tudi pri drugih jezikih, so sejezikovne tehnologije za slovenščino začele s črkoval-niki na začetku 90-ih let, bolj ali manj v okviru za-sebnih pobud. Prvo mednarodno in nacionalno fi-nanciranje se je začelo nekaj let kasneje, ko je Institut“Jožef Stefan” vstopil v razširjeni projekt MULTEXT-East (1995–1997), ki je izhajal iz predhodnih evrop-skih projektov MULTEXT in EAGLES. V okviru pro-jekta MULTEXT-East so nastali prvi jezikoslovno oz-načeni viri za slovenski jezik v standardiziranem for-matu, ti viri pa so bili nadgrajeni in razširjeni v pro-jektih ELAN (European Language Activity Network:1998–1999), TELRI I in II (Trans European LanguageResources Inastructure: 1995–1998 / 1999–2001) inConcede (Consortium for Central European DictionaryEncoding: 1998–2000).

28

Page 36: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Hkrati s tem se je začelo tudi financiranje med-narodnih (SQEL: Spoken Queries in European Lan-guages 1995–1997) in nacionalnih projektov (ARTES1995–1998, ARGOS1998–2001 itd.) na področju go-vornih tehnologij ob udeležbi institucij, ki so še vednoaktivne na tem področju: Fakulteta za elektrotehniko inFakulteta za računalništvo in informatiko na Univerziv Ljubljani, Fakulteta za elektrotehniko, računalništvoin informatiko Univerze v Mariboru ter Odsek za in-teligentne sisteme na Institutu “Jožef Stefan” v Ljub-ljani. Ta smer se je nadaljevala tudi v prvem desetletjutega stoletja, ko je podjetje Alpineon – spin-off podjetjeFakultete za elektrotehniko UL – vodilo večji konzor-cij v okviru projekta VoiceTran (2004–2008), do sedajnajvečji projekt s področja govornih tehnologij [32].V istem obdobju je Fakulteta za elektrotehniko, raču-nalništvo in informatiko UM sodelovala v obsežnemevropskem projektu LC-Star (Lexica and Corpora forSpeech-to-Speech Translation Components 2002–2006)ter v drugih evropskih projektih.

Jezikovne tehnologije za slovenščino v preteklihdveh desetletjih niso bile podprte v konsistentnoizdelanem nacionalnem programu financiranja.

Serija obsežnih besedilnih korpusov, FIDA in Fi-daPLUS, je bila najprej financirana s strani zasebnihvirov v letih 1997–2000, potem v nizu nacionalnihprojektov v letih 2003–2006 [44]. Druga serija ko-rpusov z imenom “Nova beseda” je v istem času nas-tajala na Inštitutu za slovenski jezik Frana Ramovša,vendar ni bila nikoli jezikoslovno označena, čeprav jebil na isti instituciji razvit vzporedni sistem označe-vanja [45]. Nadaljevanje standardizacijskih naporovpri oblikoskladenjskem in na novo razvitem skladen-jskem sistemu označevanja korpusov je sledilo v okviruprojekta Jezikoslovno označevanje slovenščine v letih2007–2009 – projekt je nadaljeval tradicijo projekta

MULTEXT-East, ki je bil uporabljen pri označevanjukorpusov FIDA in FidaPLUS [46]. Rezultati projektaso zdaj v uporabi v okviru obsežnega projekta Spo-razumevanje v slovenskem jeziku (2008–2013), ki gav okviru konzorcija izvaja podjetje Amebis in v okvirukaterega je bil razvit novi označevalnik in skladenjskirazčlenjevalnik, skupaj z nadgradnjo korpusa FidaPLUSv korpus Gigafida z več kot milijardo besed [47].

Na Institutu “Jožef Stefan” v okviru Laboratorija zaumetno inteligenco deluje tudi mednarodno uveljav-ljena skupina, ki se ukvarja tudi z jezikovnimi tehnologi-jami tako za slovenščino kot za angleščino. Glavno po-dročje raziskovanja je analiza podatkov s poudarkom nabesedilih, spletu in večmodalnih podatkih, analiza po-datkov v realnem času, vizualizacija kompleksnih po-datkov ter tehnologije semantičnega spleta [48].

Statistični podatki o nacionalnem financiranju raziskavkažejo, da je bilo v obdobju 1995–2010 financiranih18 raziskovalnih projektov na področju govornihtehnologij, 9 na področju tekstovnih tehnologij tertri na področju digitalizacije (zgodovinskih) virov.Kot samostojno raziskovalno področje pa jezikovnetehnologije niso bile upoštevane pri nacionalnihraziskovalnih programih ali pri vzpostavljanju jezikovneinfrastrukture za slovenščino, primerljive denimo znemškim projektom COLLATE ali TST Centrale zanizozemščino. Prav tako Slovenija ni aktivno sodelo-vala v evropskem raziskovalnem projektuCLARIN, na-menjen izgradnji vseevropske jezikovnotehnološke in-frastrukture, ki bi zagotovila digitalne jezikovne vire zaraziskave v humanistiki. Rezultat omenjenega dogajanjaje ta, da so mnoga jezikovnotehnološka področja docelanerazvita in prepuščena entuziazmu posameznikov alilokalizaciji jezikovnotehnoloških rešitev velikih multi-nacionalk. Primer prvega je klepetalnik (chatbot) Ko-los/Klepec [49], ki je bil razvit na podjetju Amebis kotljubiteljski stranski projekt, primer drugega pa virtualniasistentki Vida in Tia mednarodnega podjetja Artificial

29

Page 37: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Solutions, ki ju uporabljata Davčna uprava RepublikeSlovenije in podjetje Telekom [50].Kljub vsemu pa jezikovnotehnološka skupnost vSloveniji obstaja in je organizirana v Slovenskemdruštvu za jezikovne tehnologije, ki je bilo ustanovljenol. 1998 [51]. Društvo na vsaki dve leti organizira kon-ference na temo jezikovnih tehnologij in podpira sem-inarje JOTA na Filozofski fakulteti Univerze v Ljub-ljani – serijo predavanj domačih in tujih predavateljevo temah, povezanih z jezikovnimi tehnologijami [52].V letu 2011 je v Ljubljani organizirala tudi 32. ESS-LLI (European Summer School in Logic, Language andInformation) [53].

4.6 DOSTOPNOST VIROV INORODIJV tabeli 9 na strani 31 je povzeto trenutno stanjepodpore jezikovnim tehnologijam za slovenščino.Razvrstitev obstoječih orodij in virov temelji na ocenahstrokovnjakov s tega področja [54], lestvica pa obsegastopnje od 0 (zelo nizka) do 6 (zelo visoka) glede nasedem kriterijev.Povzetek rezultatov o jezikovnotehnološki podpori zaslovenščino:

Orodja za tokenizacijo, oblikoslovno označevanjein analizo obstajajo, tudi za skladenjsko razčlenje-vanje, manjkajo pa vsi viri in orodja za napredne-jše procesiranje, kot je razločevanje pomenov, pre-poznavanje argumentne strukture ali pomenskihvlog, razreševanje anaforičnih razmerij, prepozna-vanje strukture ali koherentnosti besedila, retoričnestrukture, analize argumentacije, besedilnih vzorcevali tipov, multimedijskega luščenja podatkov, večjez-ičnega luščenja podatkov itd.

Na področju govornih tehnologij je sinteza govoratrenutno najbolj razvita tehnologija. Razpoznavagovora je omejena na povsem osnovne aplikacije in

orodja. Splošna dostopnost orodij in virov pri go-vornih tehnologijah je relativno nizka.

Obsežnost vseh virov je resna težava. Celo vprimerh,ko so viri visoko kvalitetni, niso dovolj obsežni.Edini vir, kjer količina ni problem, je referenčni kor-pus ter do nekemere slovenskiWordNet – sloWNet.

Močno manjka tudi skupna infrastruktura za hran-jenje, vzdrževanje in distribucijo izdelanih virov inorodij ter skupna organizacijska platforma za sode-lovanje akterjev na tem področju.

Iz tabele je razvidno, da je več truda treba vložiti vizdelavo virov za slovenščino in v jezikovnotehnološkeraziskave. Kakovost obstoječih virov je zadovoljiva, naj-večja težava so manjkajoči viri in orodja ter njihovo kas-nejše vzdrževanje in distribucija.

4.7 PRIMERJAVA MED JEZIKIStanje jezikovnotehnološke podpore pri jezikovnihskupnostih zelo niha. Da bi omogočili primerjavomed jeziki, v tem delu prikazujemo evalvacijo stanja, kitemelji na dveh področjih aplikacije (strojno prevajanjein govorne tehnologije) in eni podporni tehnologiji(analiza besedila) ter na evalvaciji temeljnih virov,potrebnih za izdelavo jezikovnotehnoloških aplikacij.Jeziki so bili kategorizirani glede na naslednjo pet-stopenjsko lestvico:

1. odlična podpora

2. dobra podpora

3. povprečna podpora

4. delna podpora

5. nizka ali neobstoječa podpora

Kriteriji za merjenje podpore jezikovnim tehnologijamso naslednji:Procesiranje govora: kakovost obstoječih tehnologijrazpoznave govora, kakovost obstoječih tehnologij sin-teze govora, pokritost različnih domen oz. področij,

30

Page 38: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Obs

ežno

st

Dos

topn

ost

Kak

ovos

t

Pokr

itost

Zrelos

t

Vzdr

ževa

lnos

t

Prila

godl

jivos

t

Jezikovne tehnologije (orodja, tehnologije in aplikacije)

Razpoznava govora 2 1 3 2 3 4 3

Sinteza govora 4 2 5 3 3 5 5

Slovnična analiza besedila 2,5 4 4,5 3,5 3 3 4,5

Pomenska interpretacija besedila 0,3 0,7 1,3 0,7 0,3 1,0 1,7

Tvorba besedila 0 0 0 0 0 0 0

Strojno prevajanje 3 2 3 4 3 1 3

Jezikovni viri (viri, podatki, baze znanja)

Besedilni korpusi 3 5,5 5 3,5 3,5 3,5 5

Govorni korpusi 2 2 4 3 4 3 1

Vzporedni korpusi 3 3 4 2 3 4 3

Leksikalni viri 2,5 4 3,5 2,5 3 4 5

Slovnice 1 1 3 2 1 1 2

9: stanje pri jezikovnih tehnologijah za slovenščino

število in obsežnost obstoječih govornih korpusov,število in raznolikost dostopnih govornotehnološkihaplikacij.Strojno prevajanje: kakovost obstojčih tehnologijstrojnega prevajanja, število pokritih jezikovnih parov,pokritost jezikovnih pojavov in domen, kakovost in ob-sežnost obstoječih vzporednih korpusov, obsežnost inraznolikost dostopnih strojnoprevajalnih aplikacij.Analiza besedila: kakovost in pokritost obstoječihtehnologij za analizo besedila (oblikoslovje, skladnja, se-mantika), pokritost jezikovnih pojavov in domen, ob-sežnost in raznolikost dostopnih aplikacij, kakovostin velikost obstoječih (označenih) besedilnih kor-pusov, kakovost in pokritost obstoječih leksikalnih vi-rov (npr. WordNet) in slovnic.Jezikovni viri: kakovost in velikost obstoječih besedil-nih korpusov, govornih korpusov in vzporednih kor-

pusov, kakovost in pokritost obstoječih leksikalnih vi-rov in slovnic.Tabele od 10 na strani 33 do 13 na strani 34 kažejo, daje slovenščina po opremljenosti primerljiva s slovaščino,madžarščino, estonščino in podobnimi jeziki, a tudi zjeziki, ki niso uradni jeziki EU (katalonski, baskovski,galicijski), so pa dobro podprti tako s strani nacional-nega financiranja (v Španiji) kot tudi z evropskimi sred-stvi. To kaže, da je nujna vključitev slovenščine vevropsko jezikovnotehnološko raziskovalno skupnostter boljša podpora in koordinacija nacionalnega finan-ciranja.

4.8 ZAKLJUČEKV zbirki belih knjig smo veliko truda vložili v ocenojezikovnotehnološke podpore za 30 evropskih jezikov in

31

Page 39: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

s tem dobili zanesljio primerjao med vsemi jeziki. Zidentifikacijo vrzeli, potreb in pomanjkljiosti smo evrop-ski jezikovnotehnološki skupnosti in z njo povezanimdéležnikom omogočili, da izoblikujejo obsežnejše razisko-valne in razojne programe, ki bodo usmerjeni v izgrad-njo resnično večjezične, tehnološko opolnomočene Evrope.Videli smo, da so med evropskimi jeziki ogromne raz-like. Medtem ko so za nekatere jezike in na nekaterihpodročjih na voljo dobri viri in programska oprema,pri drugih jezikih (večinoma “manjših”) obstajajo ve-like vrzeli. Pri mnogih jezikih ni na voljo niti osnovnihtehnologij za analizo besedil ter temeljnih virov, potreb-nih za njihov razvoj. Drugi imajo osnovna orodja in vire,vendar trenutnonemorejo vlagati v razvoj semantičnegaprocesiranja. Še vedno je torej potreben obsežnejši na-por, da bi prišli do zahtevnega cilja – zagotoviti strojnoprevajanje visoke kvalitete med vsem evropskimi jeziki.Težava je tudi v tem, da financiranje raziskav inrazvoja ni stalno. Kratkoročno programsko financiranje

pogosto prekinjajo obdobja s pičlim financiranjem alibrez njega. Poleg tega ni tudi usklajenosti programovmed evropskimi državami na ravni Evropske komisije.Pri slovenskem jeziku lahko kot najpomembnejšepobude lahko izpostavimo vzpostavitev nacionalne in-frastrukture za vzdrževanje in distribucijo obstoječihvirov in orodij, izdelavo konsistentnega dolgoročneganačrta razvoja novih virov in orodij ter vključitevspecializiranega programa izobraževanja o jezikovnihtehnologijah za slovenščino v visokošolsko izobraže-vanje.Dolgoročni cilj projekta META-NET je vzpostavitevkvalitetnih jezikovnih tehnologij za vse jezike, da bidosegli politično in ekonomsko enotnost skozi kul-turno različnost. Tehnologija bo pomagala pri rušenjuobstoječih ovir in postavila mostove med evropskimijeziki. Za dosego cilja v prihodnosti je potrebno, davsi déležniki – v politiki, raziskovanju, gospodarstvu indružbi – združijo svoje napore.

32

Page 40: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

odlična dobra povprečna delna nizkapodpora podpora podpora podpora podpora

angleščina nemščinaitalijanščinafinščinafrancoščinanizozemščinaportugalščinašpanščinačeščina

baskovščinabolgarščinadanščinaestonščinagalicijščinagrščinairščinakatalonščinanorveščinapoljščinašvedščinasrbščinaslovaščinaslovenščinamadžarščina

islandščinahrvaščinalatvijščinalitvanščinamalteščinaromunščina

10: procesiranje govora – stanje podpore za 30 evropskih jezikov

odlična dobra povprečna delna nizkapodpora podpora podpora podpora podpora

angleščina francoščinašpanščina

nemščinaitalijanščinakatalonščinanizozemščinapoljščinaromunščinamadžarščina

baskovščinabolgarščinadanščinaestonščinafinščinagalicijščinagrščinairščinaislandščinahrvaščinalatvijščinalitvanščinamalteščinanorveščinaportugalščinašvedščinasrbščinaslovaščinaslovenščinačeščina

11: strojno prevajanje – stanje podpore za 30 evropskih jezikov

33

Page 41: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

odlična dobra povprečna delna nizkapodpora podpora podpora podpora podpora

angleščina nemščinafrancoščinaitalijanščinanizozemščinašpanščina

baskovščinabolgarščinadanščinafinščinagalicijščinagrščinakatalonščinanorveščinapoljščinaportugalščinaromunščinašvedščinaslovaščinaslovenščinačeščinamadžarščina

estonščinairščinaislandščinahrvaščinalatvijščinalitvanščinamalteščinasrbščina

12: analiza besedila – stanje podpore za 30 evropskih jezikov

odlična dobra povprečna delna nizkapodpora podpora podpora podpora podpora

angleščina nemščinafrancoščinaitalijanščinanizozemščinapoljščinašvedščinašpanščinačeščinamadžarščina

baskovščinabolgarščinadanščinaestonščinafinščinagalicijščinagrščinakatalonščinahrvaščinanorveščinaportugalščinaromunščinasrbščinaslovaščinaslovenščina

irščinaislandščinalatvijščinalitvanščinamalteščina

13: jezikovni viri – stanje podpore za 30 evropskih jezikov

34

Page 42: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

5

O PROJEKTU META-NET

META-NET je mreža odličnosti, ki jo delno financiraEvropska komisija. Mrežo trenutno sestavlja 54 članic iz33 evropskih držav [55]. META-NET gradi Tehnološkozvezo za večjezično Evropo (META), rastočo skupnoststrokovnjakov in organizacij na področju jezikovnihtehnologij v Evropi in razvija tehnološke temelje zaresnično večjezično evropsko informacijsko družbo, ki:

omogoča komunikacijo in sodelovanje prekojezikovnih meja;

zagotavlja enak dostopdo informacij in znanja v vsehjezikih;

ponuja napredno in dostopno mrežno povezanoinformacijsko tehnologijo vsem evropskim držav-ljanom.

Mreža nudi podporo Evropi, ki se združuje v enotni dig-italni trg in informacijski prostor, ter spodbuja in pro-movira večjezične tehnologije za vse evropske jezike. Tetehnologije omogočajo strojno prevajanje, izdelavo vse-bin, procesiranje informacij in upravljanje z znanjem –na široki paleti aplikacij in področij. Omogočajo tudiintuitivne jezikovne vmesnike do tehnoloških izdelkov,ki zajemajo vse od gospodinjske elektronike, strojev invozil do računalnikov robotov. Projekt META-NET seje začel 1. februarja 2010 in od takrat izvaja aktivnostiv okviru treh dejavnosti: META-VISION, META-SHARE in META-RESEARCH.META-VISION razvija dinamično in vplivno skup-nost déležnikov, ki jih združuje skupna vizija in strateškiraziskovalni načrt (strategic research agenda – SRA). V

okviru te dejavnosti se osredotočamo na vzpostavitevenotne in povezane evropske jezikovnotehnološkeskupnosti, pri čemer vzpostavljamo vezi med pred-stavniki močno razdrobljenih in raznovrstnih skupindéležnikov. Ta Bela knjiga je bila pripravljena v kom-pletu enakih publikacij za 29 drugih jezikov. Skupnatehnološka vizija je bila izdelana v treh področnihskupinah. Ustanovljen je bil Tehnološki svet združenjaMETA, da bi razpravljal o strateškem raziskovalnemnačrtu in ga na podlagi vizije pripravil v sodelovanju scelotno jezikovnotehnološko skupnostjo.META-SHARE ustvarja prosto dostopno infrastruk-turo za izmenjavo in deljenje virov. Omrežje enakovred-nih (peer-to-peer) repozitorijev bo vsebovalo jezikovnepodatke, orodja in spletne servise, dokumentirane skakovostnimimetapodatki in organizirane po standard-iziranih kategorijah. Omogočen bo dostop do virov inpoenoteno iskanje. Med viri, ki bodo na voljo, so takobrezplačni prostokodni kot tudi komercialni izdelki zomejenim in plačljivim dostopom.META-RESEARCH gradi mostove do povezanihtehnoloških področij. V okviru te dejavnosti skušamoizkoristiti napredek v drugih disciplinah in izrabiti ino-vativne raziskave za potrebe jezikovnih tehnologij. Os-redotočamo se na izvajanje vrhunskih raziskav na po-dročju strojnega prevajanja, zbiranje podatkov, izdelavopodatkovnih zbirk in sestavljanje jezikovnih virov zaevalvacijske namene; sestavljanje seznamov orodij inmetodologij; organiziranje delavnic in izobraževanj začlane skupnosti.

[email protected] – http://www.meta-net.eu

35

Page 43: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE
Page 44: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

1

EXECUTIVE SUMMARY

During the last 60 years, Europe has become a distinctpolitical and economic structure. Culturally and lin-guistically it is rich and diverse. However, from Por-tuguese to Polish and Italian to Icelandic, everyday com-munication between Europe’s citizens, within businessand among politicians is inevitably confrontedwith lan-guage barriers. e EU’s institutions spend about a bil-lion euros a year onmaintaining their policy ofmultilin-gualism, i. e., translating texts and interpreting spokencommunication. Does this have to be such a burden?Language technology and linguistic research canmake asignificant contribution to removing the linguistic bor-ders. Combined with intelligent devices and applica-tions, language technology will help Europeans talk anddo business together even if they do not speak a com-mon language.

In 2011, total export to EU countires amounted to71.9% in Slovene economy. In Germany as the largestEuropean economy, trade within the EU accounted for60.3% of its exports in 2010, and with other Europeancountries totalled another 10.8%. But language barri-ers can bring business to a halt, especially for SMEs whodo not have the financial means to reverse the situation.e only (unthinkable) alternative to this kind of amul-tilingual Europe would be to allow a single language totake a dominant position, to replace all other languages.

Oneway toovercome the language barrier is to learn for-eign languages. Yetwithout technological support,mas-tering the 23 official languages of the member states ofthe European Union and some 60 other European lan-guages is an insurmountable obstacle for Europe’s citi-

zens, economy, political debate, and scientific progress.

e solution is to build key enabling technologies: lan-guage technologies will offer European stakeholderstremendous advantages, not only within the commonEuropean market, but also in trade relations with non-European countries, especially emerging economies.Language technology solutions will eventually serve asa unique bridge between Europe’s languages. An inde-spensable prerequisite for their development is first tocarry out a systematic analysis of the linguistic particu-larities of all European languages, and the current stateof language technology support for them.

Language technology builds bridges.

e automated translation and speech processing toolscurrently available on the market fall short of the en-visaged goals. e dominant actors in the field are pri-marily privately-owned for-profit enterprises based inNorthern America. As early as the late 1970s, the EUrealised the profound relevance of language technologyas a driver of European unity, and began funding itsfirst research projects, such as EUROTRA. At the sametime, national projects were set up that generated valu-able results, but never led to a concerted European ef-fort. In contrast to these highly selective funding efforts,othermultilingual societies such as India (22official lan-guages) and South Africa (11 official languages) haveset up long-term national programmes for language re-search and technology development.

37

Page 45: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

e predominant actors in LT today rely on imprecisestatistical approaches that do not make use of deeperlinguistic methods and knowledge. For example, sen-tences are oen automatically translated by comparingeach new sentence against thousands of sentences pre-viously translated by humans. e quality of the out-put largely depends on the size and quality of the avail-able data. While the automatic translation of simplesentences in languages with sufficient amounts of avail-able textual data can achieve useful results, shallow sta-tistical methods are doomed to fail in the case of lan-guages with a much smaller body of sample data or inthe case of sentenceswith complex, non-repetitive struc-tures. Analysing the deeper structural properties of lan-guages is the only way forward if we want to build ap-plications that perform well across the entire range ofEuropean languages.

Language technology as a key for the future.

e European Union is thus funding projects suchas EuroMatrix and EuroMatrixPlus (since 2006) andiTranslate4 (since 2010), which carry out basic and ap-plied research, and generate resources for establishinghigh quality language technology solutions for all Eu-ropean languages. Drawing on the insights gained sofar, today’s hybrid language technology mixing deepprocessing with statistical methods should be able tobridge the gap between all European languages and be-yond. But as this series of white papers shows, there isa dramatic difference between Europe’s member statesin terms of both the maturity of the research and in thestate of readiness with respect to language solutions.Aer scrupulous examination and comparison withother languages we can establish that the state of lan-guage technologies and resources for Slovene is far fromsatisfactory, mainly for two reasons. e first reason is

rather obvious and stems from the number of speakersof Slovene, which at a little more than 2 million cannotsustain the development of technologies and resourcesexclusively in commercial environment. On the otherhand, Slovene government or institutions designated totake care of the needs of the Slovene speaking commu-nity did not succeed in establishing a relevant institu-tional framework in the last decade, where a system-atic and carefully planned development of language spe-cific technologies and resourceswould takeplace. With-out such an institutional background we cannot expectSlovene to maintain its equal status in the future digi-tal environment. is situation is further complicatedby the fact that the study of natural language process-ing for Slovene is lacking in the academic environment,which represents a long-term problem. To ensure theexpected quality of language technologies and resourcesfor Slovene in the future it is therefore imperative thatan appropriate programme of their development is de-signed and institutional framework is established for itsimplementation.

Language Technology helps unify Europe.

META-NET’s vision is high-quality language technol-ogy for all languages that supports political and eco-nomic unity through cultural diversity. is technologywill help tear down existing barriers and build bridgesbetweenEurope’s languages. is requires all stakehold-ers – inpolitics, research, business, and society– tounitetheir efforts for the future.is white paper series complements the other strate-gic actions taken by META-NET (see the appendix foran overview). Up-to-date information such as the cur-rent version of the META-NET vision paper [2] or theStrategic Research Agenda (SRA) can be found on theMETA-NET web site: http://www.meta-net.eu.

38

Page 46: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in information and communication tech-nology are sometimes compared to Gutenberg’s inven-tion of the printing press. What can this analogy tellus about the future of the European information soci-ety and our languages in particular?

The digital revolution is comparable toGutenberg’s invention of the printing press.

Aer Gutenberg’s invention, real breakthroughs incommunication were accomplished by efforts such asLuther’s translation of the Bible into vernacular lan-guage. In subsequent centuries, cultural techniques havebeen developed to better handle language processingand knowledge exchange:

the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

the teaching and translation of languages enabled ex-changes across languages;

the creationof editorial andbibliographic guidelinesassured the quality of printed material;

the creation of different media like newspapers, ra-dio, television, books, and other formats satisfieddifferent communication needs.

In the past twenty years, information technology hashelped to automate and facilitate many processes:

desktop publishing soware has replaced typewrit-ing and typesetting;

Microso PowerPoint has replaced overhead projec-tor transparencies;

e-mail allows documents to be sent and receivedmore quickly than using a fax machine;

Skype offers cheap Internet phone calls and hostsvirtual meetings;

audio and video encoding formatsmake it easy to ex-change multimedia content;

web search engines provide keyword-based access;

online services like Google Translate produce quick,approximate translations;

social media platforms such as Facebook, Twitterand Google+ facilitate communication, collabora-tion, and information sharing.

Although these tools and applications are helpful, theyare not yet capable of supporting a fully-sustainable,multilingual European society in which informationand goods can flow freely.

39

Page 47: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

2.1 LANGUAGE BORDERSHOLD BACK THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informationsociety will look like. However, there is a strong like-lihood that the revolution in communication technol-ogy is bringing together people who speak different lan-guages in new ways. is is putting pressure both on in-dividuals to learnnew languages and especially ondevel-opers to create new technology applications to ensuremutual understanding and access to shareable knowl-edge. In the global economic and information space,there is increasing interaction between different lan-guages, speakers and content thanks to new types ofme-dia. e current popularity of social media (Wikipedia,Facebook, Twitter, YouTube, and, recently, Google+) isonly the tip of the iceberg.

The global economy and information spaceconfronts us with different languages, speakers

and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language that we do not understand. According to arecent report from the European Commission, 57% ofInternet users in Europe purchase goods and services innon-native languages; English is the most common for-eign language followed byFrench,German andSpanish.55% of users read content in a foreign language while35% use another language to write e-mails or post com-ments on the Web [3]. A few years ago, English mighthave been the lingua franca of the Web – the vast ma-jority of content on the Web was in English – but thesituation has now drastically changed. e amount ofonline content in other European (as well as Asian andMiddle Eastern) languages has exploded.

Surprisingly, this ubiquitous digital linguistic dividehas not gained much public attention; yet, it raises avery pressing question: Which European languages willthrive in the networked information and knowledge so-ciety, and which are doomed to disappear?

2.2 OUR LANGUAGES AT RISKWhile the printing press helped step up the exchange ofinformation in Europe, it also led to the extinction ofmany European languages. Regional and minority lan-guages were rarely printed and languages such as Cor-nish and Dalmatian were limited to oral forms of trans-mission, which in turn restricted their scope of use. Willthe Internet have the same impact on our modern lan-guages?

Europe’s approximately 80 languages are one of our rich-est and most important cultural assets, and a vital partof this unique social model [4]. While languages suchas English and Spanish are likely to survive in the emerg-ingdigitalmarketplace,manyEuropean languages couldbecome irrelevant in a networked society. is wouldweakenEurope’s global standing, and run counter to thestrategic goal of ensuring equal participation for everyEuropean citizen regardless of language.

According to a UNESCO report on multilingualism,languages are an essential medium for the enjoyment offundamental rights, such as political expression, educa-tion and participation in society [5].

The variety of languages in Europe is one of itsrichest and most important cultural assets.

40

Page 48: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investments in language preservation fo-cussed primarily on language education and transla-tion. According to one estimate, the European mar-ket for translation, interpretation, soware localisationand website globalisation was €8.4 billion in 2008 andis expected to grow by 10% per annum [6]. Yet this fig-ure covers just a small proportion of current and futureneeds in communicating between languages. e mostcompelling solution for ensuring the breadth and depthof language usage in Europe tomorrow is to use appro-priate technology, just as we use technology to solve ourtransport and energy needs among others.Language technology targeting all forms of written textand spoken discourse can help people to collaborate,conduct business, share knowledge and participate insocial and political debate regardless of language barri-ers and computer skills. It oen operates invisibly insidecomplex soware systems to help us already today to:

find information with a search engine;

check spelling and grammar in a word processor;

view product recommendations in an online shop;

follow the spoken directions of a navigation system;

translate web pages via an online service.

Language technology consists of a number of core ap-plications that enable processes within a larger applica-tion framework. e purpose of the META-NET lan-guage white papers is to focus on how ready these coreenabling technologies are for each European language.

Europe needs robust and affordable languagetechnology for all European languages.

Tomaintain our position in the frontline of global inno-vation, Europe will need language technology, tailoredto all European languages, that is robust and affordableand can be tightly integrated within key soware envi-ronments. Without language technology, we will notbe able to achieve a really effective interactive, multime-dia and multilingual user experience in the near future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text using a suit-ably powered printing press. Human beings had to dothe hard work of looking up, assessing, translating, andsummarising knowledge. We had to wait until Edisonto record spoken language – and again his technologysimply made analogue copies.

Language technology can now simplify and automatethe processes of translation, content production, andknowledge management for all European languages. Itcan also empower intuitive speech-based interfaces forhousehold electronics, machinery, vehicles, computersand robots. Real-world commercial and industrial ap-plications are still in the early stages of development,yet R&D achievements are creating a genuine windowof opportunity. For example, machine translation is al-ready reasonably accurate in specific domains, and ex-perimental applications provide multilingual informa-tion and knowledge management, as well as contentproduction, in many European languages.

As with most technologies, the first language applica-tions such as voice-based user interfaces and dialoguesystems were developed for specialised domains, and of-ten exhibit limited performance. However, there arehuge market opportunities in the education and enter-tainment industries for integrating language technolo-gies into games, edutainment packages, libraries, simu-

41

Page 49: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

lation environments and training programmes. Mobileinformation services, computer-assisted language learn-ing soware, eLearning environments, self-assessmenttools and plagiarism detection soware are just someof the application areas in which language technologycan play an important role. e popularity of socialmedia applications like Twitter and Facebook suggest aneed for sophisticated language technologies that canmonitor posts, summarise discussions, suggest opiniontrends, detect emotional responses, identify copyrightinfringements or track misuse.

Language technology helps overcome the“disability” of linguistic diversity.

Language technology represents a tremendous opportu-nity for the European Union. It can help to address thecomplex issue of multilingualism in Europe – the factthat different languages coexist naturally in Europeanbusinesses, organisations and schools. However, citi-zens need to communicate across the language bordersof the European Common Market, and language tech-nology can help overcome this final barrier, while sup-porting the free and open use of individual languages.Looking even further ahead, innovative European mul-tilingual language technology will provide a benchmarkfor our global partners when they begin to supporttheir own multilingual communities. Language tech-nology can be seen as a form of “assistive” technologythat helps overcome the “disability” of linguistic diver-sity andmakes language communitiesmore accessible toeach other. Finally, one active field of research is the useof language technology for rescue operations in disas-ter areas, where performance can be a matter of life anddeath: Future intelligent robots with cross-lingual lan-guage capabilities have the potential to save lives.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.Widely-used technologies such as the spelling and gram-mar correctors in word processors are typically mono-lingual, and are only available for a handful of languages.Online machine translation services, although usefulfor quickly generating a reasonable approximation of adocument’s contents, are fraught with difficulties whenhighly accurate and complete translations are required.Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business that requires sustainedfunding commitments. Europe must therefore main-tain its pioneering role in facing the technological chal-lenges of a multiple-language community by inventingnewmethods to accelerate development right across themap. ese could include both computational advancesand techniques such as crowdsourcing.

Technological progress needs to be accelerated.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them toprocess different tongues,let’s look briefly at the way humans acquire first and sec-ond languages, and then see how language technologysystems work.Humans acquire language skills in two different ways.Babies acquire a language by listening to the real inter-actions between their parents, siblings and other familymembers. From the age of about two, children produce

42

Page 50: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

their first words and short phrases. is is only possi-ble because humans have a genetic disposition to imitateand then rationalise what they hear.Learning a second language at an older age requiresmore cognitive effort, largely because the child is not im-mersed in a language community of native speakers. Atschool, foreign languages are usually acquired by learn-ing grammatical structure, vocabulary and spelling usingdrills that describe linguistic knowledge in terms of ab-stract rules, tables and examples.

Humans acquire language skills in two differentways: learning from examples and learning the

underlying language rules.

Moving now to language technology, the two maintypes of systems acquire language capabilities in a sim-ilar manner. Statistical (or data-driven) approaches ob-tain linguistic knowledge from vast collections of con-crete example texts. While it is sufficient to use text in asingle language for training, e. g., a spell checker, paral-lel texts in two (or more) languages have to be availablefor training a machine translation system. e machinelearning algorithm then “learns” patterns of how words,short phrases and complete sentences are translated.is statistical approach usually requiresmillions of sen-tences to boost performance quality. is is one rea-son why search engine providers are eager to collect asmuch written material as possible. Spelling correctionin word processors, and services such as Google Searchand Google Translate, all rely on statistical approaches.e great advantage of statistics is that the machinelearns quickly in a continuous series of training cycles,even though quality can vary randomly.

e second approach to language technology, and tomachine translation in particular, is to build rule-basedsystems. Experts in the fields of linguistics, computa-tional linguistics and computer science first have to en-code grammatical analyses (translation rules) and com-pile vocabulary lists (lexicons). is is very time con-suming and labour intensive. Some of the leading rule-basedmachine translation systems have been under con-stant development for more than 20 years. e greatadvantage of rule-based systems is that the experts havemore detailed control over the language processing.is makes it possible to systematically correct mistakesin the soware and give detailed feedback to the user, es-pecially when rule-based systems are used for languagelearning. However, due to the high cost of this work,rule-based language technology has so far only been de-veloped for a few major languages.

As the strengths and weaknesses of statistical and rule-based systems tend to be complementary, current re-search focusses on hybrid approaches that combine thetwomethodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.

As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology, particularly in Europe’s eco-nomic and information space. Although this technol-ogy hasmade considerable progress in the last few years,there is still huge potential to improve the quality of lan-guage technology systems. In the next section, we de-scribe the role of Slovene in European information soci-ety and assess the current state of language technologyfor the Slovene language.

43

Page 51: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

3

THE SLOVENE LANGUAGE IN THEEUROPEAN INFORMATION SOCIETY

3.1 GENERAL FACTSIt has been estimated that around 2.5 million peoplearound the world speak or understand Slovene, with avast majority of them living either in the Republic ofSlovenia or in the neighbouring areas in Italy, Austriaand Hungary. In 2002, during the last national cen-sus in Slovenia, 87.8% of the population – of a totalof just under 2 million at the time – declared Sloveneto be their mother tongue, and another 3.3% claimingthat they use Slovene as the language of their everydaycommunication at home. is amounts to 91.1% of thepopulation using Slovene as their first language and thisnumber puts Slovenia in the group of EU states with themost homogeneous linguistic situation. Among otherlinguistic groups, native speakers of languages used informer Yugoslavia are by far the largest, with 3.3% ofthem using a combination of Slovene and their mothertongue for everyday communication and another 1%using only their mother tongue – Bosnian, Croatian,Serbian or Montenegrin. Other smaller communitiesinclude speakers of Albanian, Macedonian and Romani[7].

During the last national census in Slovenia in2002 91.1% of the population declared that they

use Slovene as their first language.

Similar to many cases in European history, rather com-plex developments in the past led to the situation where

relatively large Slovene minorities now live in the re-gion Friuli-Venezia Giulia in Italy, in Austrian federalstates Kärnten and Steiermark, as well as in the border-ing area with Hungary and in Croatian Istria. On theother hand, Italian andHungarianminorities live in thebordering regions in Slovenia. e constitution grantsthe right to use their mother tongue to both minoritiesdeclaring that the official language in Slovenia is Slovenewhile “in those municipalities where Italian or Hungar-ian national communities reside,” Italian or Hungarianare also official languages.In the world, significant communities of immigrantsfrom Slovenia can be found in the USA, Canada, Ar-gentina and Australia. e first due mainly to largewaves of economic emigration in the second half ofthe 19th century and up to the First World War. eother three are predominantly due to political emigra-tion aer the SecondWorldWar when Slovenia becamepart of the socialist Federal People’s Republic of Yu-goslavia. Both communities of Slovenes in the neigh-bouring countries and those around the world are sup-ported by a government office with the Minister forSlovenes Abroad as the head of the office, which – withthe ministerial level of the office – shows high level ofconcern for Slovene population around the world.While the first written resources identified as Slovenedate from the late 10th century, the language was stan-dardised and described for the first time during theProtestant Reformation in the 16th century. In 1550,Protestant reformer Primož Trubar published first two

44

Page 52: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Slovene books “Catechismus” and “Abecedarium”. eother two most important Protestant works were theBible translated into Slovene by Jurij Dalmatin and theSlovene Grammar by Adam Bohorič, both published in1584. In the second half of the 19th century standard-isation process was largely concluded, when the new“gajica” script was generally accepted. e most obvi-ous difference between the previously used “bohoričica”script (named aer the first grammar writer Adam Bo-horič) and the new one was the replacement of the let-ters ſ and s by s and z, and letter pairs zh, sh, by theaccented letters č, ž, š, used also today in the standard25-letter Slovene alphabet.

Modern standard Slovene is to a large extent stillconsidered as a written standard.

In addition to the oen precarious political circum-stances hindering the use of Slovene in all spheres of life– throughout history the region had been part of largerpolitical entities, usually with centralisation and unilin-gual tendencies – the development of standard Slovenewas further complicated by the unusually large numberof dialects in Slovene given the relatively small numberof speakers and the density of the area where dialects arespoken. ere are nowmore than 40 dialects recognisedin seven larger dialect groups, a circumstance encapsu-lated in the popular saying that “every Slovene villagehas its own speech”. Modern standard Slovene is there-fore, to a large extent, still considered as a written stan-dard while spoken Slovene consists of a large variety ofspoken idioms determined by region, local dialect, agegroup, education and other demographic factors. Re-gional standards do exist and are used in general publicspeech; however, the highest form of Slovene pronunci-ation – the equivalent of Received Pronunciation in En-glish – is predominantly spoken by professionals at theNational Radio and Television or on formal occasions.

3.2 PARTICULARITIES OF THESLOVENE LANGUAGEA distinctive feature of Slovene which also has impor-tant consequences for computational processing of nat-ural language is the existence of dual grammatical num-ber in the declension of nouns, adjectives, pronouns andnumerals, as well as in verb conjugation. Slovene is oneof the very rare Indo-European languages where thisfeature has survived from the hypothetical Proto-Indo-European language. erefore, in almost all nouns, thedual grammatical number is expressed with different in-flections as shown in Table 1 on page 46.Slovene nouns also show six grammatical cases and threegenders with several inflectional paradigms which leadsto an explosion of different inflectional forms as shownin Table 2 on page 46.e situation is even more complex with adjectiveswhich – in addition to case, number and gender – canalso express degree and definiteness. One single Sloveneadjective pameten can therefore show no less than 164different inflected forms where English, for instance,would only have three: “wise”, “wiser”, “wisest”. It is easyto imaginewhat kind of workload this imposes on an as-piring learner of Slovene and, from technological pointof view, on part-of-speech taggers and parsers dealingwith a tag set containing almost 2,000 different gram-matical tags. No wonder that the language has beencalled “something between mathematics and language”by English foreign learners who are not used to hav-ing to calculate the inflections for three genders, threenumbers and six cases before being able to utter a singleword in Slovene. Of course, this is taken into accountin courses where Slovene is taught as a foreign language,and teaching strategies have been developed to alleviatethe morphological exertion.Examining the issue from a different angle, it is inter-esting to observe frequency data on the use of wordforms with a particular grammatical number. Studies

45

Page 53: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

singular dual plural

chair (masc.) stol stola stolitable (fem.) miza mizi mizewindow (neut.) okno okni okna

1: Dual grammatical number in the declension of nouns

“chair” singular dual plural

nominative stol stola stoligenitive stola stolov stolovdative stolu stoloma stolomaccusative stol stola stolelocative stolu stolih stolihinstrumental stolom stoloma stoli

2: Inflectional paradigm for “chair”

have shown that less than 1% of nouns are actually usedwith the dual number in real texts while singular is usedin 75% of the cases and plural in the rest. Comparedto nouns, verbs are more “dualist” with 2.7% of verbsin dual. However, as the dual is used in a relativelymarginal number of cases, this may give an indicationwhy the dual gradually disappeared in other languages,a process which can now also be observed in Slovene.

As in most Slavic languages,sentence elements can be permuted

and found in almost all positions.

With the abundance of different inflected forms it ispredictable that the language would not be strict in fix-ing the word order in sentences. Indeed, as in mostof Slavic languages, sentence elements can be permutedand found in almost all positions. However, differentpossibilities usually imply that different elements will beemphasised in the sentence, a phenomenon sometimescalled topicalisation. A simple five-word sentenceEva je

Adamu dala jabolko [Eve gave an apple to Adam], com-posed of a subject, a direct and an indirect object, and apredicator with an auxiliary verb plus a participle form-ing past tense, can thus produce no less than 120 permu-tations, some of which are used tomake questions, somesound rather odd, some would imply poetic use, but al-most all are legitimate in a specific context. If we checkjust some of them:

Eva je Adamu dala jabolko.[closest to neutral word order in Slovene: Eve gavean apple to Adam]

Eva je dala jabolko Adamu.[slight stress on: it was Adam to whom...]

Adamu je Eva dala jabolko.[stress on: it was the apple that... (and it was Adamto whom...)]

Adamu je jabolko dala Eva.[stress on: it was Eve who... (and it was Adam towhom...)]

Jabolko je Eva dala Adamu.

46

Page 54: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

[stress on: it was Adam to whom... (and it is the ap-ple we are talking about)]

Jabolko je Adamu dala Eva.[stress on: it was Eve who... (and it is the apple weare talking about)]

All language technology applications for Slovene are af-fected by these features, particularly by complex mor-phology and the free word order implying topicalisa-tion issues, togetherwith the rather complex relationbe-tween written and spoken language described before.

3.3 RECENT DEVELOPMENTSIn the Slovene collective memory, there are three lan-guages with which a special relation was established inhistory, all of them connectedwith political entities thatSlovene-speaking regions belonged to during differentperiods of time. As most of Slovene territory was partof theHabsburgMonarchy in its various forms from thetime before the first Slovene standardisation effort inthe 16th century until 1918, the first and the most im-portant language was German. e Habsburg Monar-chy was a state of many different nationalities and eth-nic groups, and its prevailing language policy was a kindof anti-national multilingualism. is meant that theexistence and command of various languages was notquestioned as long as it did not have emancipatory anti-monarchy implications. e process of standardisationof written Slovene in the 18th and 19th centuries wastherefore in many ways determined on one hand by itsnational emancipatory force regarded with suspicion bytheGerman speaking ruling class, and on the other handby the struggle to disentangle the genuine Slavic core outof language use affected by German lexis and grammar,mainly by switching to borrowings from other Slaviclanguages instead of German, or by inventing new lexiswhen none was at hand. is process defined the basic

patternwithwhich other languages dominant in the en-vironment are still regarded today.Aer the First World War and the dissolution of Aus-trian Empire, Slovene-speaking territories became partof the newly formed entity called theKingdomof Serbs,Croats and Slovenes, later renamed to the Kingdom ofYugoslavia which transformed into the Socialist Fed-erative Republic of Yugoslavia aer the Second WorldWar. With a new environment came a new dominantlanguage, which was in itself an interesting linguisticphenomenon, patched together aer linguistic strugglesin the 19th century as a mixture of Croatian and Ser-bian dialects. In the time of Yugoslavia it was calledSerbo-Croatian and with its breakup it dissolved intono less than four different official languages. Althoughthese languages are actually the closest linguistic rela-tives of Slovene, the lexis and syntactic patterns identi-fied as Serbo-Croatian were scrupulously examined bymore normatively inspired language experts, whilemostof the Slovene population learned the language at leastpassively in school and through television, magazines,comic books, music and other popular media of the pe-riod. e male population also learned the languageduring the 1 year compulsory military service in the Yu-goslav People’s Army.

In the Slovene collective memory, there are threelanguages with which a special relation was

established in history: German, Serbo-Croatianand English.

is situation changed rather radically when ties werebroken with former Yugoslavia aer the declaration ofindependence of Slovenia, and when the war in Croatiaand Bosnia started in the beginning of 1990’s. Today,aer twenty years, a vast majority of the younger pop-ulation in Slovenia do not know any of these languagesand the role of Serbo-Croatian as the presumed endan-gering force is now effectively over. However, with the

47

Page 55: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

advent of the Internet, the processes of globalisation andwith the accession of Slovenia to the EuropeanUnion in2004, this rolewas bynecessity takenover by theEnglishlanguage. ere are now numerous ongoing debates ifEnglish is penetrating into anddistorting Slovenewhich– besides expressing general concern – are concentratedon specific areas, such as the names of newly establishedcompanies which are required to be “in Slovene”, as wellas the decline in the use of the Slovene language in cer-tain domains such as higher education and/or research.

Besides the most topical issue of “anglicisms” more pre-scriptive reactions against the pollution of language stillinvolve the notion of “serbo-croatisms” (in most cases,they are not even recognised as stemming from thislanguage by the younger generations), while the bas-tardised loanwords fromGerman or “germanisms” suchas “šefla” for Schöpelle [ladle] or “šraufenciger” forSchraubenzieher [screw driver] survive in spoken lan-guage but are now rarely found in standard writing. Onthe other hand, all the different “-isms” are quite com-monly used in internet forums, blogs, text messages andother new media, as they are characteristic of the in-termediate language between the spoken and the morestandardised or controlled written one.

3.4 OFFICIAL LANGUAGEPROTECTION IN SLOVENIAIt is common in languageswith a relatively small numberof speakers that their language communities are rathersensitive about language use and accordingly, languagepolicy in Slovenia is in many areas perhaps more strin-gent than in larger language communities. e cen-tral institution which by declaration functions as theguardian of Slovene is the Fran Ramovš Institute ofSlovene Language of the Slovene Academy of Sciencesand Arts. e institute publishes dictionaries and otherreference books on Slovene, with the manual called

“pravopis” (“correct writing”) as the central publicationregulating the desired or standardised use of written(and to some extent spoken) Slovene. e last version ofthe manual was published in 2001 and is also availableonline [8]. Besides the declaration in Article 11 of theConstitution that “the official language in Slovenia isSlovene”, there are two laws which specifically deal withthe use of language. emost important one is the Pub-licUse of the Slovene LanguageActwhichwas passed in2004 and also requires that the second legal documentconcerning language, the Resolution on National Pro-gramme for Language Policy, is regularly updated.

The central institution which by declarationfunctions as the guardian of Slovene is the Fran

Ramovš Institute of Slovene Language of theSlovene Academy of Sciences and Arts.

e last Resolution covers the period from 2007–2011and a new one is currently in preparation. ere arethreemore administrative acts dealingwith language usewhose titles themselves indicate the areas where legisla-tors felt that language should be regulated:

Instruction on the manner of organising publicevents in which foreign languages are used too, from2005,

Instructions on establishing linguistic conformityof the business name of any legal person governedby private law or of any natural person engaged ina registered business activity upon the entry intothe court register or any other official records, from2006,

Regulation on required knowledge of Slovenianlanguage for single professions resp. positions ingovernmental departments and services, organs ofthe self-governing local communities, public servicecontractors and bearers of public authorities, from2008.

48

Page 56: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

ere are 70 more laws which mention or regulate theuse of language in some manner. is indicates a con-siderable level of legislative concern for Slovene whichis handled centrally by theDepartment for Slovene Lan-guage within the Ministry of Culture.One of these laws – Media Act – among other thingsregulates the share of Slovene music broadcast in ra-dio programmes. When the government planned to re-duce the share in 2010, this created a controversy whereSlovene musicians protested against these plans and de-manded that the share should be raised from 20% to asmuch as 50%. Radio owners, on the other hand, claimedthat Slovene music production is not extensive enoughto be able to provide such a large share of (popular) mu-sic of sufficient quality.

70 laws mention or regulate the use of language– this indicates a considerable level of legislative

concern for Slovene.

3.5 LANGUAGE IN EDUCATIONe majority of pre-school children, basic and up-per secondary school pupils in Slovenia attend publickindergartens (98.3%) and schools (99%), which are setup and funded entirely by the state and municipalities.In the school year 2009/10, there were 849 compul-sory schools of which three were private (two Waldorfschools, one Catholic) and 136 public and 6 private up-per secondary schools [9].According to legislation in Slovenia, all education andteaching provided as part of the current state curricu-lum, from pre-school through to university level, mustbe in Slovene. In pre-school, primary and secondary ed-ucation, Italian is used in the schools of the Italian mi-nority community, while Hungarian and Slovenian areused in bilingual schools where theHungarianminority

is found. Special arrangements exist for children whosemother tongue is not Slovenian, for the education ofRoma children, children of foreign citizens and childrenof people without citizenship.

According to legislation in Slovenia, all educationand teaching provided as part of the current statecurriculum, from pre-school through to university

level, must be in Slovene.

As speakers of Slovene cannot expect that they will beable to use the language in everyday situations outsideof Slovenia and its immediate surroundings, at least notwithout highly developed LT applications such as ma-chine translation systems, there is a strong consensus inthe community that the population should have activecommand of at least one foreign language. e mostpopular choice of language is English and in some ar-eas also German. In the present education system, a lotof effort is put into foreign language learning and thefirst foreign language (basically English) is taught as acompulsory subject from the age of 9. However, thenewWhite Paper on Education from 2011 [10] and thelaw, which is in parliamentary procedure, suggest thatthe starting age should be pushed lower, to the age of 7as the compulsory subject in the curriculum. Schools,however, should provide the possibility of learning En-glish from the age of 6, when pupils enter the 9-year pri-mary school. Inmany cases, English is taught alsowithinpre-school education in kindergartens, and the changesare geared towards enabling continuous learning of En-glish from early childhood. In the present system, thesecond foreign language is usually taught from the ageof 12 as an optional subject but again, the new WhitePaper suggests that schools should offer English, as wellas French, German, Croatian, Italian, Hungarian, Rus-sian, Spanish and Latin as optional subjects in the sec-ond three-year cycle beginning with the age of 9.

49

Page 57: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

A recent survey showed that 92% of the adult popula-tion in Slovenia (aged 25–64) can communicate in atleast one foreign language, of which 37.2% can use twoand 34.1% even three or more languages [11]. It is in-dicative of the present situation that knowledge of En-glish falls drastically with age group:

75.5% in the group from 25 to 34,

50% in the group from 35 to 49,

27.8% in the population older than 50.

On the other hand, knowledge of German, French andItalian is more constant, with the first at around 30%and the last at around 10%. It is perhaps important tostress that the percentages in the survey refer to differentlevels of language skills ranging from basic communica-tion skills to advanced knowledge. In general, the datashows that foreign language learning is both an estab-lished and consensually supported practice in Slovenia.A more pronounced controversy has been seen overthe years regarding the use of Slovene (and English)in higher education, with two opposing lines of lan-guage policy. On one hand, the Higher Education Actadopted in 1993 stipulates that – if financed by the state– only those study programmes may be taught in lan-guages other than Slovene which:

involve the study of foreign languages;

include lecturers or a large number of students fromother countries;

duplicate the programmes already taught in Slovene.

On the other hand, an OECD survey showed that theshare of foreign students studying in Slovenia and Slove-nian students studying abroad were among the lowestin the OECD in 2007. Accordingly, OECD recom-mends that study programmes that are more attractiveto foreign students should be developed and that theauthorities should relax restrictions on offering courses

in non–Slovene languages [12]. Many institutions ofhigher education are in agreement with the OECD rec-ommendations and see the current language policy asoverprotective.

It is expected that the trend will change to a certain ex-tent in this decade as the new Resolution on NationalHigher Education Programme 2011–2020 fromMarch2011 stipulates that by the end of the decade:

all Slovenian higher education institutions will pre-pare a set of study programs to be offered to for-eign students in foreign languages, with a priority onpost-graduate study programs;

Slovenian universities will carry out study programsfor mixed groups of students from different coun-tries;

the proportion of foreign nationals in the overallpopulation of students, higher education teachers,assistants and researchers will increase considerablyby 2020, so that together with international activ-ities, it will provide an international character tohigher education institutions in Slovenia [13].

3.6 INTERNATIONAL ASPECTSAs expected, the Slovene language does not have awiderinternational influence and import outside the limitsof its community of speakers and the official status ofone of the official EU languages. Interestingly enough,there is a specialised scientific domainwhere expressionsfrom Slovene are actually used as international terms. In“karstology”, defined by Oxford English Dictionary as“a field within geomorphology, specializing in the studyof karst formations”, karst – derived from the Germanname for the part of Slovenia called Kras – is used asa generic term denoting specific geological phenomenawhich were first studied in this part of Slovenia in the19th century. Still today the Kras region is regarded

50

Page 58: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

as “the classical karst” in the relevant scientific commu-nity. Slovene expressions used internationally include“jama” (cave), “polje” (field), “ponor” (hole; opening)and “struga” (river bed), all of them denoting specifickarst phenomena.

Recognition of Slovene literature outside of Slovenia islargely limited to neighbouring countries and to a cer-tain extent to Central Europe and the Balkans, in bothcases due to historical connections. e most recog-nised and translated literary author is Drago Jančar.However, as an ambassador of Slovene science, oneof the most prominent and internationally recognisedfigures from Slovenia has been the philosopher SlavojŽižek, usually associated with the philosophical tradi-tions of Hegelianism, Marxism and, above all, with La-canian psychoanalysis. A controversial figure, he has at-tracted considerable attention andwas called everythingfrom an “academic rock star” by theNewYork Times to“the most dangerous philosopher in the West” by Ger-man Der Spiegel magazine. His writings and lectures– sometimes described as lecture-performances – com-bine themes from pop culture and everyday life withcomplex philosophical concepts in a provocative way,usually deliberately challenging fundamental and gener-ally accepted ideas of Western philosophy.

Recognition of Slovene literature outside of Slovenia islargely limited to neighbouring countries and to a cer-tain extent to Central Europe and the Balkans, in bothcases due to historical connections. e most recog-nised and translated literary author is Drago Jančar.

However, as an ambassador of Slovene science, oneof the most prominent and internationally recognisedfigures from Slovenia has been the philosopher SlavojŽižek, usually associated with the philosophical tradi-tions of Hegelianism, Marxism and, above all, with La-canian psychoanalysis. A controversial figure, he has at-tracted considerable attention andwas called everythingfrom an “academic rock star” by theNewYork Times to

“the most dangerous philosopher in the West” by Ger-man Der Spiegel magazine. His writings and lectures– sometimes described as lecture-performances – com-bine themes from pop culture and everyday life withcomplex philosophical concepts in a provocative way,usually deliberately challenging fundamental and gener-ally accepted ideas of Western philosophy.International promotion of the Slovene literature, trans-lations of Slovene authors to foreign languages and sup-port to literary production in general is organised by theSlovenian Book Agency, an independent governmentagency established in 2009 [14].As a comparatively small community with a cor-respondingly small literary production, speakers ofSlovene are largely dependent on translation of foreignliterature and other book genres. Statistics show that in2009, 6,139 newbookswere published, with 71%of theoriginal titles in Slovene and 29% translations. Of these,1,473were literary titleswith a 37% share of novels, 26%of short prose, 20% of poetry and 1% of drama.e international study of Slovene language, litera-ture and culture is supported by Slovene state throughthe Centre for Slovene as a Second/Foreign Languagewhich operates under the auspices of theDepartment ofSlovene Studies at the Faculty of Arts of the Universityof Ljubljana [15].

The Slovene language does not have a widerinternational influence and import outside the

limits of its community of speakers and the officialstatus of one of the official EU languages.

e Centre encourages and promotes international re-search in the Slovene language and literature, organ-ises professional and scientific conferences and developsthe infrastructure for attaining, examining and certify-ing proficiency in Slovene as a second/foreign language.One of the programmes of the Centre, called Slovene atForeignUniversities, enables students around the world

51

Page 59: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

to study the Slovene language. It is currently beingtaught through 57 lectureships, with financial supportfrom the Ministry of Higher Education, Science andTechnology.

3.7 SLOVENE ON THEINTERNETAccording to the Statistical Office of the Republic ofSlovenia, 68% of households had access to the Internetin the first quarter of 2010 (62% with broadband ac-cess). Statistics also reveal that 49% of people aged 10to 74 used the Internet for educational purposes, 44%of people gained new knowledge or information, 26%acquired information for the purpose of learning, and5%of people participated in online courses (e-learning).Furthermore, 71% of the people had already used asearch engine to find information, 58% of them had al-ready sent e-mails with attached files, 30% of them hadalready posted messages to chat rooms, newsgroups oronline discussion forums, 24%of themhad already usedpeer-to-peer file sharing for exchanging movies, musicor other files, 22% of themhad already used the Internetto make telephone calls and 11% of them had alreadycreated a web page. ese numbers are likely to increasesignificantly in the future: 69% of children aged 10–15use the Internet every day or almost every day and 98%of them use mobile phones [16].In addition to the ubiquitous international web sites,themost popular web sites on the Slovene part of the In-ternet are Slovene news portals (24ur.com, rtvslo.si andsiol.net), and the local search engine najdi.si. SloveneWikipedia, as an important source for natural languageprocessing, contains slightly fewer than 115.000 arti-cles, a considerably smaller number than the biggestWikipedias – English, German and French. However,

in the number of articles it is in 35th position close tothe Bulgarian, Croatian and Slovak Wikipedias [17]. Asuccessful free content language data project can also befound as part of theWikisource portal where older liter-ary and other texts are collected and made available onthe Internet [18].

In 2010, 69% of children aged 10–15 used theInternet every day or almost every day and 98%

of them used mobile phones.

In general terms, the most commonly used web appli-cation is web search, which involves the automatic pro-cessing of language on multiple levels, as will be de-scribed in more detail the second part of this paper. Itinvolves sophisticated Language Technology, differingfor each language. For Slovene, a language with verycomplex morphology, stemming (reducing inflectedwords to their stem, base or root form) and lemmatisa-tion (grouping together the different inflected forms ofa word so they can be analyzed as a single item) are veryimportant. Internet users and providers of web contentcan also profit from Language Technology in less obvi-ous ways, e. g., if it is used to automatically translate webcontents from one language into another. Consideringthe high costs associated with manually translating con-tent, comparatively little usable Language Technologyhas been developed and applied compared to the antici-pated need. is may be due to the complexity of theSlovene language and the number of technologies in-volved in typical Language Technology applications.

In the next chapter, we present an introduction to Lan-guage Technology and its core application areas as wellas an evaluation of the current situation of LanguageTechnology support for Slovene.

52

Page 60: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

4

LANGUAGE TECHNOLOGY SUPPORTFOR SLOVENE

Language technology is used to develop soware sys-tems designed to handle human language and are there-fore oen called “human language technology”. Humanlanguage comes in spoken and written forms. Whilespeech is the oldest and in terms of human evolution themost natural form of language communication, com-plex information and most human knowledge is storedand transmitted through the written word. Speechand text technologies process or produce these differ-ent forms of language, using dictionaries, rules of gram-mar, and semantics. is means that language technol-ogy (LT) links language to various forms of knowledge,independently of the media (speech or text) in which itis expressed. Figure 1 illustrates the LT landscape.When we communicate, we combine language withother modes of communication and information media– for example speaking can involve gestures and facialexpressions. Digital texts link to pictures and sounds.Movies may contain language in spoken and writtenform. Inotherwords, speech and text technologies over-lap and interact with other multimodal communicationand multimedia technologies.In this section, we will discuss the main applicationareas of language technology, i. e., language checking,web search, speech interaction, and machine transla-tion. ese applications and basic technologies include

spelling correction

authoring support

computer-assisted language learning

information retrieval

information extraction

text summarisation

question answering

speech recognition

speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. e in-terested reader is referred to the following references:[19, 20, 21, 22, 23].Before discussing the above application areas, we willbriefly describe the architecture of a typical LT system.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. While such applications tend to bevery complex, figure 2 shows a highly simplified archi-tecture of a typical text processing system. efirst threemodules handle the structure and meaning of the textinput:

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, and so on.

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure.

53

Page 61: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

3: Language technologies

3. Semantic analysis: performs disambiguation (i. e.,computes the appropriate meaning of words in agiven context); resolves anaphora (i. e., which pro-nouns refer to which nouns in the sentence); rep-resents the meaning of the sentence in a machine-readable way.

Aer analysing the text, task-specific modules can per-form other operations, such as automatic summarisa-tion and database look-ups.In the remainder of this section, we firstly introducethe core application areas for language technology, andfollow this with a brief overview of the state of LT re-search and education today, and a description of pastand present research programmes. Finally, we presentan expert estimate of core LT tools and resources forSlovene in terms of various dimensions such as availabil-ity, maturity and quality. e general situation of LT for

the Slovene language is summarised in figure 7 (p. 66)at the end of this chapter. is table lists all tools andresources that are boldfaced in the text. LT support forSlovene is also compared to other languages that are partof this series.

4.2 CORE APPLICATION AREASIn this section, we focus on themost important LT toolsand resources, and provide an overview of LT activitiesin Slovenia.

4.2.1 Language Checking

Anyone who has used a word processor such as Mi-crosoWord knows that it has a spell checker that high-lights spelling mistakes and proposes corrections. efirst spelling correction programs compared a list of ex-tracted words against a dictionary of correctly spelled

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

4: A typical text processing architecture

54

Page 62: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

5: Language checking (top: statistical; bottom: rule-based)

words. Today these programs are farmore sophisticated.Using language-dependent algorithms for grammaticalanalysis, they detect errors related tomorphology (e. g.,plural formation) as well as syntax–related errors, suchas a missing verb or a conflict of verb-subject agreement(e. g., she *write a letter). However, most spell checkerswill not find any errors in the following text [24]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Handling these kinds of errors usually requires an anal-ysis of the context. For example: whether a word needsto be capitalised in Slovene or not:

Preselili smo se v Vodice.[We have moved to Vodice (place name).]

Limonin vonj brivske odice.[Lemon fragrance of the aer-shave.]

is type of analysis either needs to draw on language-specific grammars laboriously coded into the sowareby experts, or on a statistical language model. In thiscase, a model calculates the probability of a particularword as it occurs in a specific position (e. g., betweenthe words that precede and follow it). For example:brivske odice [aer-shave (gen.), odice not capitalised]is a much more probable word sequence than brivske

Vodice [Vodice capitalised (as a place name)]. A statis-tical languagemodel can be automatically created by us-ing a large amount of (correct) language data, a text cor-pus. Most of these two approaches have been devel-oped around data from English. Neither approach cantransfer easily to Slovene with its free word order andextremely rich inflection.Language checking is not limited to word processors;it is also used in “authoring support systems”, i. e., so-ware environments in which manuals and other typesof technical documentation for complex IT, healthcare,engineering and other products, are written. To off-set customer complaints about incorrect use and dam-age claims resulting from poorly understood instruc-tions, companies are increasingly focusing on the qual-ity of technical documentation while targeting the in-ternational market (via translation or localisation) atthe same time. Advances in natural language process-ing have led to the development of authoring supportsoware, which helps the writer of technical documen-tation to use vocabulary and sentence structures that areconsistentwith industry rules and (corporate) terminol-ogy restrictions.

More sophisticated grammar checking is mainlylimited to BesAna, and authoring support systems

do not really exist for Slovene.

Besides spell checkers and authoring support, languagechecking is also important in the field of computer-

55

Page 63: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

assisted language learning. Language checking applica-tions also automatically correct search engine queries, asfound in Google’s Did you mean… suggestions.

Spelling checking soware for Slovene has a relativelylong tradition beginning in early 1990s. e only prod-uct that stayed on the market as a standalone pack-age is μBesAna by the Amebis soware company [25].e same company also offers other language checkingsoware such as a grammar checker (BesAna) [26], ahyphenator, a lemmatiser, etc. Free spelling checkingmodules for Slovene are also available for OpenOffice,Mozilla Firefox/underbird and some other applica-tions such as the najdi.si search engine. On the otherhand, more sophisticated grammar checking is mainlylimited to BesAna, and authoring support systems donot really exist for Slovene.

4.2.2 Web Search

Searching theWeb, intranets or digital libraries is proba-bly themostwidely used yet largely underdeveloped lan-guage technology application today. e Google searchengine, which started in 1998, now handles about 80%of all search queries [56]. e Google search interfaceand results page display has not significantly changedsince the first version. However, in the current version,Google offers spelling correction for misspelled wordsand incorporates basic semantic search capabilities thatcan improve search accuracy by analysing the meaningof terms in a search query context [27]. eGoogle suc-cess story shows that a large volume of data and efficientindexing techniques can deliver satisfactory results us-ing a statistical approach to language processing.

For more sophisticated information requests, it is essen-tial to integrate deeper linguistic knowledge to facili-tate text interpretation. Experiments using lexical re-sources such as machine-readable thesauri or ontolog-ical language resources (e. g., WordNet for English orsloWNet for Slovene [28]) have demonstrated improve-

ments in finding pages using synonyms of the originalsearch terms, such as atomska [atomic], jedrska and nuk-learna [nuclear] energy, or even more loosely relatedterms.

The next generation of search engineswill have to include much more sophisticated

language technology.

e next generation of search engines will have to in-clude much more sophisticated language technology,especially to deal with search queries consisting of aquestion or other sentence type rather than a list of key-words. For the query, Give me a list of all companiesthat were taken over by other companies in the last fiveyears, a syntactic as well as semantic analysis is required.e system also needs to provide an index to quickly re-trieve relevant documents. A satisfactory answer will re-quire syntactic parsing to analyse the grammatical struc-ture of the sentence and determine that the user wantscompanies that have been acquired, rather than compa-nies that have acquired other companies. For the expres-sion last five years, the system needs to determine therelevant range of years, taking into account the presentyear. e query then needs to bematched against a hugeamount of unstructured data to find the pieces of infor-mation that are relevant to the user’s request. is pro-cess is called information retrieval, and involves search-ing and ranking relevant documents. To generate a listof companies, the system also needs to recognise a par-ticular string of words in a document represents a com-pany name, using a process called named entity recogni-tion.A more demanding challenge is matching a query inone language with documents in another language.Cross-lingual information retrieval involves automati-cally translating the query into all possible source lan-guages and then translating the results back into theuser’s target language.

56

Page 64: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

6: Web search

Now that data is increasingly found in non-textual for-mats, there is a need for services that deliver multime-dia information retrieval by searching images, audio filesand video data. In the case of audio and video files,a speech recognition module must convert the speechcontent into text (or into a phonetic representation)that can then be matched against a user query.

Open source technologies like Lucene and Solr are of-ten used by search-focused companies to provide a ba-sic search infrastructure. Other search-based compa-nies rely on international search technologies such asFAST (a Norwegian company acquired by Microsoin 2008) or the French company Exalead (acquired byDassault Systèmes in 2010). ese companies focustheir development on providing add-ons and advancedsearch engines for special interest portals by using topic-relevant semantics. Due to the constant high demandfor processing power, such search engines are only cost-effective when handling relatively small text corpora.e processing time is several thousand times higherthan that needed by a standard statistical search engine

like Google. ese search engines are in high demandfor topic-specific domainmodelling, but they cannot beused on the Web with its billions and billions of docu-ments.In the local Slovene context, najdi.si offers search on theSlovene part of the web, as well as its own search solu-tion for intranets, specific web pages etc. It is a well-established portal and can be found among the top sitesin Slovenia [29]. However, more sophisticated searchtechniques have not been developed for Slovene and lin-guistic processing in search engines is mainly limited tostemming.

4.2.3 Speech Interaction

Speech interaction is one of many application areas thatdependon speech technology, i. e., technologies for pro-cessing spoken language. Speech interaction technol-ogy is used to create interfaces that enable users to in-teract in spoken language instead of using a graphicaldisplay, keyboard and mouse. Today, these voice userinterfaces (VUI) are used for partially or fully auto-

57

Page 65: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

mated telephone services provided by companies to cus-tomers, employees or partners. Business domains thatrely heavily on VUIs include banking, supply chain,public transportation, and telecommunications. Otheruses of speech interaction technology include interfacesto car navigation systems and the use of spoken languageas an alternative to the graphical or touchscreen inter-faces in smartphones.

Speech interaction technology comprises four tech-nologies:

1. Automatic speech recognition (ASR) determineswhich words are actually spoken in a given sequenceof sounds uttered by a user.

2. Natural language understanding analyses the syntac-tic structure of a user’s utterance and interprets it ac-cording to the system in question.

3. Dialogue management determines which action totake given the user input and system functionality.

4. Speech synthesis (text-to-speech or TTS) trans-forms the system’s reply into sounds for the user.

One of the major challenges of ASR systems is to ac-curately recognise the words a user utters. is meansrestricting the range of possible user utterances to alimited set of keywords, or manually creating languagemodels that cover a large range of natural language ut-terances. Using machine learning techniques, languagemodels can also be generated automatically from speechcorpora, i. e., large collections of speech audio files andtext transcriptions. Restricting utterances usually forcespeople to use the voice user interface in a rigid way andcan damage user acceptance; but the creation, tuningand maintenance of rich language models will signifi-cantly increase costs. VUIs that employ language mod-els and initially allow a user to express their intent moreflexibly – prompted by a How may I help you? greeting– tend to be automated and are better accepted by users.

Companies tend to use utterances pre-recorded by pro-fessional speakers for generating the output of the voiceuser interface. For static utterances where the word-ing does not depend on particular contexts of use orpersonal user data, this can deliver a rich user experi-ence. But more dynamic content in an utterance maysuffer from unnatural intonation because different partsof audio files have simply been strung together. roughoptimisation, today’s TTS systems are getting better atproducing natural-sounding dynamic utterances.

Speech interaction is the basis for interfaces thatallow a user to interact with spoken language.

Interfaces in speech interaction have been considerablystandardised during the last decade in terms of their var-ious technological components. ere has also beenstrong market consolidation in speech recognition andspeech synthesis. enationalmarkets in theG20 coun-tries (economically resilient countries with high popu-lations) have been dominated by just five global play-ers, withNuance (USA) andLoquendo (Italy) being themost prominent players in Europe. In 2011,Nuance an-nounced the acquisition of Loquendo, which representsa further step in market consolidation.Within the general scope of HLT development forSlovene, at the moment, speech interaction is probablythe most mature area. It was also comparatively bet-ter supported by national research funding in the past.One could speculate that the reason might be the closerelationship of speech processing with the traditionallymore established fields of electronics and computer sci-ence, compared to the more linguistically oriented re-search of written text. ere are several research centresinvolved in speech interaction research, among them theLaboratory of Artificial Perception, Systems andCyber-netics at the Faculty of Electrical Engineering, theLabo-ratory for Architecture and Signal Processing at the Fac-

58

Page 66: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

7: Speech-based dialogue system

ulty of Computer and Information Science, both at theUniversity of Ljubljana, as well as the Laboratory forDigital Signal Processing at the Faculty of Electrical En-gineering and Computer Science (University of Mari-bor) and the Department of Intelligent Systems at the“Jožef Stefan” Institute in Ljubljana.

ere are two TTS systems available for Slovene on themarket, both developed in collaboration between an in-dustrial and an academic partner. e Govorec systemwas developed in collaboration between the “Jožef Ste-fan” Institute and the Amebis soware company and isused in several applications, e. g., on the National Radioand TV portal, within the e-government portal [30],etc. Another TTS system for Slovene – called Proteusaer a Slovene endemic animal – was developed by theAlpineon soware company in collaboration with theFaculty of Electrical Engineering (University of Ljub-ljana) [31]. Between 2004–2008 a group of partners ledby Alpineon developed the VoiceTran speech-to-speechtranslation (SST) system, named aer two successiveprojects with the same title [32]. Another SST system(Babilon) is under development at the Faculty of Elec-trical Engineering andComputer Science (University ofMaribor). e same institution is also involved in thedevelopment of a multilingual TTS system called Plat-tos and a voice control system for telephones (govoFon)[33]. Contrary to the TTS systems, none of the SSTsystems are available on the market.

Local market products for automatic speech recogni-tion (ASR) of Slovene do not exist outside the systemsdeveloped by global ASR players. Existing applicationsare limited to projects such as the voice controlled in-formation portal for the Lent festival in Maribor [34],the cinema ticket reservation service M-vstopnica [35],and similar. However, these systems may be consideredas pilot projects and use vocabulary limited to a prede-fined list of festival events, movies shown in cinemas etc.Looking ahead, there will be significant changes, due tothe spread of smartphones as a new platform for man-aging customer relationships, in addition to fixed tele-phones, the Internet and e-mail. is will also affecthow speech interaction technology is used. In the longterm, there will be fewer telephone-based VUIs, andspoken language apps will play a far more central roleas a user-friendly input for smartphones. is will belargely driven by stepwise improvements in the accu-racy of speaker-independent speech recognition via thespeech dictation services already offered as centralisedservices to smartphone users.

4.2.4 Machine Translation

e idea of using computers to translate languages goesback to 1946 and was followed by substantial fundingfor research during the 1950s and again in the 1980s.Yet machine translation (MT) still cannot meet itspromise of across-the-board automated translation.

59

Page 67: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

At its basic level, Machine Translation simplysubstitutes words in one natural language with

words in another language.

e most basic approach to machine translation is theautomatic replacement of the words in a text writtenin one natural language with the equivalent words ofanother language. is can be useful in subject do-mains that have a very restricted, formulaic languagesuch as weather reports. However, in order to produce agood translation of less restricted texts, larger text units(phrases, sentences, or even whole passages) need to bematched to their closest counterparts in the target lan-guage. e major difficulty is that human language isambiguous. Ambiguity creates challenges on multiplelevels, such as word sense disambiguation at the lexicallevel (a jaguar is a brand of car or an animal) or the as-signment of case on the syntactic level, for example:

e woman saw the car and her husband, too.

[Ženska je videla avto in tudi svojega moža.][Ženska je videla avto in njen mož tudi.]

One way to build an MT system is to use linguis-tic rules. For translations between closely related lan-guages, a translation using direct substitution may befeasible in cases such as the above example. However,rule-based (or linguistic knowledge-driven) systems of-ten analyse the input text and create an intermediarysymbolic representation fromwhich the target languagetext can be generated. e success of these methods ishighly dependent on the availability of extensive lex-icons with morphological, syntactic, and semantic in-formation, and large sets of grammar rules carefully de-signed by skilled linguists. is is a very long and there-fore costly process.In the late 1980s when computational power increasedand became cheaper, interest in statistical models formachine translation began to grow. Statistical models

are derived from analysing bilingual text corpora, paral-lel corpora, such as the Europarl parallel corpus, whichcontains the proceedings of the European Parliament in21 European languages. Given enough data, statisticalMT works well enough to derive an approximate mean-ing of a foreign language text by processing parallel ver-sions and finding plausible patterns of words. Unlikeknowledge-driven systems, however, statistical (or data-driven) MT systems oen generate ungrammatical out-put. Data-driven MT is advantageous because less hu-man effort is required, and it can also cover special par-ticularities of the language (e. g., idiomatic expressions)that are oen ignored in knowledge-driven systems.

e strengths and weaknesses of knowledge-driven anddata-drivenmachine translation tend to be complemen-tary, so that nowadays researchers focus on hybrid ap-proaches that combine both methodologies. One suchapproach uses both knowledge-driven and data-drivensystems, together with a selection module that decideson the best output for each sentence. However, resultsfor sentences longer than, say, 12 words, will oen befar from perfect. A more effective solution is to com-bine the best parts of each sentence from multiple out-puts; this can be fairly complex, as corresponding partsof multiple alternatives are not always obvious and needto be aligned.

ere is still a huge potential for improving the qual-ity of MT systems. e challenges involve adapting lan-guage resources to a given subject domain or user area,and integrating the technology into workflows that al-ready have term bases and translation memories. eavailability of large amounts of bilingual texts is reallythe key in statistical MT. For Slovene, corpora of paral-lel texts with several other languages are currently beingcreated, the biggest being Evrokorpus with 74 millionwords of English-Slovene pair, mainly consisting of le-gal texts.

60

Page 68: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

8: Machine translation (left: statistical; right: rule-based)

Evaluation campaigns help to compare the quality ofMT systems, the different approaches and the statusof the systems for different language pairs. Figure 8(p. 26), whichwas prepared during theECEuromatrix+project, shows the pair-wise performances obtained for22 of the 23 official EU languages (Irish was not com-pared). e results are ranked according to a BLEUscore, which indicates higher scores for better transla-tions [37]. A human translator would normally achievea score of around 80 points.

ebest results (in green andblue)were achievedby lan-guages that benefit froma considerable research effort incoordinated programmes and the existence ofmany par-allel corpora (e. g., English, French, Dutch, Spanish andGerman). e languages with poorer results are shownin red. ese languages either lack such developmentefforts or are structurally very different from other lan-guages (e. g., Hungarian, Maltese and Finnish).

Apart from the well-known freely available Microsoand Google statistical translation systems, which alsoinclude the Slovene language, in the last two decades,only one MT system was developed and brought tomarket maturity in Slovenia. e Presis translationsystem developed by the Amebis soware company isa rule-based MT system which integrates TranslationMemory Technology and can be enhanced by includ-ing company-specific terminology [38]. Presis translatesfrom Slovene to English and German and vice versa. A

useful web service offering a comparison of all transla-tion systems including Slovene, is available at the iTrans-late4.eu web page [39].

Only one MT system was developed and broughtto market maturity in Slovenia.

Research in the field of statistical machine translationfor Slovene is also conducted at some of the academicinstitutions in Slovenia. e ACUIS Communau-taire [40] or parallel corpus – 10 million words of le-gal texts of the European Union – was used for exper-imenting with translation models at the “Jožef Stefan”Institute and at the Faculty of Mathematics, NaturalSciences and Information Technologies (University ofPrimorska). Within the speech-to-speech translation(SST) projects mentioned in the previous chapter, sta-tistical machine translation was investigated as part ofthe Voicetran project and is still actively researched atthe Faculty of Electrical Engineering andComputer Sci-ence (University of Maribor) in the Babilon project.

4.3 OTHER APPLICATION AREASBuilding language technology applications involves arange of subtasks that do not always surface at the levelof interaction with the user, but they provide significantservice functionalities “behind the scenes” of the system

61

Page 69: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

in question. ey all form important research issuesthat have now evolved into individual sub-disciplines ofcomputational linguistics. uestion answering, for ex-ample, is an active area of research for which annotatedcorpora have been built and scientific competitions havebeen initiated. e concept of question answering goesbeyondkeyword-based searches (inwhich the search en-gine responds by delivering a collection of potentiallyrelevant documents) and enables users to ask a concretequestion to which the system provides a single answer.For example:

Question: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

While question answering is obviously related to thecore area of web search, it is nowadays an umbrella termfor such research issues as which different types of ques-tions exist, and how they should be handled; how a setof documents that potentially contain the answer can beanalysed and compared (do they provide conflicting an-swers?); and how specific information (the answer) canbe reliably extracted from a document without ignoringthe context.

Language technology applications often providesignificant service functionalities behind the

scenes of larger software systems.

uestion answering is in turn related to information ex-traction (IE), an area that was extremely popular and in-fluential when computational linguistics took a statis-tical turn in the early 1990s. IE aims to identify spe-cific pieces of information in specific classes of docu-ments, such as the key players in company takeovers asreported in newspaper stories. Another common sce-nario that has been studied is reports on terrorist in-cidents. e task here consists of mapping appropri-

ate parts of the text to a template that specifies the per-petrator, target, time, location and results of the in-cident. Domain-specific template-filling is the centralcharacteristic of IE, which makes it another exampleof a “behind the scenes” technology that forms a well-demarcated research area, which in practice needs to beembedded into a suitable application environment.Text summarisation and text generation are two bor-derline areas that can act either as standalone applica-tions or play a supporting role. Summarisation attemptsto give the essentials of a long text in a short form, andis one of the features available in Microso Word. Itmostly uses a statistical approach to identify the “im-portant” words in a text (i. e., words that occur very fre-quently in the text in question but less frequently in gen-eral language use) and determine which sentences con-tain the most of these “important” words. ese sen-tences are then extracted and put together to create thesummary. In this very common commercial scenario,summarisation is simply a form of sentence extraction,and the text is reduced to a subset of its sentences. Analternative approach, for which some research has beencarried out, is to generate brand new sentences that donot exist in the source text.

Text summarisation applications do not exist forSlovene and there are no question answering and

information retrieval projects or relevant dataresources available for Slovene.

is requires a deeper understanding of the text, whichmeans that so far this approach is far less robust. On thewhole, a text generator is rarely used as a stand-alone ap-plicationbut is embedded into a larger soware environ-ment, such as a clinical information system that collects,stores andprocesses patient data. Creating reports is justone of many applications for text summarisation.e situation for Slovene in all these research ar-eas is much less developed than for German, French

62

Page 70: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

and other languages. is is especially true for En-glish, where question answering, information extrac-tion, and summarisation have been the subject of nu-merous open competitions, primarily those organisedby DARPA/NIST in the United States, since the1990s. Text summarisation applications do not exist forSlovene and there are no question answering and infor-mation retrieval projects or relevant data resources avail-able for Slovene.

4.4 EDUCATIONALPROGRAMMESLanguage technology is a very interdisciplinary fieldthat involves the combined expertise of linguists, com-puter scientists, mathematicians, philosophers, psy-cholinguists, and neuroscientists among others It hasnot yet acquired a fixed place in the Slovene highereducation system and is largely limited to isolatedcourses within e “Jožef Stefan” International Post-graduate School offers a Language Technologies mod-ule within the Information and Communication Tech-nologies study programme, with the module being de-fined as part of the Knowledge Technologies researcharea. In the module, particular attention is given toweb and multimedia mining, and to text corpora, largedatasets of annotated texts, which serve as the basic in-frastructure necessary for the research and processing ofindividual languages, including the analysis of languagecorpora with machine learning methods. e focus ofthe course is on processing of the Slovene language.Courses in computational linguistics are also offeredwithin other post-graduate programmes. e Facultyof Electrical Engineering and Computer Science (Uni-versity of Maribor) offers a 30-hour Language Tech-nologies course within the Computer and Infor-mationScience programme and the Faculty of Arts (Univer-sity of Ljubljana) offers a Computational Lexicogra-

phy course within the Translation Studies programme.ese courses are mainly related to written text tech-nologies.Another line of LT courses is connectedwith Speech In-teraction. ese themes aremainly taughtwithinunder-graduate and post-graduate studies at technical facultiessuch as the Faculty of Electrical Engineering (Universityof Ljubljana) and the Faculty of Electrical Engineeringand Computer Science (University of Maribor). How-ever, all the courses mentioned above are considered asmoreor lessmarginalwithin themore general studypro-grams, either in linguistics or in electrical engineering orcomputer science.

4.5 NATIONAL PROJECTS ANDINITIATIVESIn general, it can be stated that in the last two decadeslanguage technology for Slovene was never supportedby a consistently devised national funding scheme. eprocess of the development of HLT applications, toolsand resources for Slovene has been therefore a mix-ture of international projects extending their scope fromWesternEuropean languages toCentral andEasternEu-rope with a view toward the EU enlargement process,national research funding where speech interaction wasthe dominant research area, and the enthusiasm of in-dividuals involved in LT or of larger groups working onthe localisation of free soware such as Linux, OpenOf-fice, etc., to Slovene. e number of private Slovenecompanies working in the LT field can be narroweddown to two [41, 42], both also supported by researchor other national funding. e linguistic side of lan-guage technologies is also covered by Trojina, Institutefor Applied Slovene Studies [43].

As usual, language technologies for Slovene began withspelling checkers at the very beginning of 1990s, largelyle to private initiative. e first international and na-

63

Page 71: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

tional funding came a fewyears laterwhen “Jožef Stefan”Institute entered the Multext-East (1995–1997) exten-sion of the previous MULTEXT and EAGLES EUprojects. MULTEXT-East provided the first Slovenelanguage resources in a standardised format with stan-dard markup and annotation, and these resources werelater expanded and upgraded in the ELAN (Euro-pean Language Activity Network 1998–1999), TELRII in II (Trans European Language Resources Infrastruc-ture 1995–1998 / 1999–2001) and Concede (Con-sortium for Central European Dictionary Encoding1998–2000) projects.

Language technology for Slovene was neversupported by a consistently devised national

funding scheme.

At the same time, speech technologies began to befunded in international (SQEL: Spoken ueries in Eu-ropean Languages 1995–1997) and national projects(ARTES 1995–1998, ARGOS 1998–2001, etc.) withthe participation of the players which are still active inthe field: the Faculty of Electrical Engineering and theFaculty of Computer and Information Science (Uni-versity of Ljubljana), Faculty of Electrical Engineeringand Computer Science (University of Maribor) and“Jožef Stefan” Institute (Department of Intelligent Sys-tems). is trend continued in 2000s, when the Alpi-neon soware company – a spin-off from the Faculty ofElectrical Engineering (University of Ljubljana) – led alarge consortium in theVoicetran project (2004–2008),the biggest national speech interaction project to date[32]. In the same period, the Faculty of Electrical En-gineering and Computer Science (University of Mari-bor) participated in the big EU LC-Star project (Lexicaand Corpora for Speech-to-Speech Translation Com-ponents 2002–2006), aswell as someother EUprojects.A line of large written corpora, FIDA and FidaPLUS,was first funded by private initiative in 1997–2000 and

then by a series of national projects in 2003–2006 [44].Another line of large corpora – called “Nova beseda”(New word) – was developed at the Fran Ramovš In-stitute of Slovene Language at about the same time, butthese were never linguistically annotated, though an al-ternative annotation system was developed at the sameinstitution [45]. A new standardisation effort concern-ing a morpho-syntactic tagging system – with origins inthe MULTEXT-East project and used in the annota-tion of the FIDA line of corpora – and a newly devel-oped syntactic annotation systemwas funded in the JOSproject (Linguistic annotation of Slovene 2007–2009)[46]. e results of the project are now used in alarge European Social Fund project “Communicationof Slovene” (2008–2013), led by the Amebis sowarecompany, where a new tagger and parser is being devel-oped along with an upgrade of the FidaPLUS corpus tomore than 1 billion word Gigafida corpus [47].

An internationally recognised team working in the areaof artificial intelligence, which includes language tech-nologies both for English and for Slovene, is located inthe Artificial Intelligence Laboratory at the “Jožef Ste-fan” Institute. Its main research areas are data analysiswith an emphasis on text, web and cross-modal data,scalable real-time data analysis, visualisation of complexdata and semantic technologies [48].

Statistical data on national research funding shows that18 national research projects were funded in the field ofspeech interaction from 1995 to 2010, 9 in the field ofwritten language technologies and 3 in the digitisationof (historical) resources. However, language technol-ogy as a field has never seen a more consistent nationaleffort in the sense of building a LT language infras-tructure for Slovene, exemplified by the German COL-LATEproject orTSTCentrale forDutch. Slovenia alsodid not actively participate in the CLARIN EU projectaimed at prototyping a research infrastructure, whichcould provide digital language resources for the human-

64

Page 72: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

ities. As a result, manyLT research and application areasfor Slovene are seriously underdeveloped and le to theenthusiasm of individual participants or to the localisa-tion of the LT solutions of big multinational corpora-tions. An example of the first is the Kolos/Klepec chat-bot programdeveloped as a toy project within theAme-bis soware company [49]. An example of the otheris Artificial Solutions Virtual Assistant used by the TaxAdministration of the Republic of Slovenia and by theSlovene Telekom company [50].

Nevertheless, the Language Technology community inSlovenia does exist and is organised in the SlovenianLanguage Technologies Society which was founded in1998 [51]. It organises conferences on language tech-nologies, which take place every second year within themetaconference Information Society at the “Jožef Ste-fan” Institute in Ljubljana. It occasionally holds paneldiscussions on language technologies in Slovenia andsupports JOTA seminars – a series of talks on NLP-related topics by Slovene and foreign researchers at theFaculty of Arts in Ljubljana [52]. In 2011 it is also or-ganizing the 23rd European Summer School in Logic,Language and Information in Ljubljana [53].

4.6 AVAILABILITY OF TOOLSAND RESOURCESFigure 7 provides a rating for language technology sup-port for the Slovene language. is rating of existingtools and resources was generated by leading experts inthe field who provided estimates based on a scale from 0(very low) to 6 (very high) using seven criteria [54].

e key results for Slovene language technology can besummed up as follows:

Tools for tokenisation, POS tagging and morpho-logical analysis exist, also for parsing, but there islack of tools for other advanced technologies such

as word sense disambiguation, identification of ar-gument structure or semantic roles, coreference res-olution, identification of text structure, coherence,rhetorical structure, argumentative zoning, argu-mentation, text patterns, text types, text indexing,multi-media IR, crosslingual IR etc.

Speech synthesis is the more developed field withinspeech technologies. Speech recognition is limitedto basic applications and tools. Availability of toolsand resources in speech technologies is generallylimited due to copyright issues.

uantity of all resources is a serious issue. Even inthe cases where these are of high quality and avail-able, they are not very extensive. e only resourcewhere quantity is not problematic is reference cor-pora and to some extent also Slovene WordNet.

A common infrastructure for storing, maintainingand distribution of the existing resources and tools isneeded as well as a common organisational umbrellafor all active players in the field.

To conclude, more effort has to be put into the creationof resources for Slovene and to language technology re-search. e quality of the existing resources is relativelygood, the problem is in non-existant resources and toolsas well as in their maintenance and distribution.

4.7 CROSS-LANGUAGECOMPARISONecurrent state of LT support varies considerably fromone language community to another. In order to com-pare the situation between languages, this section willpresent an evaluation based on two sample applica-tion areas (machine translation and speech processing)and one underlying technology (text analysis), as wellas basic resources needed for building LT applications.e languages were categorised using the following five-point scale:

65

Page 73: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Tools, Technologies and Applications

Speech Recognition 2 1 3 2 3 4 3

Speech Synthesis 4 2 5 3 3 5 5

Grammatical analysis 2.5 4 4.5 3.5 3 3 4.5

Semantic analysis 0.3 0.7 1.3 0.7 0.3 1.0 1.7

Text generation 0 0 0 0 0 0 0

Machine translation 3 2 3 4 3 1 3

Language Resources: Resources, Data and Knowledge Bases

Text corpora 3 5.5 5 3.5 3.5 3.5 5

Speech corpora 2 2 4 3 4 3 1

Parallel corpora 3 3 4 2 3 4 3

Lexical resources 2.5 4 3.5 2.5 3 4 5

Grammars 1 1 3 2 1 1 2

9: State of language technology support for Slovene

1. Excellent support

2. Good support

3. Moderate support

4. Fragmentary support

5. Weak or no support

LTsupportwasmeasured according to the following cri-teria:

Speech Processing: uality of existing speech recog-nition technologies, quality of existing speech synthesistechnologies, coverage of domains, number and size ofexisting speech corpora, amount and variety of availablespeech-based applications.

Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, coverage oflinguistic phenomena and domains, quality and size of

existingparallel corpora, amount andvariety of availableMT applications.

Text Analysis: uality and coverage of existing textanalysis technologies (morphology, syntax, semantics),coverage of linguistic phenomena and domains, amountand variety of available applications, quality and size ofexisting (annotated) text corpora, quality and coverageof existing lexical resources (e. g., WordNet) and gram-mars.

Resources: uality and size of existing text corpora,speech corpora and parallel corpora, quality and cover-age of existing lexical resources and grammars.

Figures 8 to11 show that the state of support for Sloveneis comparable with languages like Slovak, Hungarian,Estonian and similar, but also with languages not be-longing to the group of official EU languages (Cata-lan, Basque, Galician), but which were supported by na-

66

Page 74: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

tional or EU funding in the past. is shows that it isnecessary to bring also Slovene into European LT re-search community and to provide a more consistent na-tional funding.

4.8 CONCLUSIONSIn this series of white papers, we have made an impor-tant effort by assessing the language technology supportfor 30 European languages, and by providing a high-leel comparison across these languages. By identifyingthe gaps, needs and deficits, the European language tech-nology community and its related stakeholders are nowin a position to design a large scale research and develop-ment programme aimed at building a truly multilingual,technology-enabled communication across Europe.e results of this white paper series show that there is adramatic difference in language technology support be-tween the various European languages. While there aregood quality soware and resources available for somelanguages and application areas, others, usually smallerlanguages, have substantial gaps. Many languages lackbasic technologies for text analysis and the essential re-sources. Others have basic tools and resources but theimplementation of for example semanticmethods is still

far away. erefore a large-scale effort is needed to at-tain the ambitious goal of providing high-quality lan-guage technology support for all European languages,for example through high quality machine translation.Finally there is a lack of continuity in research anddevel-opment funding. Short-term coordinated programmestend to alternate with periods of sparse or zero funding.In addition, there is an overall lack of coordination withprogrammes in other EU countries and at the EuropeanCommission level.For Slovene, it seems that the most important actionscan be narrowed down to establishing a national in-frastructure for maintenance and distribution of the ex-isting tools and resources, providing a consistent long-termplanof developingnew tools and resources and cre-ating a Slovene-specific language tehnology programmeto be included in higer education.e long term goal of META-NET is to enable the cre-ation of high-quality language technology for all lan-guages. is requires all stakeholders – in politics, re-search, business, and society – to unite their efforts.e resulting technology will help tear down existingbarriers and build bridges between Europe’s languages,paving theway for political and economic unity throughcultural diversity.

67

Page 75: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFinnishFrenchGermanItalianPortugueseSpanish

BasqueBulgarianCatalanDanishEstonianGalicianGreekHungarianIrishNorwegianPolishSerbianSlovakSloveneSwedish

CroatianIcelandicLatvianLithuanianMalteseRomanian

10: Speech processing: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English FrenchSpanish

CatalanDutchGermanHungarianItalianPolishRomanian

BasqueBulgarianCroatianCzechDanishEstonianFinnishGalicianGreekIcelandicIrishLatvianLithuanianMalteseNorwegianPortugueseSerbianSlovakSloveneSwedish

11: Machine translation: state of language technology support for 30 European languages

68

Page 76: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English DutchFrenchGermanItalianSpanish

BasqueBulgarianCatalanCzechDanishFinnishGalicianGreekHungarianNorwegianPolishPortugueseRomanianSlovakSloveneSwedish

CroatianEstonianIcelandicIrishLatvianLithuanianMalteseSerbian

12: Text analysis: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFrenchGermanHungarianItalianPolishSpanishSwedish

BasqueBulgarianCatalanCroatianDanishEstonianFinnishGalicianGreekNorwegianPortugueseRomanianSerbianSlovakSlovene

IcelandicIrishLatvianLithuanianMaltese

13: Speech and text resources: state of support for 30 European languages

69

Page 77: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

5

ABOUT META-NET

META-NET is a Network of Excellence partiallyfunded by the European Commission. e networkcurrently consists of 54 research centres in 33 Europeancountries [55]. META-NET forges META, the Multi-lingual EuropeTechnologyAlliance, a growing commu-nity of language technology professionals and organisa-tions in Europe. META-NET fosters the technologicalfoundations for a truly multilingual European informa-tion society that:

makes communication and cooperation possibleacross languages;

grants all Europeans equal access to information andknowledge regardless of their language;

builds upon and advances functionalities of net-worked information technology.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimulatesand promotes multilingual technologies for all Euro-pean languages. ese technologies support automatictranslation, content production, information process-ing and knowledge management for a wide variety ofsubject domains and applications. ey also enable in-tuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehi-cles to computers and robots. Launched on 1 February2010,META-NEThas already conducted various activ-ities in its three lines of actionMETA-VISION,META-SHARE and META-RESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared vi-

sion and a common strategic research agenda (SRA).e main focus of this activity is to build a coherentand cohesive LT community in Europe by bringing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present White Paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.

META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peer-to-peer network of repositories will contain language data,tools and web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.

META-RESEARCH builds bridges to related technol-ogy fields. is activity seeks to leverage advances inother fields and to capitalise on innovative research thatcan benefit language technology. In particular, the ac-tion line focuses on conducting leading-edge research inmachine translation, collecting data, preparing data setsand organising language resources for evaluation pur-poses; compiling inventories of tools and methods; andorganising workshops and training events for membersof the community.

[email protected] – http://www.meta-net.eu

70

Page 78: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

A

BIBLIOGRAFIJA REFERENCES

[1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann,Georg Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeital-ter – e German Language in the Digital Age. META-NET White Paper Series. Georg Rehm and HansUszkoreit (Series Editors). Springer, 2012.

[2] Aljoscha Burchardt, Georg Rehm, and Felix Sasaki. e Future European Multilingual Information Soci-ety – Vision Paper for a Strategic Research Agenda (Prihodnost evropske večjezične informacijske družbe –prispevek k viziji strateškega raziskovalnega načrta), 2011.http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf.

[3] Directorate-General Information Society & Media of the European Commission (Generalni direktoratEvropske komisije Informacijska družba in mediji). User Language Preferences Online ( Jezikovne izbireuporabnikov spleta), 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[4] European Commission (Evropska komisija). Multilingualism: an Asset for Europe and a Shared Commit-ment (Večjezičnost: evropska prednost in skupna obveza), 2008.http://ec.europa.eu/languages/pdf/comm2008_en.pdf.

[5] Directorate-General of theUNESCO (Generalni direktoratUNESCA). IntersectoralMid-term Strategy onLanguages and Multilingualism (Medodsečna srednjeročna strategija o jezikih in večjezičnosti), 2007.http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[6] Directorate-General for Translation of the European Commission (Generalni direktorat Evropske komisijePrevajanje). Size of the Language Industry in the EU (Velikost jezikovne industrije v Evropski uniji), 2009.http://ec.europa.eu/dgs/translation/publications/studies.

[7] Statistični urad Republike Slovenije (Statistical Office of the Republic of Slovenia). Verska, jezikovna in nar-odna sestava prebivalstva Slovenije – Popisi 1921–2002 (religious, linguistic and national structure of thepopulation of slovenia – censuses 1921–2002), 2003. http://www.stat.si/popis2002/gradivo/2-169.pdf.

[8] Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti, Inštitut za slovenski jezik FranaRamovša (Research Centre of the Slovenian Academy of Sciences & Arts, and Fran Ramovš Institute of theSlovenian Language). Slovenski pravopis 2001, Spletna izdaja (Slovene spelling guide 2001, online edition),2010. http://bos.zrc-sazu.si/sp2001.html.

[9] Eurydice and European Comission (Eurydice, Evropska komisija). National system overviews on educationsystems in Europe, 2011 Edition. (Pregled nacionalnih sistemov izobraževanja v Evropi, izdaja 2011), 2011.http://eacea.ec.europa.eu/education/eurydice/documents/eurybase/national_summary_sheets/047_SI_EN.pdf.

71

Page 79: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

[10] Nacionalna strokovna skupina za pripravo Bele knjige o vzgoji in izobraževanju v RS (e National SpecialistGroup for the Preparation of theWhite Paper on Education in the Republic of Slovenia). Bela knjiga o vzgojiin izbraževanju na spletu (White Paper on Education on the web), 2011. http://www.belaknjiga2011.si/.

[11] Statistični urad Republike Slovenije (Statistical Office of the Republic of Slovenia). Izobraževanje odraslihpo Anketi o izobraževanju odraslih, Slovenija, 2007 (Adult Education Survey results, Slovenia, 2007), 2010.http://www.stat.si/.

[12] OECD. OECD Economic Surveys: SLOVENIA, FEBRUARY 2011 OVERVIEW (Ekonomska raziskavaOECD: Slovenija, februar 2011, pregled), 2011. http://www.oecd.org/dataoecd/6/35/47103634.pdf.

[13] Uradni list RS (Official Gazette of Rebublic Slovenia). Resolucija o Nacionalnem programu visokega šolstva2011–2020, Ur. l. RS, št. 41/2011. (Resolution on National programme of higher education 2011–2020),2011.

[14] Javna agencija za knjigo Republike Slovenije (Slovenian Book Agency). http://www.jakrs.si/.

[15] Center za slovenščino kot drugi/tuji jezik (e Centre for Slovene as a Second/Foreign Language).http://www.centerslo.net/.

[16] Statistični urad Republike Slovenije (Statistical Office of the Republic of Slovenia). Uporaba informacijsko-komunikacijske tehnologije v podjetjih, podrobni podatki, Slovenija, 2011 – končni podatki (Usage ofinformation-communication technologies in enterprises, detailed data, Slovenia, 2010 – final data), 2011.http://www.stat.si/.

[17] Wikipedia metadata. http://meta.wikimedia.org/wiki/List_of_Wikipedias.

[18] Wikivir (Wikisource). http://sl.wikisource.org/wiki/Glavna_stran.

[19] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Hagen Langer, and Ralf Klabunde,editors. Computerlinguistik und Sprachtechnologie: Eine Einführung (Računalniško jezikosloje in goornetehnologije: uod). Spektrum Akademischer Verlag, 2009.

[20] Daniel Jurafsky and James H. Martin. Speech and Language Processing (2nd Edition) (Obdelaa goora injezika). Prentice Hall, 2009.

[21] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing (Os-noe statistične obdelae naravnega jezika). MIT Press, 1999.

[22] Language Technology World (LT World, jezikovnotehnološki spletni portal). http://www.lt-world.org/.

[23] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam-polli, editors. Survey of the State of the Art inHumanLanguage Technology (Studies inNatural Language Pro-cessing) (Pregled stanja na področju jezikovnih tehnologij (Študije o strojni obdelai naravnih jezikov)). Cam-bridge University Press, 1998.

72

Page 80: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

[24] Jerrold H. Zar. Candidate for a Pullet Surprise. Journal of Irreproducible Results, page 13, 1994.

[25] μBesAna – črkovalnik (μBesAna spelling checker). http://www.amebis.si/izdelki/crkovalnik/.

[26] BesAna – slovnični pregledovalnik (BesAna grammar checker). http://besana.amebis.si/.

[27] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities (Google objavlja možnost se-mantičnega iskanja), 2009. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[28] Slovene WordNet – sloWNet. http://lojze.lugos.si/~darja/slownet.html.

[29] MOSS – merjenje obiskanosti spletnih strani (Online Audience Measurement MOSS).http://www.moss-soz.si/si/rezultati_moss/obdobje/default.html.

[30] Govorec – sintetizator govora (Govorec speech synthesis soware). http://govorec.amebis.si/branje/,http://dis.ijs.si/rtv-govorec/, http://e-uprava.gov.si/e-uprava/portalStran.euprava?pageid=631.

[31] Proteus – sintetizator govora (Proteus speech synthesis soware).http://www.alpineon.com/proteus/test/eng.html.

[32] Glasovni prevajalnik in poliglot VoiceTRAN (VoiceTRAN Speech-to-Speech Communicator).http://www.voicetran.org/, http://www.voicetran.org/flash/index.html.

[33] Laboratorij za digitalno procesiranje signalov, Univerza vMariboru (Laboratory forDigital Signal Processing,University of Maribor). http://www.dsplab.uni-mb.si/.

[34] Andrej Žgank, Matej Rojc, Bojan Kotnik, Damjan Vlaj, Mirjam Sepesy Maučec, Tomaž Rotovnik, ZdravkoKačič, Aleksandra Zögling Markuš, and Bogomir Horvat. Govorno voden informacijski portal LentInfo –predhodna analiza rezultatov (Information-Providing System for the Festival Lent Programme). InLanguagetechnologies: proceedings of the conference / Information Society Multi-Conference, IS 2002, 14.–15. Oktober2002, Ljubljana, 2002. Institute “Jožef Stefan”.

[35] M-vstopnica – sistem dialoga (M-vstopnica dialog system). http://www.kolosej.si/vstopnice/m-vstopnica/.

[36] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe (462sistemov strojnega prevajanja za Evropo). In Proceedings of MT Summit XII, 2009.

[37] Kishore Papineni, SalimRoukos, ToddWard, andWei-JingZhu. BLEU:AMethod forAutomatic Evaluationof Machine Translation (BLEU: metoda za avtomatsko evalvacijo strojnega prevajanja). In Proceedings of the40th Annual Meeting of ACL, Philadelphia, PA, 2002.

[38] Presis – prevajalni sistem (Presis translation system). http://presis.amebis.si/prevajanje/.

[39] iTranslate4: Internet Translators for all European Languages, ICT Policy Support Programme (iTranslate4:spletni prevajalniki za vse evropske jezike, Program podpora politikam IKT). http://itranslate4.eu/.

73

Page 81: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

[40] Slovensko-angleški korpus SVEZ-IJS ACUIS (e SVEZ-IJS English-Slovene ACUIS Corpus).http://nl.ijs.si/svez/.

[41] Alpineon (Language Technology Company). http://www.alpineon.com/.

[42] Amebis (Language Technology Company). http://www.amebis.si/.

[43] Trojina, zavod za uporabno slovenistiko (Trojina, Institute for Applied Slovene Studies).http://www.trojina.si/.

[44] FidaPLUS, referenčni korpus (FidaPLUS reference corpus). http://www.fidaplus.net/.

[45] Nova beseda, pisni korpus (Nova beseda written corpus). http://bos.zrc-sazu.si/.

[46] Projekt JOS: jezikoslovno označevanje slovenskega jezika (Project JOS: Linguistic Annotation of Slovene).http://nl.ijs.si/jos/.

[47] Projekt “Sporazumevanje v slovenskem jeziku” (Project “Communication in Slovene”).http://www.slovenscina.eu/.

[48] Laboratorij za umetno inteligenco, Institut “Jožef Stefan” (Artificial Intelligence Laboratory, “Jožef Stefan”Institute). http://ailab.ijs.si/.

[49] Klepec – klepetalnik (Klepec chatbot system). http://klepec.amebis.si/.

[50] Virtualni pomočniki (Virtual Assistents). http://www.durs.gov.si/si/vida/vida,http://www.siol.net/storitve/tia.aspx.

[51] Slovensko društvo za jezikovne tehnologije (e Slovenian Language Technologies Society).http://www.sdjt.si/, http://www.sdjt.si/konference.html.

[52] JOTA: Jezikovnotehnološki abonma (JOTA language technology lecture series). http://lojze.lugos.si/jota/.

[53] European Summer School in Logic, Language and Information 2011, Ljubljana, Slovenia.http://esslli2011.ijs.si/.

[54] Dr. Darja Fišer, Faculty of Arts, University of Ljubljana, Dr. Tomaž Erjavec, “Jožef Stefan” Institute, Dr. Si-mon Krek, Amebis d. o. o. Kamnik, “Jožef Stefan” Institute, Dr. Špela Vintar, Faculty of Arts, University ofLjubljana, and Dr. Jerneja Žganec Gros, Alpineon d. o. o. Contributors.

[55] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech (večjezična Evropa:izziv za jezikovne tehnologije). MultiLingual, 22(3):51–52, April/May 2011.

[56] Spiegel Online. Google zieht weiter davon (Google še vedno pušča vse ostale za seboj), 2009.http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html.

74

Page 82: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

B

ČLANSTVO VMETA-NET

META-NETMEMBERS

Avstrija Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Belgija Belgium Computational Linguistics and Psycholinguistics Research Centre, University ofAntwerp: Walter Daelemans

Centre forProcessing Speech and Images,University ofLeuven: Dirk vanCompernolle

Bolgarija Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Ciper Cyprus Language Centre, School of Humanities: Jack Burston

Češka Czech Republic Institute of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič

Danska Denmark Centre for Language Technology, University of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

Estonija Estonia Institute of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider

Finska Finland Computational Cognitive Systems Research Group, Aalto University: Timo Honkela

Department of General Linguistics, University of Helsinki: Kimmo Koskenniemi,Krister Lindén

Francija France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour la Mé-canique et les Sciences de l’Ingénieur and Institute for Multilingual and MultimediaInformation: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Grčija Greece R.C. “Athena”, Institute for Language and Speech Processing: Stelios Piperidis

Hrvaška Croatia Institute of Linguistics, Faculty of Humanities and Social Science, University of Za-greb: Marko Tadić

Irska Ireland School of Computing, Dublin City University: Josef van Genabith

Islandija Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson

Italija Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “AntonioZampolli”: Nicoletta Calzolari

Human Language Technology Research Unit, Fondazione Bruno Kessler:Bernardo Magnini

Latvija Latvia Tilde: Andrejs Vasiļjevs

Institute ofMathematics andComputer Science, University of Latvia: Inguna Skadiņa

75

Page 83: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Litva Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Luksemburg Luxembourg Arax Ltd.: Vartkes Goetcherian

Madžarska Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Department of Telecommunications and Media Informatics, Budapest University ofTechnology and Economics: Géza Németh and Gábor Olaszy

Malta Malta Department Intelligent Computer Systems, University of Malta: Mike Rosner

Nemčija Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen University:Hermann Ney

Department of Computational Linguistics, Saarland University: Manfred Pinkal

Nizozemska Netherlands Utrecht Institute of Linguistics, Utrecht University: Jan Odijk

Computational Linguistics, University of Groningen: Gertjan van Noord

Norveška Norway Department of Linguistic Literary and Aesthetic Studies, University of Bergen: Koen-raad De Smedt

Department of Informatics, Language Technology Group, University of Oslo:Stephan Oepen

Poljska Poland Institute of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski,Maciej Ogrodniczuk

University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Department of Computer Linguistics and Artificial Intelligence, Adam MickiewiczUniversity: Zygmunt Vetulani

Portugalska Portugal University of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering andComput-ers: Isabel Trancoso

Romunija Romania Research Institute for Artificial Intelligence, Romanian Academy of Sciences:Dan Tufiș

Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea

Slovaška Slovakia Ľudovít Štúr Institute of Linguistics, Slovak Academy of Sciences: Radovan Garabík

Slovenija Slovenia Jožef Stefan Institute: Marko Grobelnik

Španija Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, University of the Basque Country:Inma Hernaez Rioja

Center for Language and Speech Technologies and Applications, Universitat Politèc-nica de Catalunya: Asunción Moreno

76

Page 84: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Department of Signal Processing and Communications, University of Vigo:Carmen García Mateo

Srbija Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vraneš

Švedska Sweden Department of Swedish, University of Gothenburg: Lars Borin

Švica Switzerland Idiap Research Institute: Hervé Bourlard

Velika Britanija UK School of Computer Science, University of Manchester: Sophia Ananiadou

Institute for Language, Cognition and Computation, Center for Speech TechnologyResearch, University of Edinburgh: Steve Renals

Research Institute of Informatics andLanguageProcessing,University ofWolverhamp-ton: Ruslan Mitkov

77

Page 85: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

Skoraj 100 strokovnjakov – predstavnikov držav in jezikov, zbranih v okviru projekta META-NET – je na srečanjuv Berlinu 22. in 23. oktobra 2011 razpravljalo o ključnih rezultatih in sporočilih zbirke Bela knjiga META-NETin jo dokončno oblikovalo. — About 100 language technology experts – representatives of the countries andlanguages represented in META-NET – discussed and finalised the key results and messages of the White PaperSeries at a META-NET meeting in Berlin, Germany, on October 21/22, 2011.

78

Page 86: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

C

ZBIRKA BELAKNJIGA META-NET

THE META-NETWHITE PAPER SERIES

angleščina English Englishbaskovščina Basque euskarabolgarščina Bulgarian българскиčeščina Czech češtinadanščina Danish danskestonščina Estonian eestifinščina Finnish suomifrancoščina French françaisgalicijščina Galician galegogrščina Greek εηνικάhrvaščina Croatian hrvatskiirščina Irish Gaeilgeislandščina Icelandic íslenskaitalijanščina Italian italianokatalonščina Catalan catalàlatvijščina Latvian latviešu valodalitvanščina Lithuanian lietuvių kalbamadžarščina Hungarian magyarmalteščina Maltese Maltinemščina German Deutschnizozemščina Dutch Nederlandsnorveščina bokmål Norwegian Bokmål bokmålnorveščina nynorsk Norwegian Nynorsk nynorskpoljščina Polish polskiportugalščina Portuguese portuguêsromunščina Romanian românăslovaščina Slovak slovenčinaslovenščina Slovene slovenščinasrbščina Serbian српскиšpanščina Spanish españolšvedščina Swedish svenska

79

Page 87: White Paper Series Zbirka Bela knjiga THE SLOVENE SLOVENSKI … · 2012-06-19 · Zbirka Bela knjiga SLOVENSKI JEZIK V DIGITALNI DOBI Simon Krek. White Paper Series THE SLOVENE LANGUAGE

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the po-tential to overcome these barriers and to provide inno-vative interfaces to technologies and knowledge. Thiswhite paper presents the state of language technologysupport for the Slovene language. It is part of a se-ries that analyses the available language resources andtechnologies for 30 European languages. The analy-sis was carried out by META-NET, a Network of Excel-lence funded by the European Commission. META-NETconsists of 54 research centres in 33 countries, who co-operate with stakeholders from economy, governmentagencies, research organisations, non-governmental or-ganisations, language communities and European uni-versities. META-NET’s vision is high-quality languagetechnology for all European languages.

Pri vsakdanji komunikaciji se evropski državljani,poslovni partnerji in politiki neizogibno soočajo zjezikovnimi mejami. S pomočjo jezikovnih tehnologijje mogoče te meje preseči in zagotoviti inovativendostop do tehnologij in znanja. Bela knjiga opisujestanje glede podpore jezikovnim tehnologijam zaslovenski jezik in je del zbirke, v kateri so analiziranijezikovni viri in tehnologije za 30 evropskih jezikov.Analiza je bila izdelana v okviru mreže odličnostiMETA-NET, ki jo financira Evropska komisija. META-NET sestavlja 54 raziskovalnih centrov v 33 državah,ki sodelujejo z deležniki iz gospodarstva, državnihagencij, raziskovalnih organizacij, nevladnih organi-zacij, jezikovnih skupnosti in evropskih univerz. VizijaMETA-NET-a je zagotavljanje jezikovnih tehnologijvisoke kakovosti za vse evropske jezike.

“Jezikovne tehnologije za slovenski jezik je treba načrtno podpirati, da se bo slovenščina lahko uspešno razvijalatudi v prihajajočem digitalnem svetu.”— Dr. Danilo Türk, predsednik Republike Slovenije

“It is imperative that language technologies for Slovene are developed systematically if we want Slovene to flourishalso in the future digital world.”— Dr Danilo Türk, President of the Republic of Slovenia