the croatian language in the digital age hrvatski jezik u digitalnom

101
White Paper Series THE CROATIAN LANGUAGE IN THE DIGITAL AGE Niz Bijele Knjige HRVATSKI JEZIK U DIGITALNOM DOBU Marko Tadić Dunja Brozović-Rončević Amir Kapetanović

Upload: vodan

Post on 29-Jan-2017

239 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: the croatian language in the digital age hrvatski jezik u digitalnom

White Paper Series

THE CROATIANLANGUAGE

IN THEDIGITAL AGE

Niz Bijele Knjige

HRVATSKIJEZIK UDIGITALNOMDOBU

Marko TadićDunja Brozović-RončevićAmir Kapetanović

Page 2: the croatian language in the digital age hrvatski jezik u digitalnom
Page 3: the croatian language in the digital age hrvatski jezik u digitalnom

White Paper Series

THE CROATIANLANGUAGE

IN THEDIGITAL AGE

Niz Bijele Knjige

HRVATSKIJEZIK UDIGITALNOMDOBU

Marko Tadić [1]

Dunja Brozović-Rončević [2]

Amir Kapetanović [2]

[1] Filozofski Fakultet, Zagreb

[2] Institut za hrvatski jezik i jezikoslovlje

Georg Rehm, Hans Uszkoreit(urednici, editors)

Page 4: the croatian language in the digital age hrvatski jezik u digitalnom

PREDGOVOR PREFACE

Ova bijela knjiga dio je niza koji promiče jezične teh- is white paper is part of a series that promotesnologije i njihove mogućnosti. Namijenjena je novi- knowledge about language technology and its poten-narima, političarima, jezičnimzajednicama, učiteljima, tial. It addresses journalists, politicians, language com-predavačima i ostalima. Dostupnost i uporaba jezičnih munities, educators and others. e availability andtehnologija u Europi različita je od jezika do jezika. Su- use of language technology in Europe varies betweensljedno, različite su i aktivnosti potrebne za daljnju pot- languages. Consequently, the actions that are requiredporu istraživanjima i razvoju jezičnih tehnologija od je- to further support research and development of lan-zika do jezika. Potrebne akcije ovise o mnogo čimbe- guage technologies also differs. e required actionsnika kao što su složenost pojedinoga jezika i veličina depend on many factors, such as the complexity of adotične jezične zajednice. given language and the size of its community.Mreža izvrsnosti META-NET, koju podupire Europ- META-NET, a Network of Excellence funded by theska komisija, provela je analizu trenutačno raspoloži- European Commission, has conducted an analysis ofvih jezičnih resursa i tehnologija u ovome nizu bije- current language resources and technologies in thislih knjiga (s. 93). Ta je analiza usredotočena ponaj- white paper series (p. 93). e analysis focused on theprije na 23 službena jezike Europske unije, ali i na os- 23 official European languages as well as other impor-tale važne nacionalne i regionalne jezike u Europi. Re- tant national and regional languages in Europe. e re-zultati ove analise ukazuju na nesrazmjerne nedostatke sults of this analysis suggest that there are tremendousu tehnološkoj potpori i značajne istraživačke nedos- deficits in technology support and significant researchtatke za svaki od promatranih jezika. Predstavljena po- gaps for each language. e given detailed expert anal-drobna stručna analiza i procjena trenutačne situacije ysis and assessment of the current situation will helppomoći će u učinkovitosti dodatnih istraživanja u tome maximise the impact of additional research.smjeru. As of November 2011, META-NET consists of 54Odmjeseca studenoga 2011.META-NET se sastoji od research centres from 33 European countries (p. 89).54 istraživačka središta iz 33 europske zemlje (s. 89). META-NET is working with stakeholders from econ-META-NET surađuje s ključnim dionicima iz gospo- omy (soware companies, technologyproviders, users),darstva (tvrtke koje izgrađuju programsku podršku, government agencies, research organisations, non-tehnološki isporučitelji, korisnici), vladinim agenci- governmental organisations, language communitiesjama, istraživačkim organizacijama, nevladinim orga- and European universities. Together with these com-nizacijama, jezičnih zajednicama i europskim sveučili- munities, META-NET is creating a common technol-štima. Zajedno s njima META-NET stvara zajedničku ogy vision and strategic research agenda for multilin-tehnološku viziju i strateški plan za višejezičnu Europu gual Europe 2020.2020.

III

Page 5: the croatian language in the digital age hrvatski jezik u digitalnom

META-NET – [email protected] – http://www.meta-net.eu

Autori ovoga dokumenta zahvalni su autorima Bijele knjige onjemačkome jeziku za dopuštenje uporabe odabrane jezično-neovisne građe iz njihovoga teksta [1].

Izradba ove bijele knjige poduprta je od strane Sedmoga okvir-noga programa i ICT programa za podršku politici Europskekomisije u skladu s ugovorima T4ME (opći ugovor 249 119),CESAR (opći ugovor 271 022), METANET4U (opći ugovor270 893) i META-NORD (opći ugovor 270 899).

e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

e development of this white paper has been funded by theSeventh Framework Programme and the ICT Policy SupportProgramme of the European Commission under the contractsT4ME (Grant Agreement 249 119), CESAR (Grant Agree-ment 271 022), METANET4U (Grant Agreement 270 893)and META-NORD (Grant Agreement 270 899).

IV

Page 6: the croatian language in the digital age hrvatski jezik u digitalnom

SADRŽAJ CONTENTS

HRVATSKI JEZIK U DIGITALNOM DOBU

1 Sažetak 1

2 Jezici u opasnosti: izazov za jezične tehnologije 32.1 Jezične granice koče europsko informacijsko društvo . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Opasnost za naše jezike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Jezične su tehnologije ključne potporne tehnologije . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 Mogućnosti jezičnih tehnologija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.5 Izazovi koji stoje pred jezičnim tehnologijama . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.6 Usvajanje jezika kod ljudi i strojeva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Hrvatski jezik u europskome informacijskome društvu 93.1 Opće činjenice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Hrvatska narječja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Standardizacija hrvatskoga jezika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.4 Osobine hrvatskoga jezika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.5 Odnos hrvatskoga standardnoga jezika s ostalim jezicima štokavske osnovice . . . . . . . . . . . 183.6 Skrb o jeziku u Hrvatskoj . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.7 Jezik u obrazovanju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.8 Međunarodni odnosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.9 Hrvatski na Internetu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 Jezičnotehnološka podrška za hrvatski 234.1 Arhitekture jezičnotehnoloških aplikacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 Osnovna područja primjene jezičnih tehnologija . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3 Jezične tehnologije u obrazovanju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.4 Nacionalni projekti i inicijative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.5 Dostupnost alata i resursa za hrvatski jezik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.6 Usporedba između jezika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.7 Zaključci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5 O META-NET-u 42

Page 7: the croatian language in the digital age hrvatski jezik u digitalnom

THE CROATIAN LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 43

2 Languages at Risk: a Challenge for Language Technology 452.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 462.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 472.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 The Croatian Language in the European Information Society 503.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.2 Croatian dialects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.3 Standardisation of Croatian language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.4 Characteristics of the Croatian language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.5 The Croatian standard language and other Štokavian-structured languages . . . . . . . . . . . . 603.6 Linguistic cultivation in Croatia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.7 Language in education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.8 International aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.9 Croatian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4 Language Technology Support for Croatian 654.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.2 Core application areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.3 Educational programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 754.4 National projects and initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 754.5 Availability of tools and resources for Croatian . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774.6 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 784.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5 About META-NET 83

A Bibliografija -- References 85

B META-NET članice -- META-NET Members 89

C Niz Bijele Knjige META-NET -- The META-NET White Paper Series 93

Page 8: the croatian language in the digital age hrvatski jezik u digitalnom

1

SAŽETAK

Informacijske tehnologije mijenjaju naš svakodnevni ži-vot. Svakodnevno se služimo računalima za pisanje, ure-đivanje, računanje, pretragu obavijesti i sve više za či-tanje, slušanje glazbe, pregledavanje fotografija i gleda-nje filmova. U svojim džepovima nosimo mala računalakoja koristimo za obavljanje telefonskih poziva, pisanjee-pošte, prikupljanje obavijesti i za zabavu gdje god senalazili. Kako ta masovna digitalizacija obavijesti, zna-nja i svakodnevnih komunikacija utječe na naš jezik?Hoće li se naš jezik promijeniti ili čak nestati? Kakvesu mogućnosti hrvatskoga jezika za preživljavanje?

Mnogi od šest tisuća jezika na svijetu ne će preživjetiu globaliziranom digitalnom informacijskom društvu.Procjenjuje se kako je barem dvije tisuće jezika osuđenona izumiranje u sljedećem desetljeću. Preostali će nasta-viti igrati ulogu u privatnome krugu obitelji ili susjed-stva, ali ne nužno i na razini općega poslovanja ili naakademskoj razini. Status jezika ne ovisi samo o brojunjegovih govornika ili broju knjiga, filmova iTV-postajakoje se njime služe, nego i o prisutnosti toga jezika u di-gitalnome informacijskomeprostoru i u adekvatnoj pro-gramskoj podršci.

U današnjem informacijski usmjerenom društvu, mo-gućnost dostupa obavijestima na vlastitome jeziku sma-tra se dosegnutom civilizacijskom razinom nezaobilaz-nomzaprevladavajudigitalnoga jaza. Naime, jezične za-jednice, koje za svoj jezik ne budu imale razvijene jezičnetehnologije, ostat će s druge strane digitalne razdjelnice.Kad je riječ o hrvatskome jeziku i jezičnim tehnologi-jama, onda ponajprije valja imati na umu ne samo osigu-ranje njegova ravnopravnoga sudjelovanja s drugim jezi-

cima u globaliziranome informacijskome društvu, negoi promjenu njegovih sociolingvističkih okolnosti koja semože očekivati u 2013. kad će postati 24. službeni je-zik Europske unije. Od toga trenutka za hrvatski se jezikočekuje dostupnost čitavoga niza jezičnotehnoloških re-sursa, alata i usluga kakve već postoje, ali se isto tako idalje nesmetano razvijaju za ostale službene jezike EU-a.Tražilice koje mogu pretraživati puni tekst prema svimoblicima u kojima se hrvatske riječi mogu pojavljivati,sustavi za diktiranje tj. automatsko pretvaranje govorana hrvatskome u tekst, ili, možda najvažniji, sustavi zastrogo prevođenje na i sa hrvatskoga, samo su neki odprimjera uporabivosti jezičnih tehnologija koje se oče-kuju ne samo kao istraživački prototipovi, nego i kaokorisni komercijalni proizvodi. Ne možemo očekivatikako će ih za hrvatski jezik izraditi istraživači koji se baveengleskim, francuskim, njemačkim, češkim, slovenskimili srpskim, već te jezične resurse, alate i usluge moramorazviti sami. Međutim, utoliko će nam biti lakše ako tenapore uskladimo i koordiniramo sa sličnim takvim na-porima za druge EU jezike, a upravo tome služi inicija-tiva opisana u ovoj tiskovini.

Ova bijela knjiga o hrvatskome jeziku pokazuje kako uHrvatskoj postoji temeljno okružje za istraživanje jezič-nih tehnologija, međutim to do sada nije rezultiralo irazvojem jezične industrije. Unatoč tome što su za hr-vatski izrađeni neki jezični resursi i tehnologije, znatnoih je manje nego za druge slavenske jezike, npr. češki, ajoš ih je manje razvijeno u usporedbi s većim europskimjezicima kao što su engleski, njemački ili francuski.

1

Page 9: the croatian language in the digital age hrvatski jezik u digitalnom

Premda u Hrvatskoj postoji već polustoljetna tradicijaistraživanja na području računalnoga jezikoslovlja, raču-nalne obradbe teksta i korpusne lingvistike (uz nastanaktako značajnih resursa kao što su Hrvatski čestotni rječ-nik, Hrvatski nacionalni korpus, Hrvatsko-engleski us-poredni korpus, Hrvatski morfološki leksikon, Hrvat-ska ovisnosna banka stabala, itd.), ne može se reći daje sadašnje stanje jezičnih tehnologija zadovoljavajuće.Uz nacionalno podupirane projekte, koji su na žalost jošuvijek malobrojni, od 2008. započinje se ozbiljnija pot-pora kroz pet projekata Europske komisije: CLARIN,ACCURAT, LetsMT!, ATLAS, XLike; ali i oni su ma-hom usmjereni na rješavanje pojedinačnih problema ilipružanja tehnoloških rješenja, a rijetko na ukupnost je-zičnih tehnologija za hrvatski jezik. Tu ulogu za hrvat-ski jezik preuzima šesti projekt – CESAR – kao i širaMETA-NET inicijativa, stvaranjem ove bijele knjige.Prema procjenama podrobnije iznesenim u ovome iz-

vješću, potrebno je poduzeti niz ciljanihmjera kako bi sehrvatski jezični resursi i alati doveli na istu razinu razvi-jenosti glede njihove kakvoće i količine, kakva je razinaveć dosegnuta za druge europske jezike.VizijaMETA-NET-a su visokokvalitetne jezične tehno-logije za sve jezike koje podupirupolitičko i gospodarskojedinstvo kroz kulturnu raznolikost. Ove će tehnologijepomoći u uklanjanju prepreka i u izgradnji mostova iz-među jezika u Europi. To, međutim, traži od svih di-onika ovoga procesa – politike, istraživanja, gospodar-stva i društva u cjelini – objedinjavanje svojih napora ubudućnosti.Ovaj niz bijelih knjiga nadopunjuje ostale strateške ak-tivnosti koje poduzima META-NET. Najnovije obavi-jesti, kao što su trenutačna inačica vizije META-NET-a [2] ili Strateški istraživački plan (SIP) može se pro-naći na META-NET-ovim mrežnim stranicama: http://www.meta-net.eu.

2

Page 10: the croatian language in the digital age hrvatski jezik u digitalnom

2

JEZICI U OPASNOSTI: IZAZOV ZA JEZIČNETEHNOLOGIJE

U ovome trenutku svjedočimo digitalnoj revoluciji kojakorjenito utječe na našu komunikaciju i naše društvo.Najnoviji razvoj digitalnih i mrežnih komunikacijskihtehnologija ponekad se uspoređuju s Gutenbergovimizumom tiska pomičnim slovima. Što nam ta analo-gijamože reći o budućnosti europskoga informacijskogadruštva i o našim vlastitim jezicima?

Digitalna revolucija usporediva je sGutenbergovim izumom tiska pomičnim slovima.

NakonGutenbergova izuma pravi su proboji u komuni-kaciji i razmjeni znanja postignuti pothvatima kao što jeLutherov prijevod Biblije na narodni jezik (ili u hrvat-skome slučaju, glagoljički prvotisak Misala iz 1483. kaoprve tiskanje knjige na hrvatskome jeziku). U nadolaze-ćim stoljećima razvijeni su razni kulturni postupci kojisu omogućili obradbu jezika i razmjenu znanja:

‚ pravopisno i gramatičko normiranje većih jezikaomogućilo je brzu razmjenu novih znanstvenihideja;

‚ uspostavljanje službenih jezika omogućilo je građa-nima komu-ni¬kaciju unutar određenih (često poli-tičkih) granica;

‚ poučavanje jezika i prevođenje omogućilo je raz-mjenu preko jezičnih granica;

‚ stvaranje uredničkih i bibliografskih normi osigu-ralo je kakvoću tiskovina;

‚ stvaranjem različitih medija kao što su knjige, no-vine, radio, televizija i drugi, zadovoljavaju se komu-nikacijske potrebe pučanstva.

U zadnjih je dvadeset godina informacijska tehnologijaomogućila olakšavanje i automatizaciju mnogih pro-cesa:

‚ računalna priprema za tisak zamijenila je tipkanje igrafički slog;

‚ Microso PowerPoint zamijenio je projiciranje sprozirnica;

‚ e-pošta omogućuje odašiljanje i primanje dokume-nata brže od telefaks uređaja;

‚ Skype nudi jeine internetske telefonske pozive iodržavanje virtualnih sastanaka;

‚ zajednički formati zapisa zvučnih i vizualnih poda-taka omogućuju jednostavnu razmjenu multimedij-skih sadržaja;

‚ tražilice omogućuju pristup www-stranicama na te-melju pretrage uporabom ključnih riječi;

‚ mrežne usluge poputGoogle prevoditelja nude brze,ali zato približne prijevode;

‚ društvene mreže kao što su Facebook, Twitter i Go-ogle+ pospješuju komunikaciju, omogućuju surad-nju i dijeljenje obavijesti.

Premda su takve aplikacije i usluge višestruko korisne,ipak još ne mogu podupirati u cijelosti održivo, više-

3

Page 11: the croatian language in the digital age hrvatski jezik u digitalnom

jezično europsko društvo u kojem informacije i robemogu slobodno kolati.

2.1 JEZIČNE GRANICE KOČEEUROPSKO INFORMACIJSKODRUŠTVONe možemo točno predvidjeti kako će izgledati budućeinformacijsko društvo, ali s velikom se vjerojatnošćumože očekivati kako će revolucija u komunikacijskimtehnologijama na nove načine zbližiti ljude koji govorerazličite jezike. To će kod pojedinaca rezultirati potre-bom za učenjem novih jezika, a kod razvijatelja aplika-cija potrebom za stvaranjem novih tehnoloških aplika-cija, ne bi li se osiguralo uzajamno razumijevanje i omo-gućio pristup razmjenjivome znanju. U globalnomegospodarskom i informacijskome prostoru raste inte-rakcija između različitih jezika, govornika i sadržaja kojase odvija zahvaljujući novim vrstama medija. Trenu-tačna popularnost društvenih mreža (kao što su Wiki-pedia, Facebook, Twitter, YouTube i od nedavno Go-ogle+) predstavlja samo vršak ledene sante.

Globalizacija gospodarstva i informacijskogaprostora suočava nas sa sve više različitih

jezika, govornika i sadržaja.

Danas bez ikakvih prepreka možemo u nekoliko se-kunda na drugu stranu svijeta prebaciti gigabajte tek-sta prije nego što uopće shvatimo kako je on na jezikukoji uopće ne razumijemo. Prema nedavnome izvješćuEuropske komisije, 57% internetskih korisnika u Europiputemmreže kupuje robu i usluge na jeziku koji nije nji-hov vlastiti. Engleski je najčešći strani jezik, a slijede gafrancuski, njemački i španjolski. 55% korisnika čita sa-držaje na stranome jeziku dok ih se samo 35% korististranim jezikom za pisanje poruka e-pošte ili ostavljanje

komentara na www-u [3]. Prije nekoliko godina engle-ski je možda bio lingua anca www-a jer je većina sadr-žaja na www-u tada bila na engleskome, međutim, da-nas su se prilike u mnogome promijenile. Moglo bi sereći kako je količina sadržaja na drugim jezicima (oso-bito azijskim i na arapskome) upravo eksplodirala. Izne-nađujuće je kako ovaj sveprisutni digitalni jaz prouzro-kovan jezičnim preprekama još uvijek nije privukao do-voljno pozornosti u javnim raspravama; pa ipak, upravonas on navodi na goruće pitanje: „Koji će europski jezicinapredovati i održati se u umreženome informacijskomedruštvu i društvu znanja, a koji će biti osuđeni na izumi-ranje?“

2.2 OPASNOST ZA NAŠE JEZIKEDok je otkriće tiska neizmjerno pridonijelo razmjeniobavijesti u Europi, ono je istodobno dovelo do izumi-ranja mnogih europskih jezika. Kako se na regionalnimi manjinskim jezicima tiskalo rijetko, mnogi su jezici,npr. cornwallski ili dalmatski, bili ograničeni samo nagovorni oblik komunikacije što je ograničilo doseg nji-hove uporabe. Hoće li Internet imati isti utjecaj na našedanašnje jezike? Osamdesetak europskih jezika najbo-gatiji je i najvažnijih dio njezina kulturnoga nasljeđa ineizostavni dio jedinstvenoga društvenoga modela [4].Dok će široko korišteni jezici kao engleski ili španjol-ski zacijelo održati svoju prisutnost na rastućem tržištudigitalnoga društva, mnogi bi europski jezici mogli bitiisključeni iz digitalnih komunikacijskih kanala i postatinevažni za takvo umreženo društvo. Time bi se s jednestrane oslabio globalni položaj Europe, a s druge strane,takav bi razvoj bio u suprotnosti sa strateškim ciljemosiguravanja jednakoga sudjelovanja svakoga građaninaEU bez obzira na njegov jezik.Prema izvješću UNESCO-a o višejezičnosti jezici suključni medij za ostvarivanje temeljnih ljudskih pravakao što su iskazivanje političkoga stava, obrazovanje i su-djelovanje u društvu [5].

4

Page 12: the croatian language in the digital age hrvatski jezik u digitalnom

Znatna raznolikost jezika u Europi jednoje od najvažnijih kulturnih dobara i bitan

je dio europskoga uspjeha.

2.3 JEZIČNE SU TEHNOLOGIJEKLJUČNE POTPORNETEHNOLOGIJEUprethodnimrazdobljimaulaganje u jezike usredotoči-valo se na učenje jezika i prevođenje. Na primjer, premanekimprocjenama europsko tržište prevođenja, tumače-nja, lokalizacije programske podrške i prevođenja www-stranica vrijedilo je 8,4 milijarde eura, a očekivao se nje-gov rast od 10% godišnje [6]. No čak i uz takve prog-noze rasta postojeći kapaciteti nisu dovoljni za zadovo-ljenje potreba niti sadašnjih, a kamoli budućih potreba.Najuvjerljivije rješenje koje bi osiguralo širinu i dubinuuporabe jezika u sutrašnjoj Europi jest uporaba odgova-rajućih tehnologija, upravo kao što rabimo razne tehno-logije pri rješavanju npr. svojih transportnih ili energet-skih potreba.

Jezične tehnologije usmjerene na sve vrste pisanoga iligovorenoga teksta, pomažu ljudima u suradnji, obavlja-nju poslova, razmjeni znanja i sudjelovanju u društve-nim i političkim raspravama neovisno o stupnju usvo-jenih jezičnih ili računalnih vještina. One već čestodjeluju skrivene unutar složenih računalnih sustava kojinam pomažu kad:

‚ tražimo obavijesti korištenjem internetskih tražilica;

‚ provjeravamo pravopis ili gramatiku u obradnikuteksta;

‚ gledamo preporuke za proizvode u on-line duća-nima;

‚ slušamo glasovne upute navigacijskoga sustava;

‚ prevodimo www-stranice uporabom usluge on-lineprevođenja.

Jezične tehnologije, o kojima se podrobnije govori uovoj bijeloj knjizi, čine srž budućih inovativnih aplika-cija. Jezične su tehnologije uobičajena potporna tehno-logija unutar veće aplikacije kao što sunavigacijski sustavili tražilica. Ove bijele knjige prikazuju stanje osnovnihpostignuća u jezičnim tehnologijama za svaki pojedinijezik.

Svi će europski jezici trebati jezičnetehnologije koje će biti dostupne i prihvatljive.

Jezične se tehnologije sastoje od niza osnovih aplika-cija koje omogućuju uporabu i obradbu jezika i govoraunutar složenijih aplikacijskih sustava. Svrha je ovihMETA-NET-ovih bijelih knjiga prikazati koliko su teosnovne potporne jezične tehnologije razvijene za svakiod europskih jezika. Europa treba robusne i dostupnejezične tehnologije za sve europske jezike. Kako bi odr-žala svoj položaj globalnoga predvonika u inovacijama,Europa treba jezične tehnologije prilagođene svakomeod svojih jezika, a one moraju biti robusne i dostupnene bi li se što lakše integrirale u šire aplikacijsko okružje.Bez jezičnih tehnologija uskoro više ne ćemo moći pos-tići stvarno interaktivno, multimedijsko i višejezičnokorisničko iskustvo.

2.4 MOGUĆNOSTI JEZIČNIHTEHNOLOGIJAU svijetu tiska tehnološki je proboj predstavljalo brzoumnožavanje slike teksta uporabom tiskarskoga strojapomičnim slovima. Međutim, istodbno je ljudima pre-pušten težak posao traženja, pristupa, prevođenja i saži-manja znanja širenoga i prenošenoga tako umnoženimtekstovima. Morali smo čekati do Edisona koji je otkrio

5

Page 13: the croatian language in the digital age hrvatski jezik u digitalnom

kako zabilježiti govor, ali ponovno je njegova tehnolo-gija stvarala analogne preslike.Jezične nam tehnologije danas omogućuju pojednostav-njivanje i automatizaciju postupaka kao što su strojnoprevođenje, stvaranje sadržaja, i upravljanje znanjemna svim europskim jezicima. Jezične tehnologije tako-đer stoje u pozadini intuitivnih govornih sučelja za ku-ćansku elektroniku, strojeve, vozila, računala i robote.Premda već postoje mnogi prototipovi, komercijalne iindustrijske primjene su još uvijek u ranim stupnjevimarazvoja. Međutim, neka su nedavna postignuća u is-traživanjima i razvoju otvorila jedinstvene mogućnosti.Na primjer, strojnim prevođenjem već se mogu dobitiprijevodi prihvatljive točnosti unutar posebnih podru-čja, dok istodobno neke eksperimentalne aplikacije većomogućuju dohvat višejezičnih obavijesti i upravljanjeznanjem, kao i proizvodnju sadržaja istodobno namno-gim europskim jezicima.

Višejezičnost je pravilo, a ne iznimka.

Kao što je to bio slučaj i s mnogim drugim tehnologi-jama, prve su jezične aplikacije, kao što su govorna ko-risnička sučelja i razgovorni sustavi, ponajprije razvijeneu visokospecijaliziranim područjima uporabe, ali neri-jetko uz ograničenu kakvoću. Pa ipak i za takve aplika-cije postoje ogromne tržišne mogućnosti u obrazovanjui zabavnoj industriji s uključivanjem jezičnih tehnolo-gija u računalne igre, obrazovne sustave, knjižnice, si-mulacijske sustave i sustave za uvježbavanje. Mobilneobavijesne usluge, strojno potpomognuti programi uče-nja jezika, okružja za e-učenje, alati za samoprocjenui sustavi za pronalaženje plagijata samo su još neki odprimjera gdje jezične tehnologije igraju značajnu ulogu.Popularnost društvenih mreža kao što su Twitter ili Fa-cebook nagoviještaju dodatne potrebe za razrađenim je-zičnih tehnologijama koje bi mogle nadgledati poruke,sažimati rasprave, predlagati opća kretanja u stavovima

i mišljenima sudionika, otkrivati emocionalne afinitete,uočavati kršenje autorskih prava ili pratiti zloporabu.

Jezične tehnologije Europskoj uniji pružaju upravo ne-sagledive ekonomski i kulturno značajne mogućnosti.One mogu pomoći u problemima koje donosi višeje-zičnost u Europi s obzirom da različiti jezici prirodnosupostoje u europskom poslovanju, ustanovama i ško-lama. Građani žele komunicirati onkraj jezičnih granicakoje još uvijek postoje na europskome zajedničkome tr-žištu, a upravo bi jezične tehnologije mogle pomoći unadilaženju tih preostalih prepreka uz potpomaganjeslobodne i otvorene uporabe bilo kojega jezika. Na-dalje, inovativne, višejezične jezične tehnologije namabi Europljanima također pomogle u komunikaciji s na-šim globalnim partnerima, a njima bi pomogle pri ra-zvoju jezičnih tehnologija u njihovim višejezičnim za-jednicama. Jezične tehnologije postaju svojevrsne „pot-porne“ tehnologije koje omogućuju nadići „prepreke“jezične raznolikosti i čine različite jezične zajednice me-đusobno pristupačnijima. Konačno, jedno od aktivnijihpodručja istraživanja jest uporaba jezičnih tehnologijau spasilačkim operacijama u unesrećenim područjima.U takvim okružjima visoke opasnosti točnost prijevodamože značiti razliku između života i smrti: u buduć-nosti će inteligentni roboti s višejezičnim sposobnos-tima moći ljudske spašavati živote.

2.5 IZAZOVI KOJI STOJE PREDJEZIČNIM TEHNOLOGIJAMAPremda su u nekoliko proteklih godina jezične tehnolo-gije napravile znatan napredak, trenutačan je tempo teh-nološkoga napretka i stvaranja novih proizvoda prespor.Jezične tehnologije, koje su već u širokoj uporabi, kaošto su provjernici pravopisa ili gramatike u obradnicimateksta, uobičajeno su jednojezične, a dostupne su samoza ograničen broj jezika.

6

Page 14: the croatian language in the digital age hrvatski jezik u digitalnom

Usluge on-line strojnoga prevođenja, premda korisne zastvaranje općega dojma o čemu je u nekom dokumenturiječ, bore se s mnogim poteškoćama kad su nam po-trebni visokokvalitetni i potpuni prijevodi. Zahvalju-jući složenosti prirodnih jezika, njihovo modeliranje uobliku računalnih programa i provjera u stvarnome ži-votu, dugotrajan je i skup posao koji zahtijeva stalnu fi-nancijsku potporu. Europa mora zadržati svoju vodećuulogu u sučeljavanju s tehnološkim izazovima višejezič-noga društva otkrivanjem novih načina za ubrzavanjerazvoja na tom području. To može uključiti i razno-rodne pristupe kao što su napredak u računarstvu, ali itehnike distribuirane ljudske potpore.

Tehnološki se napredak mora ubrzati.

2.6 USVAJANJE JEZIKA KODLJUDI I STROJEVAKako bismo prikazali na koji se način računala nose sprirodnim jezikom i zašto je iznimno težak zadatak pro-gramirati ih za obradbu različitih jezika, pogledajmo nakratko kako ljudi usvajaju svoj prvi i ostale jezike, a po-tom pogledajmo kako djeluju jezičnotehnološki sustavi.Ljudi usvajaju jezične sposobnosti na dva različita na-čina. Mala djeca usvajaju jezik slušanjem i praćenjem in-terakcija između svojih roditelja, braće i sestara te ostalihu obitelji. U otprilike dvogodišnjoj dobi sami počinjuproizvoditi prve riječi i kratke fraze. To je moguće samozato jer ljudski rod već ima genetsku predispoziciju zaimitiranje i racionalizaciju onoga što čuju.Učenje drugoga jezika u kasnijoj dobi obično traži višekognitivnoga napora ukoliko dijete nije uronjeno u je-zičnu zajednicu izvornih govornika. U školskoj se dobistrani jezici obično usvajaju učenjemnjihove gramatičkestrukture, rječnika i pravopisa iz knjiga i obrazovnihma-

terijala koji opisuju jezično znanje u obliku apstraktnihpravila, tablica i primjera.

Ljudi usvajaju jezičnu sposobnost nadva različita načina: učeći na primjerima

i učeći temeljna jezičnih pravila.

Kod jezičnotehnoloških sustava dvije su osnovne vrsteusvajanja jezične sposob nosti, na sličan način kao i kodljudi. Statistički (ili podatkovno utemeljeni) pristupistječu jezično znanje iz golemih zbirki pojedinačnih tek-stnih primjera. Dok je dovoljno koristiti tekst na jed-nome jeziku za treniranje npr. pravopisnoga provjer-nika, usporedni tekstovi na dva (ili više) jezika potrebnisu za treniranje strojnoprevoditeljskih sustava. Algorit-mima strojnoga učenja prepoznaju se obrasci kako se po-jedine riječi, kratke fraze ili čitave rečenice prevode s jed-noga jezika na drugi.Međutim, za takve statističke pristupe potrebni su mili-juni usporednih rečenica za povećenje kakvoće izvedbetakvih sustava. To je jedan od razloga zašto sastavljačitražilica teže skupiti što je više moguće pisanoga teksta.Provjera pravopisa u obradnicima teksta i usluge kao štosu Google Search ili Google Translate počivaju u cije-losti na statističkim pristupima. Prednost statističkihsustava je što strojevi uče brzo i u kontinuiranim ciklu-sima treniranja premda kakvoća takvih sustava nerijetkooscilira.Sustavi temeljeni na pravilima predstavljaju drugu os-novnu vrstu jezičnih tehnologija, a time i sustava zastrojno prevođenje. Stručnjaci s područja jezikoslovlja,računalnoga jezikoslovlja i računarstva moraju kodiratigramatičke analise (prijevodna pravila) i sastaviti popiseriječi (rječnike). Izgradnja sustava temeljenoga na pra-vilima iznimno je vremenski i poslovno zahtjevna, a nemože se provesti bez visokospecijaliziranih stručnjaka.Neki od vodećih strojnoprevoditeljskih sustava temelje-nihnapravilimau stalnomsu razvoju već dvadesetak go-dina. Prednost sustava temeljenihnapravilima je u tome

7

Page 15: the croatian language in the digital age hrvatski jezik u digitalnom

što stručnjaci imaju mogućnost istančanijega upravlja-nja obradbom jezika. Zbog toga je moguće sustavno is-pravljati pogrješke u programskoj podršci i pružati ko-risniku podrobne povratne obavijesti, osobito kad se napravilima temeljeni sustavi koriste za učenje jezika. Nažalost, zbog svoje visoke cijene, jezične tehnologije te-meljene na pravilima isplative su samo za jezike s velikimbrojem govornika.

Kako su prednosti i nedostatci statističkih pristupa ipristupa temeljenih na pravilima međusobno nadopu-njući, trenutačna se istraživanja usredotočuju na hi-bridne pristupe koji kombiniraju ova dva pristupa. Me-đutim, hibridni sustavi do sad su bili znatno manje us-pješni u industrijskim uvjetima nego u istraživačkim la-boratorijima.

Dvije osnovne vrste jezičnih tehnologijausvajaju jezično znanje na sličan način.

Kao što smo vidjeli u ovome poglavlju, mnoge aplika-cije, koje se svakodnevno na široko koriste u današnjeminformacijskome društvu, u mnogome ovise o jezičnihtehnologijama, osobito europskome gospodarskom i in-formacijskome prostoru. Premda su te tehnologije pos-tigle znatan napredak u nekoliko proteklih godina, jošuvijek postoje ogomne mogućnosti za poboljšanje kak-voće jezičnotehnoloških sustava. U sljedećem ćemo po-glavlju opisati ulogu hrvatskoga jezika u europskome in-formacijskome društvu i procijeniti trenutačno stanjejezičnih tehnologija za hrvatski jezik.

8

Page 16: the croatian language in the digital age hrvatski jezik u digitalnom

3

HRVATSKI JEZIK U EUROPSKOMEINFORMACIJSKOME DRUŠTVU

3.1 OPĆE ČINJENICEHrvatski jezik pripada zapadnoj južnoslavenskoj pod-skupini slavenske grane inoeuropske jezične porodice.U ovome trenutku hrvatski jezik broji preko 5,5 mili-juna izvornih govornika. Hrvatski se jezik sastoji od na-rječja i nacionalnoga standardnoga jezika Hrvata, kojije službeni jezik više od 4 milijuna stanovnika Repu-blike Hrvatske, a uz bošnjački i srpski također je jedanod tri službena jezika Bosne i Hercegovine gdje ga go-vori oko 700.000 govornika. Također, hrvatskim jezi-kom govore i mnogi pripadnici nacionalnih manjina uHrvatskoj kao i autohtone hrvatske etničke i jezičnema-njine u Srbiji, Crnoj Gori, Sloveniji, Madžarskoj, Aus-triji, Slovačkoj i Italiji, koje ili obitavaju na teritorijimanekadašnjih hrvatskih zemalja ili su iselili tijekom sto-ljeća u povijesno uvjetovanim selidbama. Zbog znatnegospodarski i politički uvjetovane emigracije u 20. sto-ljeću i nakon dvaju svjetskih ratova, hrvatski se takođergovori u mnogobrojnim hrvatskim zajednicama u cije-lome nizu europskih i prekomorskih zemalja. Najvećehrvatsko gospodarsko iseljeništvo smješteno je u Nje-mačkoj, potom u SAD, Kanadi i Australiji. Aktivnauporaba hrvatskoga uglavnom ovisi o iseljeničkome na-raštaju kojem govornici pripadaju. Pa ipak, u mnogimzemljama, osobito europskima, postoje dodatni školskiprogrami programi na hrvatskome koje organizira i po-dupire hrvatska Vlada.

Službeni je status hrvatskoga jezika u Hrvatskoj odre-đen Ustavom Republike Hrvatske. Prema Članku 12

Ustava: „U Republici Hrvatskoj u službenoj je uporabihrvatski jezik i latinično pismo. U pojedinim lokalnimjedinicama uz hrvatski jezik i latinično pismo u služ-benu se uporabu može uvesti i drugi jezik te ćirilićno ilikoje drugo pismo pod uvjetima propisanima zakonom.“Kako se 2013. očekuje pristupHrvatskeEuropskoj uniji,hrvatski će jezik postati 24. službeni jezik EU-a.

Hrvatskim se jezikom služi vlada i administracija,sve razine obrazovanja, a i jezik je na kojem seodvija poslovanje i svakodnevna komunikacija u

Republici Hrvatskoj.

U Hrvatskoj još uvijek ne postoji jedinstven „jezični za-kon“ koji bi regulirao službenu uporabu jezika u jav-nosti. Uvođenje zakona o jeziku pokušano je u neko-liko navrata od stjecanja hrvatske neovisnosti, ali niti ujednom slučaju nije dobivena dovoljna potpora hrvat-ske Vlade te niti jedan prijedlog nije ušao u saborskuproceduru. Zadnji se takav pokušaj dogodio u travnju2010. Međutim, u zakonima o obrazovanju, sudskimpostupcima itd. postoje članci koji reguliraju uporabuhrvatskoga kao službenoga državnoga jezika. Do sada,zakonodavstvo ne zahtijeva obvezatnu provjeru ili ispi-tivanje znanja hrvatskoga jezika kao uvjet za naturaliza-ciju. Zakon o hrvatskom državljanstvu [7] prepostavljada stranac, koji traži stjecanje hrvatskoga državljanstva,poznaje hrvatski jezik i pismo.Prema popisu stanovništva iz 2001. Hrvatska je imala4.437.460 stanovnika od kojih su 89,63% Hrvati. Srbi

9

Page 17: the croatian language in the digital age hrvatski jezik u digitalnom

su najzastupljenija nacionalna manjina s 4,54% stanov-ništva dok svaka od preostalih nacionalnih manjina za-uzima manje od 0,5% stanovništva: Bošnjaci (0,47%),Albanci (0,34%), Slovenci (0,30%), Crnogorci (0,11%)i ostali u još manjim postotcima. Hrvatski je jezikmaterinski jezik za 96% stanovnika. Nacionalne ma-njine izjasnile su se kako govore sljedeće jezike: alban-ski, bošnjački, bugarski, češki, hebrejski, madžarski, nje-mački, istrorumunjski, talijanski, makedonski, crnogor-ski, poljski, romski, rumunjski, ruski, rusinski, slovački,srpski, turski i ukrajinski. Jezici četiri manjine, srpski,madžarski, talijanski i češki, stekli su status jezika i pismau službenoj uporabi u određenim područjima premaudjelu njihovih govornika u ukupnome stanovništvukoji mora iznositi barem 1/3 svih stanovnika na podru-čju lokalne samoupravi. Od 2009. u Hrvatskoj postoji27 područja gdje nacionalne manjine imaju pravo služ-bene uporabe vlastitoga jezika u lokalnoj administraciji.To se pravo u visokome omjeru primjenjuje u Istarskojžupaniji gdje je talijanski materinski jezik 20.521 sta-novnika, ali su dvojezični cestovni natpisi prisutni i udijelovima gdje nema talijanske manjine. Republika jeHrvatska ratificirala Europsku povelju o regionalnim imanjinskim jezicima 1997.

Još nije objavljena službena statistika o jezičnoj uporabiprikupljena nedavno provedenim popisom iz 2011. us-klađenim s međunarodnim statističkim normama, kojije tako obuhvatio sve državljane Republike Hrvatske,strane državljane i apatride koji borave u Republici Hr-vatskoj.

Hrvatska imabrojno iseljeništvokoje često još uvijek go-vori hrvatski jezik (v. sliku 1). Hrvatske etničke i jezičnemanjine žive u mnogim europskim zemljama kao pos-ljedica povijesnih selidaba, započetih još u 16. stoljeću,kao nedavnih, mahom gospodarski i politički uvjetova-nih. Najbrojnije skupine su tzv. Gradišćanski Hrvati uAustriji (pretpostavlja se oko 50.000), a otprilike sličanbroj Hrvata živi u Madžarskoj. Gradišćanski se Hrvati

u Austriji aktivno služe gradišćanskim hrvatskim. Ovaje varijanta hrvatskoga jezika, standardizirana u skladus ponešto drukčijim načelima od standardnoga hrvat-skoga, jedan od austrijskih službenih manjinskih jezika.Čitav je niz dječjih vrtića i škola u Gradišću u kojima serabi gradišćanski hrvatski. S druge strane, hrvatski stan-dardni jezik službeni jemanjinski jezik uMadžarskoj. UItaliji trenutačno živi oko 3.000 Hrvata koji se služe va-rijantom hrvatskoga zvanom moliški hrvatski i on se ta-kođer uči u školama u tri općine nastanjene Hrvatima uMoliseu. Broj Hrvata u Srbiji, posebice u pokrajini Voj-vodini gdje su Hrvati priznata nacionalna manjina, te-ško je točno utvrditi jer se dio etničkihHrvata izjašnjavakao tzv. „Bunjevci“ uglavnom zbog političkih razloga.Premda je mnogo Hrvata izgnano iz Srbije nakon štoje Hrvatska stekla svoju neovisnost od Jugoslavije, pret-postavlja se kako u Srbiji još uvijek živi više od 100.000Hrvata. U ostalim europskim zemljama hrvatska autoh-tona manjina živi u Crnoj Gori (7.000 do 10.000), Če-škoj (manje od 1.000), Slovačkoj (4.000) i Rumunjskoj(7.500). Broj Hrvata u Sloveniji je oko 50.000, ali samoje malen broj njih stvarna autohtona manjina, ponaj-prije u naseljima uz granicu, a većina ih predstavlja ne-davno gospodarsko iseljeništvo. Hrvatski ima statusma-njinskoga jezika u Srbiji (kao jedan od sedam službenihjezika pokrajine Vojvodine), Crnoj Gori, Austriji, Ma-džarskoj i Italiji.

3.2 HRVATSKA NARJEČJASlika hrvatskihnarječja sastavljena je od tri narječne sku-pine: čakavske, kajkavske i štokavske (v. sliku 2). Mjesnigovori, koji pripadaju nekom od triju narječja, govore sepo cijelojRepubliciHrvatskoj. Svahrvatskanarječja pri-padaju srednjo-južnoslavenskome dijasistemu slavenskejezične grane i u južnoslavenskom prostoru obuhvaćadio dijalekatnoga kontinuuma između slovenskoga tipana sjeverozapadu i makedonsko-bugarskoga tipa na ju-goistoku. Imena triju narječja izvedena su iz oblika

10

Page 18: the croatian language in the digital age hrvatski jezik u digitalnom

1: Hrvati u susjednim državama [8]

11

Page 19: the croatian language in the digital age hrvatski jezik u digitalnom

upitne zamjenice ča, kaj i što (lat. quid). Međutim, najužnoslavenskome prostoru ta je klasifikacija relevantnasamo za hrvatske dijalekte i rezultat je potreba hrvatskejezične zajednice. Slovenci koriste zamjenicu kaj, ali slo-venski jezik ne pripada u kajkavsko narječje. Bošnjaci,Crnogorci, Srbi kao i Bugari, Makedonci i svi istočniSlaveni koriste što, ali njihovi jezici ne pripadaju u što-kavsko narječje u istome smislu u kojem je štokavski hr-vatsko narječje. Srbi, Crnogorci i Bošnjaci nemaju oblikte upitne zamjenice kao kriterij za razlikovanje svojihnarječja. Kad je riječ o štokavskome, arhaični šćakav-ski (tzv. slavonski) govore samo Hrvati, novoštokavskiikavski i ijekavsko-šćakavski govore Hrvati i Bošnjaci, anovoštokavski ijekavski govore Hrvati iz širega dubro-vačkoga područja, ali također i ostali južni Slaveni. Hr-vati uGradišću (Austrija,Madžarska, Slovačka)mahomgovore čakavski, a rijetko štokavski ili kajkavski. Hrvatiu talijanskoj pokrajini Molise govore arhaičnim štokav-skim dok Hrvati u Karaševu, Rumunjska govore torlač-kim narječjem.

Uslijed mnogobrojnih, često prisilnih iseljavanja, pros-torna se raspodjela pojedinih hrvatskih narječja stubo-kom promijenila od srednjega vijeka. Čakavski i kajkav-ski su u prošlosti bili raspoređeni na znatno širem po-dručju, ali danas prevladava štokavsko narječje. Prije is-eljavanja čakavsko se narječje rabilo na sjeveru do rijekaKupe i Save a na istoku do crteUna-Dinara-Cetina. Na-konmigracija čakavsko je narječje ograničeno na obalnopodručje i otoke, dok su se čakavski govori u unutraš-njosti počeli razlikovati premakoličini štokavskoga utje-caja. Kajkavsko se narječje također nekad prostiralo is-točnije gdje danas prevladava štokavsko.

Čakavsko, kajkavsko i štokavsko narječje razlikuju se nasvim jezičnim razinama: fonološkoj, morfološkoj, sin-taktičkoj i leksičkoj i svaka od tih razina uključuje brojnearhaizme, ali i inovacije karakteristične za određeno na-rječje.

3.3 STANDARDIZACIJAHRVATSKOGA JEZIKATisućljetna povijest hrvatskoga jezika potvrđena je tek-stovima pisanim još krajem 10. stoljeća ili početkom11. stoljeća, u vrijeme kad su se tri hrvatska narječja (ča-kavski, štokavski i kajkavski) počela oblikovati. Sva su trihrvatskanarječja odigrala važnuuloguu stvaranjuhrvat-skoga književnoga jezika (različitih narječnih osnovica)i oblikovanju hrvatske jezične kulture koja je dovela dostandardnoga hrvatskoga jezika izgrađenoga na štokav-skoj osnovici.

Jeste li znali da je etimologija riječi „kravata“dolazi od „Croate“ i da se iz francuskogaproširila na ostale jezike u 17. stoljeću?

Prvi jasni pokušaj oblikovanja hrvatskoga standardnogajezika pojavio se u 17. stoljeću kad je većina hrvatske et-ničke zajednice–osobitonakon gramatike i drugihdjelaBartolaKašića (1575-1650) i rascvjetale renesansne i ba-rokne književnosti štokavskoga Dubrovnika – prepoz-nala jezičnu strukturu štokavskoga (isprva s ikavskim re-fleksom jata, ali kasnije s jekavskim) kao najbolje polazi-šte za sastavljanje nadregionalnoga hrvatskoga književ-noga jezika. Unatoč odabiru jedne jezične osnovice zasastavljanje svoga standardnoga jezika, Hrvati nisu od-bacili postignuća višestoljetne jezične kulture različitihnarječnih osnovica unutar hrvatskoga književnoga je-zika (kajkavsko-štokavsko-čakavski hibrid) koji je obi-lježio i povijest hrvatske etničke zajednice. Premda jestandardizacija jezika Hrvata temeljena na štokavskomenarječju započela vrlo rano, narodno se jezično jedins-tvo postiglo tek u vrijeme Ilirskoga narodnoga prepo-roda (počevši od 1835.) kad je mala skupina Hrvata,koji su se do tada služili kajkavskim idiomom, takođerprihvatili štokavski hrvatski standardni jezik. Tijekomvećine 20. stoljeća hrvatski se standardni jezik razvijaou različitim južnoslavenskim državnim jedinicama pod

12

Page 20: the croatian language in the digital age hrvatski jezik u digitalnom

2: Zemljovid narječja u Republici Hrvatskoj

13

Page 21: the croatian language in the digital age hrvatski jezik u digitalnom

različitim imenima, a bio je predstavljan kao varijantatzv. hrvatsko-srpskoga (srpsko-hrvatskoga) jezika, po-najprije iz političkih razloga. To je napušteno s demo-kratskim društveno-političkim promjenama 1990.Različite stilizacije hrvatskoga jezika oblikovane su jošdavno u iseljeništvu (npr. gradišćanski hrvatski, moliškihrvatski). Hrvatska je pisana kultura obilježena upora-bom triju pisama (glagoljica, ćirilica, latinica) među ko-jima je latinica među Hrvatima prevladava od 16. sto-ljeća. Njezina uporaba nije bila normirana niti usustav-ljena sve do 1835. kad je Ljudevit Gaj dao hrvatskoj la-tinici današnji oblik.

3.4 OSOBINE HRVATSKOGAJEZIKA3.4.1 Fonetika, fonologija, morfonologija

Fonemski inventar hrvatskoga standardnoga jezika sas-toji se od 5 samoglasnika (a, e, i, o, u) i 25 suglasnika (m,v, n, l, r, j, nj, lj, p, b, f, s, z, c, t, d, ć, đ, š, ž, č, dž, h, k, g).Akustične i artikulacijske osobine samoglasnika nemije-njaju se s obzirom na mjesto izgovora (bez obzira nalazili se u kratkom, dugom, naglašenom ili nenaglašenomslogu). Uz tih 5 samoglasnika postoji i samoglasničko r(crn ‘niger’) i dvoglas ie, koji se u pismu bilježi kao je/ije(djelo, odijelo).Naglasni sustav sastoji se od 4 naglaska (dva duga na-glaska: s uzlaznim i silaznim tonom i dva kratka na-glaska: s uzlaznim i silaznim tonom) i zanaglasne du-žine. Naglasni je sustav standardnoga hrvatskoga jezikanovoštokavski premda danas postoje mnoga odstupa-nja od naglasnih modela kodificiranih u drugoj polo-vici 19. stoljeća. Mjesto naglaska nije vezano uz poje-dini slog, nego raspodjela naglasaka podliježe stanovi-tim ograničenjima (npr. zadnji slog višesložne riječi unačelu ne može biti naglašen, silazni naglasci ostvarujuse samo na prvome slogu riječi koje nisu složenice, itd.)Ova se pravila krše u svakodnevnome govoru, osobito u

velikim gradskim središtima koja su smještena izvan no-voštokavskoga područja (npr. kontinuitêt / kontinuìtēt).Naglasak i dužina mogu se povremeno rabiti za razli-kovanje značenja između leksičkih jedinica ili njihovihoblika, npr. gr d : grâd, žènē (gen. jd.) : žène (nom.mn.).

U hrvatskome neke riječi nemaju vlastiti naglasak (na-slonjenice) već u naglasnoj riječi prednaglasnice mogupreuzeti naglasak prenesen s naglašene riječi ukoliko jenaglasak silazni i na prvom je slogu (grâd : grād). Kodzanaglasnica to nije moguće. Prenošenje naglaska naprednaglasnicupostaje sve rjeđe, osobitou gradskim sre-dištima izvan neoštokavskoga područja.

Uhrvatskome se standardnome jeziku nalazemnoge fo-nološki (nom. jd. sladak : gen. jd. slatkoga, nom. jd. dio :gen. jd. dijela) i morfonološki uvjetovane promjene(nom. jd. majka : dat. jd. majci, nom. jd. junak :vok. jd. junače).

Regionalna primjena hrvatskoga standardnoga jezikačesto je u govoru pod utjecajem lokalnoga narječja,npr. na čakavskome Kvarneru prevladava zatvorno t’umjesto bezvučnoga poluzatvornoga ć, ili u sjeveroza-padnome kajkavskome znakovito je nerazlikovanje iz-među č – ć ili đ – dž.

3.4.2 Morfologija

Hrvatski standardni jezik razlikuje 10 vrsta riječi od ko-jih su pet promjenljive (imenice, pridjevi, zamjenice,brojevi, glagoli), četiri nepromjenljive (prijedlozi, vez-nici, uzvici, čestice), a prilozi su promjenljivi samo ukomparaciji.

Gramatičke kategorije koje se nalaze u većine promjen-ljivih riječi jesu rod (tri vrijednosti: muški, ženski, sred-nji), broj (dvije vrijednosti: jednina, množina), padež(sedam vrijednosti: nominativ, genitiv, dativ, akuza-tiv, vokativ, lokativ, instrumental). Neke sklonjive ri-ječi imaju i neke posebne kategorije (npr. određenost seobilježava na pridjevima zasebnimnizomflektivnih nas-tavaka; živo/neživo se obilježava odabirom nastavka za

14

Page 22: the croatian language in the digital age hrvatski jezik u digitalnom

akuzativ jednine imenica muškoga roda; imenice mogubiti konkretne, tvarne, kategorijalne ili zbirne; itd.). Ko-njugirane riječi (glagoli) obilježene su kategorijama: na-čina (četiri vrijednosti: indikativ, imperativ, kondici-onal, optativ), lica (tri vrijednosti: prvo, drugo, treće),broja (dvije vrijednosti: jednina, množina), stanja (dvijevrijednosti: aktiv, pasiv) i vremena (sedam vrijednosti:prezent, imperfekt, aorist, perfekt, pluskvamperfekt, fu-tur I., futur II.). Glagoli biti (‘esse’) and htjeti (‘volere’) uhrvatskome su pomoćni glagoli. Glagoli također posje-duju složen sustav glagolskih vidova (svršeni i nesvršeni sdodatnim podvrijednostima kao što su početni, učestaliitd.), a mogu uključivati i osobinu prijelaznosti. Pridjevii prilozi mogu se pojaviti i u kompariranim oblicima (trivrijednosti: pozitiv, komparativ, superlativ).

U hrvatskome postoje dvije osnovne vrste sklonidbe:imenična sklonidba (imenice i neodređeni oblici pri-djeva) i zamjenično-pri-djevska sklonidba (zamjenice,određeni oblici pridjeva, brojevi). Svaki imenični rodima svoju sklonidbu (a-vrsta za muški i srednji rod, e vr-sta za ženski), a postoji i posebna i-vrsta (imenice žen-skoga roda). Imenična sklonidba prikazana je na slici 3.

Nastavci za zamjenično-pridjevsku sklonidbu prikazanisu na slici 4.

Riječi se u hrvatskome tvore derivacijom i slaganjem.Postoji nekoliko različitih načina tvorbe riječi: su-fiksalna (star-ac), prefiksalno sufiksalna (do-žiot-an),nesufiksalno slaganje (plačidrug), sufiksalno slaganje(vanjskopolitički), srastanje (uz-brdo), slaganje pokrata(Varteks) i pretvorba (mlada). Najčešća je sufiksalnatvorba.

3.4.3 Rječnik, frazeologija, nazivlje

Temeljni se leksički sloj hrvatskoga standardnoga jezika,osim praslavenskoga leksičkoga nasljeđa, sastoji od što-kavskoga vokabulara uz primjese vokabulara drugih hr-vatskih narječja i vokabulara naslijeđenoga iz književ-noga jezika raznih dijalekatnih stilizacija starijega podri-

jetla (npr. iz kajkavskoga kukac, hlače, rječnik, ili iz ča-kavskoga spužva). Pored toga, cjelina hrvatskoga jezikabila je stalno izložena izravnim ili neizravnim dodirimas drugim jezicima i kulturama. Hrvatski se jezik ističe iz-među ostalih južnoslavenskih jezika znatnim leksičkimutjecajima pristiglim iz romanskih jezika (supstratni tra-govi dalmatskoga jezika jesu npr. jarbol, tunj). Talijanskije jezik bio utjecajan u priobalju (osobito u dijelovimapod negdašnjom mletačkom dominacijom), a njemačkii do neke mjere madžarski, u kontinentalnoj Hrvatskoj.

Crkvenoslavenski je književni jezik ostavio tragoveu sta-rijim razdobljima hrvatskoga jezika, ali nije imao zna-čajnijega utjecaja tijekom razdoblja u kojem se obliko-vao standardni jezik. Ruski jezik nije ostavio tako du-bokoga traga u hrvatskome kao što je to učinio u susjed-nome srpskome standardnome jeziku. Utjecaj vokabu-lara klasičnih jezika (latinskoga i grčkoga) sveprisutan jeu hrvatskoj kulturi, a ponajprije u intelektualnom vo-kabularu i znanstvenome nazivlju. Tijekom razdobljasrednjohrvatskoga jezika (16.-18. stoljeće) intenzivno suu hrvatski ulazile posuđenice iz turskoga, osobito riječiza predmete iz svakodnevnoga života. Važno je napo-menuti kako zbog ranoga iseljavanja, u gradišćanskomehrvatskome nema turskih posuđenica, pa čak niti onihkoje se u standardnome hrvatskome više niti ne osje-ćaju stranim riječima (npr. bubreg, čizma, jastuk itd.).Umjesto tih riječi u gradišćanskome hrvatskome rabe sestarije hrvatske riječi zajedničkoga slavenskoga podrije-tla, te je stoga on vrlo bitan za uvid u povijest hrvatskogaleksičkoga inventara. Njemački i francuski nekad su ta-kođer utjecali na hrvatski vokabular, a od druge polovice20. stoljeća utjecaj engleskoga jača. Češki, premda ne uizravnomekontaktu, imao je značajanutjecaj nahrvatskivokabular u nekoliko navrata, osobito tijekom 19. sto-ljeća za vrijeme izgradnje stručnoga nazivlja koju je bioizveo Bogoslav Šulek (npr. časopis, kisik, dušik, odik).Za vrijeme Jugoslavija, na hrvatski je utjecao i srpski, aosobitu je za to zaslugu imala federalna administracija.

15

Page 23: the croatian language in the digital age hrvatski jezik u digitalnom

imenična sklonidba nom. i gen. jd. nom. mn.

a-vrsta muški rod opis, opisa opisia-vrsta srednji rod sunce, sunca suncae-vrsta ženski rod žena, žene ženei-vrsta ženski rod noć, noći noći

3: Imenična sklonidba u hrvatskome jeziku

padež muški rod srednji rod ženski rod

jednina

N -i -o -e -aG -og(a) -eg(a) -og(a) -eg(a) -eD -om(u/e) -em(u/e) -om(u/e) -em(u/e) -ojA = N / = G = N -uV = N = N = NL -om(u/e) -em(u/e) -om(u/e) -em(u/e) = DI -im -im -om

množina

N -i -a -eG -ih -ih -ihD -im(a) -im(a) -im(a)A -e = N = NV = N = N = NL = D = D = DI = D = D = D

4: Zamjeničko-pridjevska sklonidba u hrvatskome jeziku

16

Page 24: the croatian language in the digital age hrvatski jezik u digitalnom

Purističke težnje u vokabularu pojavljivale su se od vre-mena do vremena od 16. do 20. stoljeća (npr. Zoranić,Ritter Vitezović, Reljković, razdoblje 1941.-1945.).

Kontinuitet od davnih vremena do suvremenoga hrvat-skoga standardnoga jezika i sudjelovanje triju narječja uizgradnji hrvatskoga standardnoga jezikamože se uočitiu njegovoj razvijenoj i bogatoj frazeologiji (npr. u svojimumjetničkim tekstovima iz 16. stoljeća Marulić rabi fra-zem zgubiti glas= ’biti postiđen, izgubiti lice’, dokZora-nić rabi frazem umagnutje oka= ’odmah’, koji su gotovoisti kao frazemi izgubiti glas i u trenu oka u današnjemuhrvatskome standardnome jeziku temeljenome na što-kavskoj osnovici).

Nazivlje u pojedinim stručnim područjima započelo serazvijati već u 16. stoljeću, a to je potvrđenomnogobroj-nim hrvatskim (ponajviše višejezičnim) rječnicima sas-tavljenim od 16. do 20. stoljeća. U 19. stoljeću njemačkii češki imali su iznimno jak utjecaj na hrvatsko nazivlje,a engleski je danas preuzeo tu ulogu.

3.4.4 Sintaksa

Hrvatski jezik pripada skupini jezika obilježenih SVOsintaktičkom strukturom (Marija oli Ivana) i relativnoslobodnim redom riječi (mnogobrojne permutacije sas-tavnica moguće su uz neka ograničenja kao što je smje-štaj nenaglasnica). Glede informacijske strukture reče-nica, temeljno je pravilo u stilistički neutralnome di-skursu da se na prvo mjesto smješta tema (stara obavi-jest), a slijedi u rema (nova obavijest, primjedba).

Subjekt u rečenici ne mora biti izrijekom naveden, anjegovo je ispuštanje poželjno ukoliko bi ga se trebaloponavljati više puta unutar neposredne okoline. Obve-zatna je dvostruka negacija (Nitko ga nije olio). Sroč-nost sastavnica u rodu, broju i padežu je tipična za struk-turu hrvatskih rečenica.

U hrvatskome standardnome jeziku postoji sedam pa-deža, a oblici se mogu kombinirati s prijedlozima (obve-zatni uz lokativ). Bitna odrednica hrvatskih glagola jest

vid, a glagolski oblici također izražavaju glagolsko vri-jeme i modalna značenja. Organizacija složenih reče-nica može biti nezavisna ili zavisna (uz prisutnost vez-nika ili bez njih). Novija je pojava u suvremenome je-ziku ograničenje uporabe zajedničkoga slavenskoga ge-nitiva (Nije olio vina), posvojne genitivne konstrukcijeizbjegavaju se u korist posvojnih pridjeva (majčina kućaumjesto kućamajke), a uporaba prošlih vremena (imper-fekt, aorist i pluskvamperfekt) je sve ograničenija. U su-vremenome su hrvatskome pasivne konstrukcije znatnorjeđe nego u starijem hrvatskome.

3.4.5 Pravopis

Premda je povijest hrvatske kulture obilježena upora-bom triju pisama (glagoljica, ćirilica, latinica), latinicau Hrvata prevladava od 16. stoljeća. Hrvatska latiničnaabecedanije bila u cijelosti standardiziranado1835. kadjoj Ljudevit Gaj daje današnji oblik. Sastoji se od 30slova, od koji su tri dvoslovi (dž, lj, nj), a ostala su jed-noslovi od čega pet s dijakritičkim znacima (č, ć, đ, š, ž).U akademskimkrugovima, osobito pri tiskanju tekstovahrvatske pismene baštine, dvoslovi dž, lj i nj semogu za-mijeniti s ģ, ļ and ń. Slova q, x, y, w ne postoje izvornou hrvatskoj abecedi premda se rabe za pisanje stranihimena. Hrvatska latinica dana je na slici 5.

Hrvatski je pravopis fonološko-morfonološki jer pred-stavlja stapanje dvaju pravopisnih načela: nadređenogafonološkoga (npr. bilježenje asimilacije) i podređenogamorfonološkoga (npr. podcrtati). Razmak između ri-ječi je logički, a ne gramatički (kakav je bio nekada). Zahrvatski je pravopis tipično da se pisanje stranih imenane prilagođuje izgovoru ili grafemskom sastavu hrvat-ske abecede, a i oblični se nastavci uklapaju u čitavu ri-ječ (npr. John, a ne Džon; Washington, a ne Vašington;Johna, a ne John-a).

17

Page 25: the croatian language in the digital age hrvatski jezik u digitalnom

velika slova

A B C Č Ć D DŽ Đ E F G H I J KL LJ M N NJ O P R S Š T U V Z Ž

mala slova

a b c č ć d dž đ e f g h i j kl lj m n nj o p r s š t u v z ž

5: Hrvatska latinična abeceda

3.4.6 Onomastika

Hrvatska imena predstavljaju važne spomenike jezič-noga, kulturnoga i društvenoga nasljeđa ljudi koji su ihnapravili. Stoga i osobna imena (antroponimi) i imenamjesta (toponimi) čine važan dio hrvatske jezične kul-ture. Ozemlje današnje Hrvatske, u grubo ograničenorijekom Dravom na sjeveru, rijekom Dunavom na is-toku i Jadranskim morem na jugu, vrlo se ilustrativnoreflektira u bogatom raslojavanu zemljopisnih imena.

Jeste li znali kako su Hrvati prvi slavenskinarod koji je uveo prezimena u 12. stoljeću?

To obilno raslojavanje u hrvatskoj toponimiji odraz jevišestoljetnoga suživota različitih etničkih skupina kojesu nastanjivale istočnu obalu Jadrana i njezino zaleđe upovijesti. Stoljeća jezičnoga prožimanja i stapanja razli-čitih kulturnih tradicija ostavila su neizbrisiv trag u hr-vatskoj toponimiji. Štoviše, potvrđena imenamjesta po-često su svjedocima najstarijih promjena u samome hr-vatskome jeziku.Kako se hrvatski jezik razvijao preko vjerskih (pretkrš-ćanstvo i kršćanstvo), kulturnih i civilizacijskih granica,tragovi i Istoka iZapadamogu seuočiti uhrvatskim ime-nima. Kad je riječ o imenima osoba, Hrvati su prvi sla-venski narod koji je uveo prezimena (od 12. stoljeća) uz-duž jadranske obale uslijed izravnoga romanskoga kul-turnoga utjecaja. Najstariji sloj hrvatskih imena obliko-

van je u skladu s praslavenskim imenskimobrascima kojisu pak slijedili zajedničke indoeuropske obrasce obli-kovanja imena. Patronimici još uvijek čine najveći dioinventara prezimena, ali za razliku od ruskoga, danasviše nisu produktivni i ostaju neizmijenjeni kao zamrz-nuta prezimena koja su uklopljena u flektivni sustavkao imenice. U suprotnosti s hrvatskim toponomastič-kim sustavom gdje gotovo da i nema turskoga utjecaja,mnoga su hrvatska prezimena oblikovana iz turskih po-suđenica hrvatskim tvorbenimnastavcima. Tome je raz-log činjenica kako je većina prezimena uHrvatskoj stvo-rena nakon tridentinskoga koncila u 16. stoljeću, u vri-jeme kad je velik dio hrvatskih zemalja bio pod turskomvlašću.

3.5 ODNOS HRVATSKOGASTANDARDNOGA JEZIKA SOSTALIM JEZICIMA ŠTOKAVSKEOSNOVICEČetiri nacionalna jezika, hrvatski, srpski i od nedavna,bošnjački i crnogorski, svi dijele štokavsku strukturnuosnovicu, međutim, tradicije i nadstrukture ovih je-zika su poprilično različite. Što razlikuje hrvatsku je-zičnupovijest i kulturu odostalih južnoslavenskih jezikajest odnos između svih triju narječja (kajkavsko, čakav-sko, štokavsko) koji odnos postojano obogaćuje hrvat-ski standardni jezik štokavske osnovice. Zbog različi-

18

Page 26: the croatian language in the digital age hrvatski jezik u digitalnom

tih polaznih uvjeta (nepostojanje osnovnoga, zajednič-koga standarda) i različitih tradicija u jezičnome kulti-viranju i standardizaciji, zbog razjedinjenja neoštokav-skih struktura i razlika u jezičnimnadstrukturama jedanzajednički monolitni standarni jezik nikad nije bio us-pio biti oblikovan tijekom postojanja jugoslavenskih dr-žava, premda je postojalo nekoliko pokušaja političkoganametanja zajedničkoga imena jezika (srpsko-hrvatsko-sloenački za Kraljevine Jugoslavije; srpsko-hrvatski ilihrvatsko-srpski za komunističke Jugoslavije). Za vrijemeDrugoga svjetskoga rata i nekoliko godina nakon njegasvi su službeni dokumenti u Jugoslaviji objavljivani načetiri službena jezika (hrvatskome, makedonskome, slo-venskome, srpskome), no ubrzo je mnogo po-litičkoganapora uporabljeno za ponovnu konvergenciju hrvat-skoga i srpskoga. Unatoč svim pokušajima da se služ-benoprizna postojanje hrvatskoga kao zasebnoga jezika,nametanje zajedničkoga nazivlja, vokabulara, pravopisai drugih jezičnih normi u Jugoslaviji, dovelo je jedinodo službenoga prihvaćanja jednoga zajedničkoga stan-dardnoga jezika (srpsko-hrvatskoga) s dvije varijante (is-točnom ili srpskom i zapadnom ili hrvatskom). Reakcijaiz Hrvatske došla je ubrzo u obliku Deklaracije o nazivui položaju hrvatskog knjževnog jezika koja se otvorenozalagala za priznavanje samostalnoga hrvatskoga jezika ikoju su jednoglasno 1967. potpisale vodeće znanstvene,kulturne i obrazovne ustanove, kao i vodeći intelektu-alci diljemHrvatske, a koji su se tako otvorenim politič-kim potezom nesumnjivo doveli u opasnost u komunis-tičkim vremenima.

Tijekom zadnjih 20 godina, četiri štokavski temeljenastandardna jezika razvijaju se samostalno kaonacionalnistandardni jezici u prirodno divergentnim smjerovimabudući da ne postoji nikakav sporazum ili koordinacijaglede njihovoga zajedničkoga normiranja, pa su se timemeđu njima razlike uvećale.

3.6 SKRB O JEZIKU UHRVATSKOJVijeće za normu hrvatskoga standardnoga jezika usta-novljeno je odlukom Ministarstva znanosti, obrazova-nja i športa, 14. travnja 2005. Njegova je temeljna zadaćasustavna i znanstveno utemeljena skrb o hrvatskomestandardnome jeziku. Posebni zadatci Vijeća su:

‚ skrb o hrvatskome standardnome jeziku;

‚ raspravljati o aktualnim nedoumicama i otvorenimpitanjima hrvatskoga standardnog jezika;

‚ upozoravati na primjere nepoštivanja ustavneodredbe o hrvatskome kao službenome jeziku u Re-publici Hrvatskoj;

‚ promicati kulturu hrvatskoga standardnog jezika upisanoj i govornoj komunikaciji;

‚ skrbiti o statusu i ulozi hrvatskoga standardnoga je-zika u svjetlu integracijeHrvatske u Europsku uniju;

‚ donositi odluke u daljnjem procesu standardizacijehrvatskoga standardnoga jezika;

‚ brinuti o jezičnim pitanjima i postavljati načela zapravopisnu standardizaciju.

Vijeće za normu hrvatskoga standardnoga jezika sastajese redovite i kroz temeljite rasprave dolazi do zaključaka.Institut za hrvatski jezik i jezikoslovlje udomljujeVijeće,pružamu tehničku i administrativnu podršku kao i jezi-koslovne savjete kad je to potrebno. Institut za hrvat-ski jezik i jezikoslovlje [9] središnja je hrvatska ustanovaza istraživanje hrvatskoga jezika, a jedan je od njego-vih odjela (Odjel za hrvatski standardni jezik) posvećenopisu hrvatskoga standardnoga jezika s osobitompozor-nošćuna jezičnu kulturu (npr. pružanje javnosti jezičnihsavjeta ili pisanje jezičnih priručnika). Savjeti o isprav-noj jezičnoj uporabi i jezikoslovna ekspertiza stalne sudužnosti Instituta. Savjeti se daju telefonski, e-poštomili u pisanome obliku. Uz to, odgovori na najčešće pos-

19

Page 27: the croatian language in the digital age hrvatski jezik u digitalnom

tavljana pitanja dostupni su na portalu Jezični savjeti[10] u sastavu institutova www-sjedišta.

Temeljna je zadaća Vijeća za normuhrvatskoga standardnoga jezika sustavna iznanstveno utemeljena skrb o hrvatskome

standardnome jeziku.

Institutov projekt STRUNA [11], unutar kojega se ra-zvija hrvatsko stručnonazivlje zaslužuje posebno spomi-njanje. Cilj je ovoga projekta uspostava sustava koor-dinacije terminoloških poslova u svim stručnim podru-čjimauHrvatskoj i timepripomoći poboljšanju kakvoćei učinkovitosti višega obrazovanja i znanstvenih istra-živanja izgradnjom jedinstvenoga provjerenoga nazivljakoje mogu rabiti stručnjaci svih polja, a i zainteresiranipojedinci i opće javnosti. Također se planira uspostavamreže istraživačkoga nazivlja kao i znanstvena suradnjaizmeđu ustanova koje se bave različitim vidovima termi-nološkoga rada.

Danas su posuđenice iz engleskoga jezika česte ugovornome, a rjeđe u hrvatskome pisanom jeziku.

Pored toga, ostale hrvatske znanstvene ustanove (neko-liko sveučilišta s njihovim odsjecima za hrvatski jezik iknjiževnost) i kulturne ustanove (kao što je Matica hr-vatska) također sudjeluju u skrbi o hrvatskome jeziku.Javna glasila, kao što su državna radio-televizija i nekinovinski nakladnici imaju dobro razvijene korektorske ilektorske službe za hrvatski standardni jezik, te obraćajuposebnu pozornost na kakvoću jezika koji rabe u svojojproizvodnji javno dostupnih tekstova.

3.7 JEZIK U OBRAZOVANJUHrvatski je jezik služben u svim osnovnim i srednjimškolama osim u područjima s pučanstvom nacionalnih

manjina. Međutim, nije određen kao obvezatan na sve-učilištima. Premda u Hrvatskoj postoje težnje, posebiceu prirodnim znanostima, da se predavanja održavaju naengleskome jeziku, koje se težnje opravdavaju tvrdnjamakako je to svrhovito i korisno, sasvim je jasno da bi biloiznimno štetno i neprihvatljivo ne poučavati na hrvat-skome na sveučilištima. To bi imalo razarajući učinakna razvoj hrvatskoga znanstvenoga nazivlja i stručne fra-zeologije. Stoga je Vijeće za normu hrvatskoga stan-dardnoga jezika preporučilo Ministarstvu da službenoodredi uporabu jezika u visokome obrazovanju.

U osnovnim i srednjim školama Hrvatski jezik i knji-ževnost poučava se kao predmet koji zauzimlje znača-jan dio školskih sati. Kao dio toga predmeta proučava sehrvatska gramatika, rječnik i književnost, a razvijaju setakođer pismeno i govorno izražavanje na hrvatskomejeziku. PISA testiranje, koje provjerava vještine učenikana svjetskoj razini, provodi se u Hrvatskoj od 2006, aprvi rezultati provjera pokazuju kako hrvatski petnaes-togodišnjaci zauzimaju 26.mjesto na ljestvici svih zema-lja svijeta i smješteni su ispred učenika iz deset zemalja-članica EU i SAD.

Uosnovnim i srednjim školamauzhrvatski obvezatno jeučenje barem jednoga stranoga jezika od četvrtoga raz-reda. Međutim, engleski se jezik (rijetko francuski ilinjemački) nerijetko uče već u dječjem vrtiću. Engleskije uobičajeno prvi strani jezik u osnovnoj školi. Najra-šireniji drugi strani jezik je njemački, potom slijede tali-janski i francuski. U srednjim školama ponekad se učeruski i španjolski kao drugi ili treći strani jezik. Latinskii starogrčki uče se u klasičim programima koji počinju upetome razredu osnovne škole. K tome je latinski obve-zatan u svim humanističkim srednjim školama. U školižidovske manjine (koja ima pravo javnosti), moguće jeučiti i hebrejski. Obrazovanje na manjinskim jezicimadostupno je oddječjega vrtića do srednje škole i hrvatskaga Vlada financira za srpsku, češku, madžarsku i talijan-sku manjinu.

20

Page 28: the croatian language in the digital age hrvatski jezik u digitalnom

3.8 MEĐUNARODNI ODNOSIUporaba hrvatskoga standardnoga jezika u zemljama re-gije regulirana je zakonima tih zemalja. Status hrvat-skoga standardnoga jezika kao jednoga od službenih je-zika susjedne Bosne i Hercegovine od osobite je važ-nosti, pa hrvatske ustanove posvećuju osobitu pozor-nost suradnji sa znanstvenim i kulturnim ustanovamahrvatskoga naroda u Bosni i Hercegovini. Također, kul-turne ustanove iz Republike Hrvatske uspostavljaju su-radnju smnogimhrvatskim iseljeničkimustanovamadi-ljem svijeta.

Kad Republika Hrvatska pristupi Europskojuniji u 2013., hrvatski će jezik postati

24. službeni jezik EU.

Poučavanje hrvatskoga jezika organizirano je u inozem-nim školama za djecu hrvatskih državljana koji privre-meno ili trajno žive u drugim zemljama. Hrvatski sejezik poučava na mnogim inozemnim ustanovama i usredištima za slavenske jezike (tako postoji 36 službenihrazmjenskih lektorata za hrvatski jezik i književnosti kaoi dva središta za Hrvatske studije u Australiji i Kanadikoje sve podupire Ministarstvo znanosti, obrazovanja išporta Republike Hrvatske). Velik broj središta za uče-nje hrvatskoga kao drugoga ili stranoga jezika postoji uHrvatskoj, a najpoznatiji je Croaticum [12].

3.9 HRVATSKI NA INTERNETUStatistika Državnoga zavoda za statistku o uporabi in-formacijskih i komunikacijskih tehnologija u poduze-ćima i kućanstvima dana je na slikama 6 i 7.

Najposjećenija hrvatska www-sjedišta su: net.hr (por-tal za vijesti, sport, zabavu i zbivanja), index.hr (općiwww-portal, informacije, usluge, vijesti, sport, zabava,vozila, gastronomija), jutarnji.hr (www sjedište dnevnihnovina“Jutarnji list”), 24sata.hr (www-sjedište dnevnihnovina “24 sata”), tportal.hr (portalHT-a,Hrvatskih te-lekomunikacija), njuskalo.hr (“Njuškalo” portal s ogla-sima), vecernji.hr (www-sjedište dnevnih novina “Ve-černji list”), forum.hr (najveći hrvatski www-forum nakojem se raspravlja o temama iz društva, kulture, zabaveitd.). Sedam dnevnih novina svakodnevno objavljujesvoje članke i na vlastitim www-sjedištima pored papir-natih izdanja.

Rastuća uloga Interneta važnaje i za jezične tehnologije.

Institut za hrvatski jezik i jezikoslovlje održava www-stranicu o hrvatskome jeziku koja donosi iscrpan popishrvatskih jedno- i višejezičnih rječnika, gramatika i pra-vopisnih priručnika. Na Filozofskome fakultetu Sve-učilišta u Zagrebu održava se slična www stranica [13].Na istome se fakultetu od 1999. održava i portal Jezičnetehnologije za hrvatski jezik [14]. Wikipedija na hr-vatskome jeziku osnovana je 2003. i trenutačno broji100.708 članaka, te je 30. Wikipedija po službenomebroju članaka.Pristup jezičnim resursima za hrvatski jezik u zadnje jevrijeme olakšan zbog broja hrvatskih ustanova i organi-zacije koje provode postupke digitalizacije (uključujućiznačajne projekte koje podupire Ministarstvo znanosti,obrazovanja i športa i Ministarstvo kulture u digitaliza-ciji hrvatske kulturne baštine), a koja je uvećala vidljivosthrvatskoga jezika među ostalim internetskim izvorima.

21

Page 29: the croatian language in the digital age hrvatski jezik u digitalnom

Uporaba informacijskih i komunikacijskih tehnologije (ICT) u poduzećima (%)

2008 2009 2010

uporaba računala 98 98 97pristup Internetu 97 95 95www-sjedište 64 57 61uporaba financijskih i bankovnih usluga 84 84 85uporaba usluga e-uprave 56 61 63

6: ICT u poduzećima

Kućanstva opremljena informacijskim i komunikacijskim tehnologijama (ICT) (%)

2008 2009 2010

osobno računalo 53 55 60pristup Internetu 45 50 57mobilni telefon 81 82 –

7: ICT u kućanstvima

22

Page 30: the croatian language in the digital age hrvatski jezik u digitalnom

4

JEZIČNOTEHNOLOŠKAPODRŠKA ZA HRVATSKI

Jezične se tehnologije koriste za razvoj sustava namije-njenih za obradbuprirodnoga jezika, te semogupojavitii pod nazivom „prirodnojezične tehnologije“. Prirodnise jezik pojavljuje u govorenom i pisanom obliku. Dokje govor najstariji i najprirodniji oblik jezičnoga priop-ćavanja, složene obavijesti i većina ljudskoga znanja sa-držana je i prenosi se s pomoću teksta. Govorne tehno-logije i tehnologije obradbe teksta obrađuju jezik u ovimdvama načinima njegova ostvaraja služeći se rječnicima,gramatičkim pravilima i značenjem. To znači da jezičnetehnologije povezuju jezik s različitim oblicima znanja,neovisno o mediju (govoreni ili pisani tekst) u kojem seostvaruje. Slika 8 prikazuje okružje jezičnih tehnolo-gija.U našem priopćavanju miješamo jezik s ostalim obli-cima priopćavanja i drugim medijima, npr. govor uklju-čuje gestikulaciju i mimiku. Digitalni tekst povezujemosa slikama i zvukovima. U filmovima se jezik pojavljujeu govorenom i pisanom obliku. Stoga se govorne teh-nologije i tehnologije obradbe teksta preklapaju i pro-žimaju se s mnogim drugim tehnologijama koje pospje-šuju obradbu multimedijskoga priopćavanja i multime-dijskih tehnologija.U ovome ćemo poglavlju prikazati glavna područja pri-mjene jezičnih tehnologija, kao što su jezična provjera,www-tražilice, govorna interakcija i strojno prevođenje.Te aplikacije i temeljnje tehnologije uključuju:

‚ provjeru pravopisa

‚ potpora stvaranju tekstova

‚ računalno potpomognuto učenje jezika

‚ pretraga obavijesti

‚ crpljenje obavijesti

‚ sažimanje teksta

‚ odgovaranje na pitanja

‚ prepoznavanje govora

‚ generiranje govora

Jezične su tehnologije već čvrsto uspostavljeno zasebnoistraživačko područje s širokim rasponom uvodne lite-rature. Zainteresirani čitatelj se upućuje na sljedeće re-ferencije: [15, 16, 17, 18, 19].

Prije nego štokrenemoprikazivati navedenapodručja is-traživanja, na kratko bismo opisali arhitekturu uobičaje-noga jezičnotehnološkoga sustava.

4.1 ARHITEKTUREJEZIČNOTEHNOLOŠKIHAPLIKACIJAUobičajena se programska aplikacija za obradbu jezikasastoji od nekoliko dijelova koji se bave različitim jezič-nim slojevima. Dok takve aplikacije mogu biti vrlo slo-žene, slika 9 pokazuje znatno pojednostavnjenu arhitek-turu kakva se može naći u sustavima za obradbu teksta.Prva tri modula bave se strukturom i značenjem ulaz-noga teksta:

23

Page 31: the croatian language in the digital age hrvatski jezik u digitalnom

Multimedijske i multimodalne tehnologije

Jezične tehnologije

Govorne tehnologije

Tekstne tehnologije

Tehnologije znanja

8: Jezične tehnologije

1. predobradba: čišćenje ulaznih podataka, analiza iuklanjanje oblikovanja teksta, određivanje ulaznogajezika, ponekad umetanje nedostajućih dijakritičkihznakova u hrvatskome, itd.

2. gramatička raščlamba: pronalaženje glagola i njego-vih objekata, subjekata, njihovih atributa itd.; pre-poznavanje rečenične strukture.

3. semantička raščlamba: razobličenje (npr. koje znače-nje riječi „glava“ je primjereno u danomkontekstu?),razrješenje anafore (određivanje na što se točno od-nosne zamjenice kao što su „ona“, „kojemu“, itd. utekstu odnose); predstavljanje značenje rečenice ustrojno čitljivome obliku.

Nakon te analize zadatkovno-orijentiranimoduli izvodemnoge specifične postupke kao što su npr. automat-sko sažimanje ulaznoga teksta, pretraga baza podataka

i mnoge druge. Nakon uvodnoga dijela o osnovim po-dručjima primjene jezičnih tehnologija, dat će se kra-tak pregled stanja jezičnih tehnologija u istraživanjimai obrazovanju koji će se zaključiti pregledom prošlih, sa-dašnjih i budućih istraživačkih programa razvoja jezič-nih tehnologija za hrvatski jezik [20]. Na kraju ovogapoglavlja prikazat će se stručna procjena stanja osnov-nih jezičnih resursa i alata za hrvatski jezik sagledanogakroz niz kategorija kao što su dostupnost, zrelost ili kak-voća. Opće stanje jezičnih tehnologija za hrvatski jezikje sažeto u obliku tablice. Najvažniji resursi i alati kojise opisuju u tekstu su dani masnim slovima, a može ih setakođernaći na slici 15nakrajupoglavlja. Jezične tehno-logije za hrvatski jezik uspoređene su i s jezičnim tehno-logijama za druge jezicima uključene u niz ovih bijelihknjiga.

Ulazni tekst

Predobradba Gramatička analiza Semantička analiza Moduli za posebne zadatke

Izlaz

9: Tipična aplikacija za obradu teksta

24

Page 32: the croatian language in the digital age hrvatski jezik u digitalnom

4.2 OSNOVNA PODRUČJAPRIMJENE JEZIČNIHTEHNOLOGIJA4.2.1 Jezična provjera

Svatko tko koristi obradnike teksta kao što je npr. Mi-croso Word, naišao je pravopisni provjernik koji obi-lježavapogrješkeu tipkanju i predlaže ispravke. Prvi pra-vopisni provjernici uspoređivali su riječi iz teksta s rječ-nikom ispravno napisanih riječi. Danas su ovi programiznatno razrađeniji. Uz dodatak jezično ovisnih algori-tama za obradbu morfologije (npr. prepoznavanje raz-ličitih padeža), neki već mogu prepoznati i sintaktičkepogrješke kao što je ispuštanje glagola ili nesročnost iz-među subjekta i predikata u broju i rodu, npr. „Onaje *pisao pismo.“ Pa ipak, i najnapredniji provjernici nemogu pronaći pogrješke u prvoj strofi pjesme JerroldaH. Zara (1992):

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Za razrješivanje ovakvih pogrješaka u mnogim je sluča-jevima potrebna raščlamba konteksta, npr. treba li u hr-vatskome imenicu pisati velikim (žensko osobno ime) ilimalim (opća imenica) početnim slovom kao u slučaju:

‚ Slatka je ova višnja. [is cherry is sweet.]

‚ Slatka je ova Višnja. [is Cherry is sweet.]

Takva raščlamba zahtijeva bilo oblikovanje jezično po-sebnih gramatičkih pravila, izradba kojih uključuje vi-soku stručnost i mnogo radnih sati, ili uporabu tzv. sta-tističkih jezičnih modela. Takvim je modelima točnoizračunana vjerojatnost pojavljivanja neke riječi u odre-đenome kontekstu (tj. s obzirom na prethodeću ili sli-jedeću riječ). Na primjer, u hrvatskome je jaz između

mnogo češći niz dviju riječi nego jaz generacija. Statis-tički se jezični model može proizvesti automatski iz ve-like količine (ispravnih) jezičnih podataka (tj. iz kor-pusa). Do sada su se ova dva pristupa mahom razvila iprovjerila na jezičnim podatcima za engleski jezik. Me-đutim, na hrvatski jezik takva rješenja nisu izravno pri-mjenljiva zbog njegove bogate fleksije i slobodnijegareda riječi u rečenici koji u mnogome pridonose takvimsustavima problematičnoj raspršenosti podataka.Uporaba jezičnih provjernika nije ograničena samo naobradnike teksta, već se koristi i u potpornim alatimaza stvaranje teksta kao što su opsežni priručnici i ostalatehnička dokumentacija kad je riječ o primjeni računal-nih sustava u informacijskim tehnologijama, zdravstvu,strojarstvu i drugdje. Bojeći se korisničkih pritužaba opogrješnoj uporabi ili odštetnih zahtjeva zbog nepreciz-nih ili loše shvaćenih korisničkih uputa, tvrtke se sveviše okreću prema stvaranju što kvalitetnijih korisnič-kih uputa i tehničke dokumentacije dok se istodobnopokušavaju širiti na međunarodnome tržištu (kroz pre-vođenje i lokalizaciju). Napredak u računalnoj obradbiprirodnoga jezika doveo je do razvoja potpornih pro-grama za pisanje teksta koji pomažu piscima tehničkedokumentacije pri uporabi kontroliranoga jezika u ko-jem je u skladu s (korporativnim) pravilima ograničenauporaba leksičkih jedinica, stručnoga nazivlja ili jednos-tavijih sintaktičkih struktura. Za hrvatski takvi alati jošnisu na raspolaganju.

Jezični provjernici nisu ograničeni samona obradnike teksta, već se koriste i u potpornim

alatima za stvaranje teksta.

Premda su istraživanja računalnih modela hrvatske flek-tivne morfologije postojala još u 1980-ima, prvi je ko-mercijalni prvopisni provjernik Hrvatski računalni pra-opis objavljen tek 1996. [8] Ubrzo ga je preuzeo Mi-croso i danas je sastavni dio Microso Officea te je unajširoj uporabi. Nekoliko je privatnih tvrtki također

25

Page 33: the croatian language in the digital age hrvatski jezik u digitalnom

Ulazni tekst Pravopisna provjera Gramatička provjera Prijedlozi ispravaka

Statistički jezični modeli

10: Tipična aplikacija za jezičnu provjeru

razvilo pravopisne provjernike, ali niti jedan nije bio to-liko uspješan. On-line Hrvatski akademski spelling chec-ker (Hascheck) [21] postoji od 1994 i još uvijek je uuporabi. Za hrvatski također postoji i besplatni prvo-pisni provjernik temeljem na ispell/aspell aplikaciji, auporabiv je na svim platformama na kojima je dostu-pan OpenOffice. Svi se ovi programi temelje na vrlovelikim leksikonima ispravno napisanih riječi, a taj pris-tup ima dvije osnovne manjkavosti: 1) nizovi pismenakoji predstavljaju ispravno napisane riječi mogu se po-javiti u pogrješnome kontekstu; 2) nemogućnost pre-poznavanja ispravno napisanih riječi koje su nepoznateleksikonu. Osimprovjernika pravopisa i potpornih pro-grama za stvaranje teksta, jezična je provjera važna i napodručju strojno potpomognutoga učenja jezika, a pri-mjenjuje se i kod automatskoga ispravljanja upita posla-nih www-tražilicama, npr. Googleove „Jeste li mislili...“preporuke.

4.2.2 WWW tražilice

Pretraga na mreži, na intranetima ili u digitalnim knjiž-nicama danas je vjerojatno najšire korištena, a ipak jošnedovoljno razvijena, jezična tehnologija. Tražilica Go-ogle, koja je započela 1998., danas se rabi za otprilike80% svih pretraga u svijetu [22]. Od 2004. u hrvat-skome se koristi glagol guglati/googlati i njegove tvore-nice (iz-/na-/pre-/pro-/u-)guglati/(iz-/na-/pre-/pro-/u-)googlati premda si još nije izborio mjesto u tiskanimrječnicima (zabilježeni su čak i složenije tvorenice kaonpr. ugugljiv). Ni sučelje za pretragu, niti prikaz do-

hvaćenih rezultata nisu se značajno promijenili od prveinačice. U trenutačnoj inačici Google nudi pravopisnuprovjeru za pogrješno napisane riječi, a uključuje u pre-tragu i osnovne semantičke elemente kojima je mogućepoboljšati točnost pretrage analizom značenja upita udanome kontekstu [23]. Uz pomoć ovoga algoritmaGoogle je počeo pokrivati hrvatske riječi u nekima odoblika u kojima se pojavljuju u tekstu. Za razliku odnpr. engleskih imenica gdje postoje samo četiri mogućaoblika (hand, hand’s, hands, hands’), hrvatske se te-oretski mogu pojaviti u 14 različitih oblika, ali su pro-sječno predstavljeni s 10 različitih nizova (ruka, ruke,ruci, ruku, rukom, rukama ...). Googleova tražilicamožepronaći oblike kao što su ruka ili ruke, ali oblik ruci većnije više povezan uz imenicu ruka. Ima još dosta pros-tora za poboljšanja u Googleovoj tražilici kod flektivnobogatih jezika kod kojih se mora nositi s činjenicom dase pojedine riječi mogu pojaviti u većem broju oblika.Međutim, uspjehGooglea pokazuje kako s golemimko-ličinama podataka i učinkovitim tehnikama njihova in-deksiranja, pretežito statistički utemeljeni pristup možedovesti do zadovoljavajućih rezultata, no njihova kak-voća također ovisi i o samoj strukturi prirodnoga jezikana kojem se pretražuje.

Pa ipak, za razrađenije pretrage obavijesti uključivanjedubljega jezičnoga znanja bit će ključno za ispravnu in-terpretaciju rezultata. Eksperimenti u kojim se rabe lek-sički resursi kao što su strojno čitljivi tezaurusi i onto-loški organizirani jezični resursi (npr. WordNet za en-gleski ili Hrvatski Wordnet – CroWN) pokazuju ozbi-

26

Page 34: the croatian language in the digital age hrvatski jezik u digitalnom

Korisnički upit

Mrežne stranice

Predobradba Analiza upita

Predobradba Semantička obradba Indeksiranje

Pronalaženje i

relevantnost

Rezultati pretrage

11: Arhitektura www-tražilice

ljan napredak omogućujući pronalaženje www-stranicana temelju sinonima upitnih riječi, npr. nuklearna ener-gija i atomska energija ili na temelju riječi još udaljenijepovezanih s upitnim riječima.

Sljedeći će naraštaj tražilica morati uključivatirazrađenije jezične tehnologije.

Pa ipak, za razrađenije pretrage obavijesti uključivanjedubljega jezičnoga znanja bit će ključno za ispravnu in-terpretaciju rezultata. Eksperimenti u kojim se rabe lek-sički resursi kao što su strojno čitljivi tezaurusi i onto-loški organizirani jezični resursi (npr. WordNet za en-gleski ili Hrvatski Wordnet – CroWN) pokazuju ozbi-ljan napredak omogućujući pronalaženje www-stranicana temelju sinonima upitnih riječi, npr. nuklearna ener-gija i atomska energija ili na temelju riječi još udaljenijepovezanih s upitnim riječima.Sljedeći će naraštaj tražilica morati uključivati razrađe-nije jezične tehnologije, osobito akoupit bude sadržavaopitanje ili kakvu drugu rečenicu umjesto popisa upitnih

riječi. Za upit Daj mi popis svih tvrtki koje su bile pre-uzete od drugih tvrtki u zadnjih pet godina, potrebna jesintaktička i semantička analiza. Sustav također moražurno priskrbiti i tako indeksirane dokumente. Za za-dovoljavajući odgovor na ovo pitanje potrebna je pri-mjena sintaktičke raščlambe (parsanja) kako bi se raščla-nila sintaktička struktura rečenice i odredilo kako koris-nik traži tvrtke koje je neka tvrtka preuzela, a ne tvrtkekoje su preuzele neku tvrtku. Također, izraz u zadnjihpet godina, treba obraditi kako bi se odredilo o kojihje točno pet godina riječ uzimajući u obzir tekuću go-dinu. Konačno, obrađeni upit semora sraziti s golemomkoličinom nestrukturiranih podataka kako bi se prona-šao komadić ili komadići obavijesti koje korisnik traži.Taj se zadatak obično naziva pretraga obavijesti i uklju-čuje pretragu i rangiranje relevantnih dokumenata. Ktome pri sastavljanju zahtijevanoga popisa tvrtki, sustavmora moći prepoznati u pretraživanim dokumentimakako određen niz pismena doista predstavlja ime tvrtke.Takav se zadatak zove prepoznavanje imena i obavlja gaspecijalizirana aplikacija za tu namjenu. Još su zahtjev-

27

Page 35: the croatian language in the digital age hrvatski jezik u digitalnom

niji pokušaji da se na temelju upita pronađu relevantnidokumenti pisani na drugim jezicima. Za takvo višeje-zično pretraživanje obavijesti moramo strojno prevestiupit na se moguće jezike i pronađene dokumente pre-vesti na jezik upita.

Rastuća količina podataka dostupnih u netekstnimoblicima potiče stvaranje usluga koje bi omogućile mul-timedijsko pretraživanje obavijesti, npr. pretragu u sli-kovnim, audio- ili video-zapisima. Za audio- i video-zapise još je potreban i modul za raspoznavanje govorakoji bi omogućio pretvorbu govora u tekst ili njegov fo-netski zapis u kojem se onda može obavljati pretraga.

Za flektivno bogate jezike kao što je hrvatski, tražilicemoraju omogućiti pretragu odjednompo svim oblicimau kojima se neka riječ može pojaviti, umjesto da se svakioblik mora unositi pojedinačno. Takav oblik pretragemoguće je izvesti s pomoćuHrvatskoga lematizacijskogaposlužitelja koji je razvijen na Odsjeku za lingvistiku Fi-lozofskoga fakulteta Sveučilišta u Zagrebu i slobodnoje dostupan preko Interneta [24] omogućujući pristupHrvatskome morfološkome leksikonu, opsežnoj bazipodataka hrvatskih riječi i svih njihovih oblika. Ta bazasadrži preko 110.000 natuknica iz kojih je generiranopreko 4 milijuna oblika tako da svaki zapis u bazi sadržinatuknicu, oblik i MSD-oznaku tj. popis svih grama-tičkih kategorija koje su se ostvarile tim oblikom. Taj jezapis usklađen s MulText East [25] preporukama.

Godine 2009., kao rezultat zajeničkoga flamansko-hrvatskoga projekta CADIAL [26], vladina agencijaHIDRA omogućila je javni www-pristup svim hrvat-skim zakonskim i podzakonskim dokumentima putemflektivno osjetljive tražilice [27]. Ta tražilica takođeomogućuje i višejezičnu pretragu dokumenata s obzi-rom na to da su svi dokumenti indeksirani deskripto-rima iz EUROVOC-a što omogućuje uporabu i engle-skih deskriptora u upitu.

4.2.3 Govorna interakcija

Govorna interakcija jedno je od mnogih područja pri-mjene govornih tehnologija, tj. tehnologija za obradbugovora. Tehnologije za govornu interakciju stvaraju su-čelja koja omogućuju komunikaciju govorenoga jezikaumjesto grafičkoga sučelja, tipkovnice ili miša. Danassu takva govorna korisnička sučelja (oice user interfa-ces, VUI) uključena u djelomično ili potpuno automa-tizirane usluge koje razne tvrtke nude svojim korisni-cima, zaposlenicima ili partnerima putem telefona. Po-dručja koja danas umnogome ovise o uporabi VUI-ja subankarstvo, logistika, javni prijevoz i telekomunikacije.Drugi oblici uporabe tehnologija za govornu interak-ciju su sučelja prema pojedinim uređajima, npr. sustaviza cestovnu navigaciju ili sustavi gdje je govorna interak-cija zamjena za ulazno/izlazne podatke grafičkih sučelja,npr. kod pametnih telefona.Sustavi koji koriste tehnologiju za govornu interakcijusastoje se od četiri različita podsustava s pripadajućimtehnologijama:

1. Automatsko prepoznavanje govora (automatic spe-ech recognition, ASR) određuje koje su riječi zaista iz-govorene u nizu glasova koje je korisnik izrekao.

2. Razumijevanje prirodnoga jezika bavi se analizomsintaktičke strukture korisnikova iskaza i njegovominterpretacijom u skladu s namjenom određenogasustava.

3. Upravljanje razgovorom određuje koju akciju sustavmora poduzeti na temelju korisničkove upute i na te-melju ukupne funkcionalnosti toga sustava.

4. Sinteza govora (text-to-speech, TTS) tehnologija serabi za pretvaranje pojedinih riječi nekoga iskaza uniz glasova koji će biti odaslani korisniku.

Jedan od glavnih izazova jest kako da ASR-sustav štotočnije prepozna riječi koje je korisnik uporabio. Tozahtijeva ili ograničenje broja mogućih korisničkih is-kaza na ograničen skup riječi, ili ručno stvaranje jezič-

28

Page 36: the croatian language in the digital age hrvatski jezik u digitalnom

Govorni ulaz Obradba signala

Govorni izlaz Govorna sinteza Fonetski odabir i planiranje intonacije

Razumijevanje prirodnoga jezika i

dijalog

Prepoznavanje

12: Govorna interakcija

noga modela koji pokriva širok raspon mogućih iskazana prirodnome jeziku. Uporabom postupaka strojnogaučenja jezični se modeli mogu automatski generirati izgovornih korpusa, tj. velikih zbirki govornih audio sni-maka i njihove tekstovne transkripcije. Ograničavanjeskupa dopuštenih iskaza obično ne omogućuje korisni-cima uporabu VUI-ja na prirodan način, pa takvi sus-tavi znaju korisnicima izgledati i zvučati odbojno. Is-todobno, sastavljanje, podešavanje i održavanje takvihopsežnih jezičnih i govornih modela znatno poskup-ljuje takve sustave. S druge strane sustavi koji rabe je-zičnemodele, već u polasku dopuštaju korisnika slobod-nije izražavanje, npr. započinjanjem razgovora rečeni-com „Kako vammogu pomoći?“, pokazuju i viši stupanjautomatizacije i viši stupanj korisničkoga prihvaćanja.

Govorna interakcija je temelj za stvaranje sučeljakoja omogućuju korisniku uporabu govora

umjesto grafičkoga sučelja, tipkovnice i miša.

Za određene dijelove VUI-ja, tvrtke nerijetko rabesnimljene iskaze profesionalnih spikera. Tako snimljenistatični iskazi, u kojima se riječi ne mijenjaju ovisno okontekstu uporabe ili o osobnim podatcima pojedinogakorisnika, korisniku mogu pružiti kvalitetu govora kojuočekuje. Međutim, što je sadržaj dinamičniji, tada je ivjernost govora manja jer je potrebno umjetno povezi-vati velik broj malih snimki. Nasuprot ovim sustavima,

današnje sustave za TTS moguće je podešavati do že-ljene kakvoće s obzirom na prirodnost naglaska dina-mično organiziranih iskaza.

U proteklom je desetljeću na tržištu tehnologija za go-vornu interakciju došlo do uznapredovale standardiza-cije sučeljavanja različitih tehnoloških komponenta. Ta-kođer je u proteklome desetljeću došlo do značajnogaokrupnjivanja na tržištu, osobito kad je riječ o ASR iTTS sustavima. Na tržištima u zemljama skupine G20tj. gospodarski jakih zemalja značajnepopulacije, prevla-dava pet svjetski relevantnih tvtrki, s tim što su Nuance(SAD) i Loquendo (Italija) najzastupljenije u Europi.Godine 2011.Nuance je najavio preuzimanje Loquendašto će značiti daljnji korak u okrupnjavanju tržišta.

Premda je baza hrvatskih difona razvijena još 1998. unu-tar projekta MBROLA [28] u kojem je sudjelovao Od-sjek za fonetiku Filozofskoga fakulteta Sveučilišta u Za-grebu, do danas još uvijek ne postoji niti jedan komerci-jalni sustav zahrvatskiATS iliTTS razvijenuHrvatskoj.Istraživanja na ovome području provode se i na Fakul-tetu elektrotehnike i računarstva istoga sveučilišta [29],ali i na Sveučilištu u Rijeci jaka skupina istraživača radina razvoju resursa i alata za obradbu hrvatskoga govora[30, 31, 32].

Ako bi se pokušao baciti pogled onkraj sadašnjega sta-nja ove tehnologije, mogle bi se očekivati značajne pro-mjene s obzirom na ubrzano širenje pametnih telefonakao nove platforme za odnose s korisnicima uz već pos-

29

Page 37: the croatian language in the digital age hrvatski jezik u digitalnom

tojeće kao što su telefon, Internet i e-pošta. Ovakav serazvoj prilika može očekivati i u slučaju primjene teh-nologije za govornu interakciju. S jedne će strane i du-goročno gledano potrebe za klasičnim telefonskimVUIzacijelo opadati, a s druge će strane uporaba govora kaoizvora ulaznih podataka za pametne telefone zacijelobiti u porastu. Taj smjer razvoja također semože prepoz-nati s obzirom na vidan napredak točnosti prepoznava-nja govora neovisnoga o govorniku u sustavima za dikti-ranje koji se već nude kao usluga korisnicima pametnihtelefona.

4.2.4 Strojno prevođenje

Zamisao uporabe računala za prevođenje s jednoga pri-rodnoga jezika na drugi može se smjestiti još u 1946.,a uslijedila joj je značajna potpora za istraživanja u tompodručju tijekom 1950-ih i ponovno u 1980-ima. Paipak, strojno prevođenje (machine translation, MT) jošuvijek ne uspijeva ispuniti visoka očekivanja glede nje-gove kakvoće.

U svom najjednostavnijem obliku MTsamo zamjenjuje riječi jednoga prirodnoga

jezika riječima iz drugoga.

Najjednostavniji oblik strojnogaprevođenja sastoji se odzamjene riječi jednoga prirodnoga jezika riječima iz dru-goga. Tomožebiti uporabivouuskimpodručjima s izra-zito ograničenim, formulaičnim izrazima, npr. kod vre-menskih izvješća. Međutim, za dobar prijevod manjeograničenih tekstova, veći tekstni odsječci (fraze, reče-nice ili čitavi odlomci)moraju se što više u prijevodupri-bližiti svojim prijevodnim ekvivalentima u polaznomejeziku. Najveći je problem u tome što je prirodni je-zik višeznačan, a taj se problem pojavljuje na više razina,npr. na razini razobličenja značenja riječi (word sense di-sambiguation, WSD) na leksičkoj razini ( Jaguar na po-četku rečenice može značiti životinju ili automobilsku

marku) ili na razini smještanja prijedložnoga izraza usintaktičkoj strukturi kao u primjeru:

‚ Policajac je uočio čovjeka bez teleskopa.[e policeman spotted a man without a telescope.]

‚ Policajac je uočio čovjeka bez pištolja.[e policeman spotted a man without a pistol.]

Jedan odmogućih pristupa izgradnji strojnoprevoditelj-skih sustava temeljen je na jezičnim pravilima. Za pre-vođenje između bliskosrodnih jezika, izravno bi prevo-đenje moglo biti lakše izvedivo. Nerijetko sustavi teme-ljeni na pravilima (ili na jezičnome znanju) raščlanjujuulazni tekst i pretvaraju ga u posrednu simboličku pre-zentaciju iz koje se onda generira tekst na ciljnome je-ziku. Uspjeh ovakvih pristupa u mnogome ovisi o dos-tupnim opsežnim rječnicima s morfološkim, sintaktič-kim i semantičkim podatcima, ali i o velikom broju gra-matičkih pravila koje su brižljivo izradili visokostručnijezikoslovci. To je vrlo zahtjevan, dugotrajan i stogaskup posao.S krajem 1980-ih, kad je porasla snaga računala i kad suona postala dostupnija, više se zanimanja počelo posve-ćivati statističkim modelima u strojnome prevođenju.Statistički modeli izvedeni su iz raščlambe dvojezičnihkorpusa tj. usporednih korpusa kao što je npr. Europarlkorpus, koji sadrži zapisnike sjednica Europskoga parla-menta na 21 europskih jezika, ili JRC-Acquis usporednikorpus [33]na22 europska jezika. Kad imseosigurado-voljno podataka, statistički sustavi za strojno prevođenjerade dovoljno dobro za dobivanje približnoga značenjateksta na stranome jeziku obradbom usporednih teks-tova i pronalaženjem odgovarajućih prijevodnih podu-darnosti među njima. Međutim, za razliku od sustavatemeljenih na znanju (ili pravilima), MT sustavi teme-ljeni na statistici (ili podatcima) često generiraju tekstkoji nije ovjeren tj. nije usklađen s gramatikom ciljnogajezika. Podatkovno temeljeni pristupi strojnome prevo-đenju su u prednosti jer zahtijevaju manje ljudskoga na-pora, a mogu pokriti i osobitosti jezika (npr. idiomatske

30

Page 38: the croatian language in the digital age hrvatski jezik u digitalnom

Statističko strojno

prevođenje

Izvorni tekst

Ciljni tekst

Analiza teksta (oblikovanje, morfologija, sintaksa, itd.)

Generiranje teksta

Prijevodna pravila

13: Statističko strojno prevođenje

izraze) koje obično sustavi temeljeni na pravilima zane-maruju ili zaobilaze. Kad se gledaju samo europski je-zici, prihvatljivi se prijevodi mogu dobiti za engleski iromanske jezike, no kakvoća prijevoda značajno opadaza ostale germanske, slavenske, ugrofinske ili baltičke je-zike [34].

Kako su prednosti i nedostatci sustava za strojno prevo-đenje temeljenih na znanju i sustava temeljenih na po-datcima upravo komplementarno raspoređeni, danas seistraživačimahomusmjeravaju na hibridne pristupe kojikombiniraju metodologije obiju vrsta ovih sustava. Je-dan od načina hibridizacije jest uporaba obje vrste sus-tava za obavljanje prevođenja, a potom selekcijski mo-dul odlučuje o tomekoji je rezultat više kakvoće za svakupojedinu rečenicu. Na žalost, u slučaju duljih rečenica,npr. više od 12 riječi, niti jedan sustav još uvijek ne dajeprijevod željene kakvoće. Učinkovitijim se doima pris-tup u kojem se kombiniraju najbolji dijelovi rečenica izvišestrukih mogućih prijevoda, a oni mogu biti popri-lično složeni s obzirom da odgovarajući dijelovi višes-trukih prijevodnih rješenja nisu uvijek lako uočljivi, tese moraju posebno sravnjivati.

Strojno je prevođenje s i na hrvatski jezik osobito iz-azovan zadatak. Slobodniji red riječi u rečenici i bo-gata fleksija predstavljaju probleme pri generiranju is-pravnih rečeničnih konstrukcija i oblika riječi koji oblič-nimnastavcima kodiraju gramatičke kategorije roda, pa-deža, broja, načina, vremena itd. Dodatne probleme

često postavlja i zahtjev za sročnošću glede tih kategorijaizmeđu npr. atributa i imenice u rodu, broju i padežu ilisamo u rodu i broju kad je riječ o subjektu i predikatu.

Strojno je prevođenje osobito izazovno zaslavenske jezike zbog njihova slobodnoga reda

riječi, bogatstva oblika riječi i postojanjaudaljenih a međuovisnih dijelova iste fraze.

Premda su Željko Bujas i Bulcsú László još 1959. orga-nizirali prvu radionicu o strojnome prevođenju [35] naFilozofskome fakultetu Sveučilišta u Zagrebu, nikakvoozbiljnije istraživanje o strojnome prevođenju za hrvat-ski jezik nije se dogodilo prije 21. stoljeća. Projekt „In-formacijske tehnologije u prevođenju i e-učenju hrvat-skoga“ [36] pokrenut je 2007. s ciljem istraživanja koji supreduvjeti potrebni za stvaranjeMT sustava za prevođe-nje na i s hrvatskoga jezika. Počevši od 2010. Europskaje komisija pokrenula i potpomaže nekoliko projekatakako bi se razvila istraživanja i razvoj strojnoga prevo-đenja za tzv. jezike s nedovoljno razvijenim resursima, ameđu njih je uključen i hrvatski. Tako CIP ICT PSPprojekt LetsMT! [37] i FP7 projekt ACCURAT [38]razvijaju nove metode za što jednostavnije prikupljanjepodataka potrebnih za strojno prevođenje i izgradnjutakvih sustava prilagođenih različitim domenama i obli-cima primjene. U oba ova projekta kao hrvatski part-ner sudjeluje skupina istraživača s Filozofskoga fakultetaSveučilišta u Zagrebu.

31

Page 39: the croatian language in the digital age hrvatski jezik u digitalnom

Projekt ACCURAT [39] istražuje nove metode upo-rabe usporedivih korpusa ne bi li se nadoknadila nesta-šica jezičnih resursa i posrednopoboljšalo strojnoprevo-đenje za jezike s nedovoljnim resursima i za uske domene[40]. Cilj je projekta ACCURAT postići značajan na-predak u kakvoći strojnoga prijevoda za čitav niz novihslužbenih jezka EU i jezika zemalja-pristupnica (eston-ski, grčki, hrvatski, letonski, litavski i rumunjski), kaoi predložiti nove pristupe za prilagodbu tehnologija zastrojnoprevođenje u pojedinimuskimdomenama i timeznačajno povećati pokrivenost različitih jezika i domenastrojnim prevođenjem.

Projekt LetsMT! [41] izgrađuje novi vrstu on-line su-radneplatforme zadijeljenje usporednih tekstova i auto-matsko stvaranje vlastitih sustava za strojno prevođenje.Ova platforma smještena u računalnome oblaku omo-gućit će svim vrstama korisnika slanje u posebno zašti-ćen repozitorij vlastitih jezičnih resursa na temelju ko-jih će se potom automatski izraditi vlastiti sustav za sta-tističko strojno prevođenje treniran upravo na temeljutih vlastitih jezičnih resursa. Takav sustav za strojnoprevođenje potom se može podijeliti s ostalim korisni-cima. Strojnoprevoditeljske usluge projekta LetsMT!mogu se rabiti na nekoliko načina: kroz www-portal,krozwidget koji semože slobodno preuzeti i uključiti nasvoje www-stranice, kroz dodatak za popularne prebir-nike kao i kroz integraciju u postojeće sustave za strojnopotpomognuto prevođenje kako on-line, tako i off-line.

Google Translate nudi prijevode na hrvatski i s hrvat-skoga od 2008. Kakvoća njegovih prijevoda bila je niskau početku, ali se poboljšava kako je sve više i više uspo-rednih hrvatsko-engleskih podataka dostupno on-line.

Još uvijek se smatra kako upravo na području poboljša-nja kakvoće prijevoda ima još mnogo prostora za napre-dak kod sustava za strojno prevođenje. Napredak se oče-kuje u prilagodbi jezičnih resursa određenom područjuuporabe ovisno o temi ili korisniku, kao i u integracijis postojećim sustavima za strojno potpomognuto pre-

vođenje u kojima se već rabe velike terminološke bazei prijevodnememorije. Dodatni je problem što je većinatrenutačnih strojnoprevoditeljskih sustava usmjerena naengleski i podupire svega jošnekoliko jezikapri prevođe-nju na hrvatski i s hrvatskoga. To zapravo onemogućujedruge prijevodne smjerove, a istodobno zahtijeva od ko-risnika da se služe većim brojem raznorodnih sustava.

Postupci vrjednovanja omogućuju uspoređivanje kak-voće prijevoda sustava za strojno prevođenje, njihoverazličite pristupe i stanje strojnoprevoditeljskih sustavaza različite jezike. U okviru projekta Euromatrix+ sas-tavljena je 14 u kojoj je prikazana kakvoća za sve parovestrojnih prijevoda između 22 službena jezika EU-a (irskijedino nedostaje) iskazana s pomoću BLEU mjere [33]koja s većim brojem bodova iskazuje višu kakvoću pri-jevoda. Ljudski prevoditelji obično postižu oko 80 bo-dova.

Najbolji rezultati (prikazani zeleno i plavo) postignutisu za jezike za koje već postoje sustavi znatno razrađeniunutar raznih istraživačkih programa i za koje jezikepostoji mnogo usporednih korpusa (npr. engleski, fran-cuski, nizozemski, španjolski, njemački), a najgori su re-zultati (u crvenome) za jezike koji su u mnogome struk-turno različiti od većine jezika (npr. madžarski, maltski,finski).

4.2.5 Ostala područja primjene

Izgradnja jezičnotehnoloških aplikacija uključuje čitavniz podzadataka koji se ne vide na razini korisničkogasučelja, ali ’ispod poklopca’ osiguravaju funkcionalnosttoga sustava. Upravo ti podzadatci rezultat su rješavanjavažnih istraživačkih problema koji su prerasli u pojedinepodgrane samoga računalnoga jezikoslovlja. Npr.odgo-varanje na pitanja (question answering, QA) postalo jeaktivnim područje istraživanja za koje su izgrađeni obi-lježeni korpusi i organiziraju se posebna znanstvena na-tjecanja. Rješavanje ovoga problema kreće od pretragetemeljene na ključnim riječima (na koju stroj obično od-

32

Page 40: the croatian language in the digital age hrvatski jezik u digitalnom

Markmál – Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

14: Kakvoća strojnoprevoditeljskoga prijevoda za sve parove između 22 službena jezika EU-a – Machine trans-lation between 22 EU-languages [34]

govara s čitavim skupom potencijalno relevantnih do-kumenata) prema scenariju u kojem korisnik postavljakonkretno pitanje, a sustav pruža jedinstven odgovor,npr.:

Pitanje: Koliko je godina imaoNeil Armstrong kad jestupio na Mjesec?

Odgoor: 38.

Premda se ovakva vrsta pretage nesumnjivo može po-vezati s već spomenutim www-pretraživanjem, danas seodgovaranje na pitanja smatra ponajprije sveobuhvat-nimnazivom za proučavanja kakve sve vrste pitanja valjarazlikovati i kako se s njima valja postupati, kako se do-kumente koji potencijalno sadrže odgovor valja obrađi-vati i uspoređivati (daju li suprotstavljene odgovore?), tekako se određena obavijest – točan odgovor – može po-uzdano crpiti iz dokumen(a)ta bez zanemarivanja kon-teksta.

Ovaj je zadatak usko povezan sa zadatkom crpljenjaobavijesti (information extraction, IE), područjem kojeje bilo iznimno popularno i utjecajno u vrijeme „statis-tičkoga prevrata“ u računalnome jezikoslovlju, tj. u ra-nim 1990-im. Cilj IE-a je pronaći posebne obavijesti uposebnim klasama dokumenata, a to bi moglo biti, npr.,pronalaženje u novinskim člancima ključnih osoba kojesudjeluju u preuzimanju tvrtki. Drugi mogući scena-rij, razrađen iz izvješća o terorističkim napadima, tiče sepostupka s pomoću kojega se iz teksta može prepoznatiobrazac djelovanja, cilj, vrijeme ili mjesto napada i nje-gove posljedice. Popunjavanje takvih domenski ovisnihobrazaca središnja je osobina IE-a. Upravo zbog togaIE predstavlja još jedan primjer jezične tehnologije ’izascene’ koja je sama jasno odijeljena od ostalih poddisci-plina (ili tehnologija), ali zbog praktičnih razloga morabiti uključena u šire uporabno okružje.

33

Page 41: the croatian language in the digital age hrvatski jezik u digitalnom

Jezičnotehnološke aplikacije nerijetkodjeluju ’ispod poklopca’ i omogućuju uvećanu

funkcionalnosti većih sustava.

Godine 2009. Hrvatska izvještajna novinska agen-cija (HINA) [42] započela je s razvojem sustava za(pred)obradbu svojih vijesti koja je uključila lematiza-ciju, prepoznavanje imena, klasifikaciju vijesti prema za-danoj shemi rubrika i crpljenje ključnih riječi. Ovaj susustav zajednički razvili Fakultet elektrotehnike i raču-narstva [43] i Filozofski fakultet, oba sastavnice Sveuči-lišta u Zagrebu.Dva rubna područja, koja katkada igraju ulogu samos-talnih, a katkada samopotpornih aplikacija, jesu sažima-nje teksta i generiranje teksta. Sažimanje pokušava datisrž duljega teksta u obliku kraćega teksta, a postoji kaoponuđena funkcionalnost već i u MS Wordu. Postupcisažimanja mahom su statistički utemeljeni pri čemu seprvo identificiraju „važne“ riječi u tekstu (npr. riječi kojesu visoko učestale u danome tekstu, ali su izrazito niskoučestale u općoj jezičnoj uporabi), a potom se prona-laze rečenice u kojima se te riječi nalaze. Takve se re-čenice u dokumentu posebno obilježavaju ili izdvajajune bi li se od njih sastavio sažetak. U tom najpopular-nijem scenariju sažimanje dokumenata vrsta je izdvaja-nja rečenica: čitav se tekst reducira na podskup svojihrečenica. Svi komercijalni sustavi za sažimanje tekstovakoriste isti pristup. Alternativni pristup iskušava se u ne-koliko istraživačkih središta i usmjeren je na sastavljanjenovih rečenica, tj. na izgradnju sažetka sastavljenog odrečenica koje se ne moraju pojaviti u istome obliku u sa-žimanome tekstu.

U većini tekstnih tehnologija istraživanja zahrvatski jezik su manje razvijena od istraživanja

za druge europske jezike.

Ovaj pristup zahtijeva stanovit oblik „dubljega razumi-jevanja“ teksta i stoga je manje robustan, a nije uopćemoguć bez modula za generiranje teksta tj. novih re-čenica. Takav generator teksta u najvećem broju sluča-jeva nije samostalna aplikacija već je uključen u šira pro-gramska okružja kao što su npr. medicinski informacij-ski sustavi gdje se podatci o podinim pacijentima skup-ljaju, spremaju, obrađuju. Generiranje izvješća o stanjupacijenta samo je jedna od mnogih funkcionalnosti tak-vih sustava.Niti jedna od tehnologija iz ova dva rubna područjajoš ne postoje za hrvatski jezika osim nekoliko eksperi-menata koji su izvedeni za sažimanje tekstova na hrvat-skome jeziku [44] i generiranje teksta [45].

4.3 JEZIČNE TEHNOLOGIJE UOBRAZOVANJUPodručje jezičnih tehnologija je visoko interdiscipli-narno područje koje uključuje stručnjake iz jezikoslov-lja, informacijskih znanosti, računarskih znanosti, mate-matike, filozofije, psiholingvistike, kognitivne znanostii neuroznanosti itd. Kako se na Odsjeku za lingvistikuFilozofskoga fakulteta Sveučilišta u Zagrebu nepreki-nuto od 1950-ih proučavaju i poučavaju algebarskolin-gvistički pristupi jezičnome opisu, uvođenje posebnogasmjera Računalna lingvistika u dvogodišnjem Diplom-skome studiju lingvistike 2005. bilo je samo logičan nas-tavak te tradicije. Sličan je progam pokrenut na Sveuči-lištu u Zadru 2010.

4.4 NACIONALNI PROJEKTI IINICIJATIVEGovornika hrvatskoga jezika ima oko 5,5 milijuna i tajbroj nipošto nije dovoljan da za održavanje skupoga ra-zvoja novih jezičnohtehnoloških proizvoda isključivo izkomercijalnih izvora. Razvoj jezičnih resursa i alata za

34

Page 42: the croatian language in the digital age hrvatski jezik u digitalnom

hrvatski jezik košta isto kao i za jezik s nekoliko stotinamilijuna govornika. Rezultat toga jest da je broj komer-cijalno orijentiranih jezičnotehnoloških tvrtki za hrvat-ski jezik ravan nuli. Ulogu financijskoga podupirateljajezičnotehnoloških aktivnosti djelomično preuzima dr-žava, no sasvim sigurno ne u opsegu potrebnome za ra-zvoj svih potrebnih jezičnih resursa i alata.

Jeste li znali da se prva uporaba računalnogausporednoga korpusa u kontrastivnoj lingvistici upovijesti lingvistike dogodila u Zagrebu 1968?

U Hrvatskoj su se aktivnosti oko prikupljanja jezičnihresursa, tj. računalnihkorpusa, počele već 1960-ihkad je1967. Željko Bujas sastavio prvi hrvatski računalni kor-pus i napravio njegovu konkordanciju [46] u Zavodu zalingvistiku Filozofskoga fakulteta Sveučilišta uZagrebu.Od tada je ta ustanova postala središnjom ustanovomu Hrvatskoj za istraživanja s područja korpusne lingvis-tike. Godine 1968. u Zavodu se pod vodstvom RudolfaFilipovića po prvi puta u povijesti lingvistike upora-bio usporedni računalni korpus u kontrastivnolingvis-tičkim istraživanjima [47]. Tijekom 1970-ih i 1980-ihobavljala se računalna obradba starih hrvatskih pisaca, asastavljanje Jednomilijunskoga korpusa hrvatskoga knji-ževnoga jezika započelo je 1976. pod vodstvom MilanaMoguša. Na temelju toga korpusa sastavljen je prvi hr-vatski čestotni rječnik [48].Sastavljanje Hrvatskoga nacionalnoga korpusa [49] po-čelo je 1998. [50, 20], a opseg od 101 milijun riječi-pojavnica dohvatio je 2004. [51] Danas je najveći hrvat-ski korpus hrWaCsastavljenna istome fakultetu 2011., aobasiže 1,2 milijarde riječi-pojavnica skupljenih s .hr in-ternetske domene [52]. Od godine 2000. na istome sefakultetu pod vodstvom Damira Borasa odvija opsežnaaktivnost digitalizacije starih hrvatskih jedno- i višeje-zičnih rječnika [53].Pri Institutu za hrvatski jezik i jezikoslovlje 2004. zapo-čelo je sastavljanje opsežnoga korpusa pod nazivom Hr-

vatska jezična riznica [54, 55] koja uključuje pisane teks-tove od 11. stoljeća do današnih dana. Riznica je organi-zirana kao u tri glavna korpusa (starohrvatski, srednjehr-vatski i suvremeni hrvatski) gdje se za prva dva rješavajubitni problemi dijakronijskih korpusa što u hrvatskomeslučaju znači, transliteracija s tri različita pisma (glago-ljice, ćirilice i latinice), rješavanje nestandardnih pravo-pisnih rješenja, individualne varijacije u uporabi pojedi-nih pismena itd.

Jeste li znali kako je najstariji hrvatski tiskanirječnik Dictionarium quinque nobilissimarum

Europae linguarum Latinae, Italicae, Germanicae,Dalmaticae et Ungaricae Fausta Vrančića (1595)

ujedno i najstariji madžarski tiskani rječnik?

Nakon istraživačkih programa 1970-ih i 1980-ih, kojisu uobičajeno bili usmjereni prema računalnoj obradbiknjiževnih tekstova, većinu istraživačkih aktivnosti napodručju računalnoga jezikoslovlja, korpusnoga jezi-koslovlja i jezičnih tehnologija danas podupire Minis-tarstvo znanosti, obrazovanja i sporta kroz projekte po-vezane s jezičnim tehnologijama. Još je 1991. započeoprvi takav projekt pod nazivom Računalna obradba hr-vatskoga književnoga jezika, 1996. je slijedio Računalnaobradba hrvatskoga jezika, a 2002. Razitak hrvatskih je-zičnih resursa. Godine 2007. iz istoga su izvora podu-prta tri osnovna istraživačka programa s po nekolikoprojekata usmjerenih na razvoj jezičnih tehnologija zahrvatski jezik:

‚ Računalnolingvistički modeli i jezične tehnologijeza hrvatski jezik [56] gdje se sastavlja i održava čitavniz jezičnih resursa i alata (npr. Hrvatski nacionalnikorpus, Hrvatsko-engleski paralelni korpus, Hrvat-ski morfološki leksikon, Hrvatska ovisnosna bankastabala [57], Hrvatski wordnet [58], hibridni ozna-čivač [59] i lematizator [15], ovisnosni parser za hr-vatski, sustav za prepoznavanje imena i drugi alati zacrpljenje obavijesti [60], itd.);

35

Page 43: the croatian language in the digital age hrvatski jezik u digitalnom

‚ Izvori za hrvatsku baštinu i hrvatski europski identi-tet [61] s projektima koji se bave digitalizacijom sta-rih hrvatskih rječnika i izradbom Hrvatskoga valen-cijskoga rječnika [62];

‚ Hrvatska jezična riznica [54] gdje se niz projekatabavi različitim jezikoslovnim problemima započevšiod istraživanjahrvatskihnarječja i etimologije, do ra-zvoja semantičkih mreža za izgradnju leksičkih re-sursa. Svi ti projekti uključuju digitalizaciju skuplje-nih jezičnih podataka i izravno uvećavaju broj dos-tupnih jezičnih resursa za hrvatski jezik.

Također na Sveučilištu u Rijeci projekt Govorne tehno-logije [63] napravio je značajan napredak u razvoju te-meljnih resursa i alata za obradbuhrvatskoga govora kaošto su Hrvatski govorni korpus i prototipovi sustava zaATR i TTS na hrvatskome.

Ovi su istraživački programi otvorili mogućnost da ra-zvoj jezičnih tehnologija za hrvatski jezik uhvati korak sostalim europskim jezicima, a istodobno su pružili pri-liku za ravnopravno sudjelovanje hrvatskih istraživačkihskupina u postojećim FP7 i ICT-PSP projektima s obzi-rom da je zadnji takav projekt (TELRI II) u kojem susudjelovali završio još 2002.

Iz Republike Hrvatske Filozofski je fakultet Sveučilištau Zagrebu bio je partnerom na projektu CLARIN, pot-hvatu koji nastoji oko izgradnje istraživačke infrastruk-ture za istraživače s područjā humanističkih i društve-nih znanosti na razini čitave Europe, a koja se infras-truktura temelji na jezičnim resursima i alatima. Hrvat-ska je jedna od zemalja koje su izrazile spremnost pris-tupiti CLARIN ERIC-u. Isti Fakultet je partner u FP7projektu ACCURAT i ICT-PSP projektima LetsMT! iCESAR. Sveučilište u Zadru bilo je partnerom u ICT-PSP projektu ATLAS.

4.5 DOSTUPNOST ALATA IRESURSA ZA HRVATSKI JEZIK15 daje pregled trenutačnoga stanja s jezičnotehnolo-škom potporom hrvatskome jeziku. Ocjene postojećihalata i resursa temeljene su na uprosječenoj procjeni ne-koliko vodećih stručnjaka s toga područja koji su u mo-gućem rasponu od 0 do 6 ocijenili stanje služeći se s ne-koliko kriterija. Osnovni rezultati za hrvatske jezičnetehnologije mogu se sažeti u sljedećih nekoliko točaka:

‚ Kad je riječ o većini temeljnih tehnoloških alatai resursa (referentni korpusi, manji usporedni kor-pusi, veliki flektivni rječnici, opojavničitelji, MSD-označivači, lematizatori, NERC sustavi itd.) hrvat-ski stoji relativno dobro.

‚ Međutim, veliki sintaktički obilježeni korpusi ne-dostaju kao i veliki usporedni korpusi (npr. hrvat-ski prijevod pravne stečevine EU). Mnogim posto-jećim resursima nedostaje standardiziran oblik, pa jepotrebna ozbiljna inicijativa da se standardiziraju tipodatci kao i formati za razmjenu podataka.

‚ Premda su u nekim područjima već započeli ekspe-rimenti, kao što su plitko parsanje (chunking), sa-žimanje, primjena ontoloških resursa, oni se odvi-jaju samo u akademskim krugovima, a dosegnuti re-zultati su daleko od razine razvijenosti koju poka-zuju drugi europski jezici. Obradba multimedij-skih i multimodalnih dokumenata dobiva na važ-nosti, osobito digitalizacija u kontekstu očuvanja na-cionalne kulturne baštine, ali jezične tehnologije zahrvatski jezik još nisu uključene u te procese u do-voljnoj mjeri.

‚ Na potpodručjima kao što su npr. sinteza govora,prepoznavanje govora i crpljene obavijesti, postojepojedini prozvodi, ali ograničene ili visokospecijali-zirane funkcional-nosti.

‚ Alati i resursi za naprednije jezične tehnologije kaošto su duboko parsanje, strojno prevođenje, teks-

36

Page 44: the croatian language in the digital age hrvatski jezik u digitalnom

tna semantika, obradba diskurza, generiranje jezika,upravljanje dijalogom, itd. jednostavno za hrvatskijoš ne postoje.

Uzevši zajedno svu financijsku potporu dobivenu krozspomenute projekte i programe s područja jezičnih teh-nologija u rasponu od 2007. do 2012., može se reći kakoje to jedva šestina od stvarno potrebne potpore. Stogane treba čuditi kako se za jezične tehnologije za hrvat-ski jezik još uvijek može reći kako su u povojima. Brojod oko 5,5 milijuna govornika hrvatskoga u RepubliciHrvatskoj i susjednim zemljama jednostavno je prema-len da bi se skup razvoj novih jezičnotehnoloških pro-izvoda održavao samo tržišnim potrebama. Trenutačnou Hrvatskoj nema tvrtke koja bi proizvodila jezičnoteh-nološke alate jer se to ne smatra profitabilnim. Stoga jenastavakfinancijske potpore iz javnih izvora ključan, po-sebno imajući u vidu očekivani porast broja digitalnihdokumenata na hrvatskome s uključivanjem uEuropskuuniju 2013. kad će hrvatski jezik postati njezin 24. služ-beni jezik.

4.6 USPOREDBA IZMEĐUJEZIKATrenutačno stanje razvoja jezičnih tehnologija značajnovarira od jedne jezične zajednice do druge. Kako bise usporedilo stanje među jezicima, ovo potpoglavljepredstavlja vrjednovanje temeljeno na dva ogledna po-dručja primjene jezičnih tehnologija (strojno prevođe-nje i obradba govora), jednom području primjene ’is-pod poklopca’ (analiza teksta), kao i na temeljnim jezič-nim resursima potrebnim za izgradnju jezičnotehnolo-ških aplikacija. Jezici su ocijenjeni prema skali od petbodova:

1. Izvrsna razvijenost

2. Dobra razvijenost

3. Umjerena razvijenost

4. Sporadična razvijenost

5. Slaba ili nikakva razvijenost

Jezičnotehnološka razvijenost mjerena je prema sljede-ćim kriterijima:

Obradba govora: Kakvoća postojeće tehnologije zaprepoznavanje govora, kakvoća postojeće tehnologije zasintezu govora, pokrivanje raznih područja, broj i veli-čina postojećih govornih korpusa, broj i raznovrsnostpostojećih aplikacija govornih tehnologija.

Strojno prevođenje: Kakvoća postojećih tehnologija zastrojno prevođenje, broj jezičnih parova koji su zastup-ljeni, pokrivenost jezičnih pojava i domena, kakvoća iveličina postojećih usporedivih korpusa, broj i raznoli-kost postojećih primjena strojnoga prevođenja.

Analiza teksta: Kakvoća i zastupljenost postojećih teh-nologija za analizu teksta (morfologija, sintaksa, seman-tika), pokrivenost različitih jezičnih pojava i područja,broj i raznolikost postojećih primjena, kakvoća i opsegpostojećih (označenih) korpusa, kakvoća i pokrivenostpostojećih leksičkih resursa (npr.Wordnet) i gramatika.

Jezični resursi: Kakvoća i opseg postojećih jednojezič-nih, govornih i usporednih korpusa, kakvoća i pokrive-nost postojećih leksičkih resursa i gramatika.

Slike od 16 do 19 pokazuju kako je hrvatski za gotovosve alate i resurse u skupini jezika koji su na dnu po ra-zvijenosti. Razvoj jezičnih tehnologija za hrvatski uspo-rediv je s ostalim jezicima maloga broja govornika kaošto su estonski, letonski, litavski, slovački, a unekojmjeridanski i finski. Međutim, svi ovi jezici znatno zaostaju zajezicimakao što sunjemački ili francuski, a niti za njih je-zičnotehnološki resursi i alati ne dosežu kakvoću i opsegsličnih resursa i alata koji su na raspolaganju za engleskijezik. Stoga je upravo engleski jezik najnapredniji u go-tovo svimpodručjima premda i kodnjega postoji znatanbrojmanjkavosti u resursimakoji bi semorali primijenitiu visoko kvalitetnim aplikacijama.

37

Page 45: the croatian language in the digital age hrvatski jezik u digitalnom

Kol

ičin

a

Dos

tupn

ost

Kak

voća

Pokr

iven

ost

Zrelos

t

Odr

živo

st

Prila

godl

jivos

t

Jezični alati i aplikacije

Prepoznavanje govora 1 2 2 2 2 1 3

Sinteza govora 2 2 2 2 2 1 2

Gramatička analiza 2 1.5 3.5 3 2 1 4

Semantička analiza 0.3 0 0.3 0.67 0 0 0.3

Generiranje teksta 1 1 2 0 1 0 0

Strojno prevođenje 1 0 1 1 0 0 0

Jezični resursi

Tekstovni korpus 2 2 3 4 3 2.5 2

Govorni korpusi 2 1 2 2 2 2 2

Usporedni korpusi 3 2 3 3 3 1 2

Leksički resursi 2.5 3 3.5 3.5 3.5 2.5 2.5

Gramatike 0 0 0 0 0 0 0

15: Stanje jezičnih tehnologija za hrvatski jezik

4.7 ZAKLJUČCIU oome nizu bijelih knjiga po prvi se puta za 30 europ-skih jezika pokušalo procijeniti njihovu jezičnotehnološkurazvijenost i dati njihovu međusobnu usporedbu. Uoča-vanjem manjkaosti, potreba i nedostataka, europska je-zičnotehnološka zajednica i zainteresirani dionici sad suu položaju sastaviti opsežan program istraživanja i ra-zoja usmjeren na izgradnju istinski višejezične i tehno-loško potpomognute komunikacije unutar cijele Europe.

Rezultati ovoga niza bijelih knjiga pokazuju kako pos-toje značajne razlike u razvijenosti jezičnih tehnologijaza različite europske jezike. Dok za neke jezike postojedobre aplikacije visoke kakvoće i slobodno dostupni je-zični resursi, za drugi, obično maloljudniji jezici, poka-zuju značajne manjkavosti. Mnogim jezicima nedostaju

temeljne tehnologije za analizu teksta i osnovni jezičniresursi. Drugi pak jezici imaju temeljne alate i resurse,ali je primjena npr. semantičkih metoda još uvijek da-leko. Stoga je potreban širok zajednički napor kako bi sepostigao ambiciozni cilj uspostave visoke razine razvije-nosti jezičnih tehnologija za sve europske jezike vidljivu, npr. strojnome prevođenju visoke kakvoće.

Ne možemo zaista biti optimistični glede jezičnih teh-nologija za hrvatski jezik. Na tompodručju uHrvatskojpostoji istraživačka scena u nastajanju, ponajprije na sve-učilištima i u istraživačkim institutima, ali mala ili sred-nja poduzeća, kao potencijalni korisnici ili proizvođačijezičnih tehnologija za hrvatski jezik, gotovo ne postoje.Razne su ustanove uložile napore na istraživanje i ra-zvoj jezičnotehnoloških proizvoda kao što su veliki hr-vatski korpusi, obradbamorfologije, strojnoprevođenje,

38

Page 46: the croatian language in the digital age hrvatski jezik u digitalnom

obradba govora, itd. No ti se alati i resursi moraju daljerazvijati, a za to je potrebna potpora. Prema procjenamadanim podrobno u ovome izvješću, potrebna je žurna ineposredna akcija kako bi se osigurala daljnja nova pos-tignuća za hrvatski jezik. Sasvim je razvidnokako semo-raju pojačati napori u stvaranju jezičnih resursa za hrvat-ski jezik i općenito poduprijeti njihovo istraživanje, ino-vacije i razvoj. Potreba za velikim količinama podatakakao i krajnja složenost jezičnotehnoloških sustava uka-zuje na potrebu razvoja ključne nove infrastrukture kojaće omogućiti suradnju i dijeljenje resursa, alata i znanja.Javna financijska potpora jezičnim tehnologijama uEuropi je relativno niska kad ju se usporedi s troškovimaprevođenja i višejezičnoga pristupa u SAD-u [64]. UHrvatskoj je javno financiranje razvoja jezičnih tehno-logija još i manje nego u mnogim usporedivim europ-skim zemljama, uključujući i susjedne zemlje poput Slo-venije ili Madžarske. Nerijetko postoji nedostatak kon-tinuiteta u financijskoj potpori istraživanjima i razvoju.Kratkoročni projekti ili programi smjenjuju se s razdob-ljima slabije ili nikakve potpore. Uz to postoji i opći ne-dostatak koordinacije s programima u ostalim zemljamaEU-a na razini Europske komsije. Premda postoji go-ruća potreba prepoznavanja važnosti jezičnih tehnolo-

gija uosiguravanjuodrživoga razvojahrvatskoga jezikau21. stoljeću i u izazovima koje će pred njega staviti ulogajednoga od službenih jezika EU, još uvijek nije pokre-nuta nikakva opsežna inicijativa na nacionalnoj razinikoja bi skrbila o stvaranju velikih resursa, alata i servisa zahrvatski jezik, o partnerstvu između vlade, istraživanja igospodarstva ne bi li se razvio stručno-komercijalni klas-ter za hrvatske jezične tehnologije. Vjerujemo kako bita inicijativa morala imati institucionalni okvir u oblikuposebnoga središta kompetencija/izvrsnosti koji bi mo-gao dobiti potporu iz strukturnih fondova EU s ciljempoticanja poslovno orijentiranih istraživanja, promica-nja suradnje unutar područja između tvrtki i istraživač-kih ustanova na razvoju novih proizvoda i tehnologija,te podizanja kompetitivnost hrvatskih tvrtki na tržištuEU kojega će Hrvatska postati sastavni dio već 2013.Dugoročni je ciljMETA-NET-a omogućiti stvaranje vi-sokokvalitetnih jezičnih tehnologija za sve jezike. Tozahtijeva da svi dionici u tome procesu – političari, is-traživači, poduzetnici – ujedine svoje napore. Rezultatće biti tehnologije koje će omogućiti nadilaženje posto-jećih prepreka i izgradnjumostova između europskih je-zika, pripremajući put za političko i ekonomsko jedins-tvo kroz kulturnu raznolikost.

39

Page 47: the croatian language in the digital age hrvatski jezik u digitalnom

Izvrsna Dobra Djelomična Sporadična Slaba podrška/podrška podrška podrška podrška odsutnost podrške

Engleski FinskiFrancuskiNizozemskiTalijanskiPortugalskiŠpanjolskiČeškiRuski

BaskijskiBugarskiDanskiEstonskiGalicijskiGrčkiIrskiKatalonskiNorveškiPoljskiSrpskiSlovačkiSlovenskiŠvedskiMađarski

IslandskiHrvatskiLatvijskiLitavskiMalteškiRumunjski

16: Obrada govora: stanje jezičnih tehnologija za 30 službenih jezika Europe

Izvrsna Dobra Djelomična Sporadična Slaba podrška/podrška podrška podrška podrška odsutnost podrške

Engleski FrancuskiŠpanjolski

NizozemskiTalijanskiKatalonskiPoljskiRumunjskiMađarskiRuski

BaskijskiBugarskiDanskiEstonskiFinskiGalicijskiGrčkiIrskiIslandskiHrvatskiLatvijskiLitavskiMalteškiNorveškiPortugalskiSrpskiSlovačkiSlovenskiŠvedskiČeški

17: Strojno prevođenje: stanje jezičnih tehnologija za 30 službenih jezika Europe

40

Page 48: the croatian language in the digital age hrvatski jezik u digitalnom

Izvrsna Dobra Djelomična Sporadična Slaba podrška/podrška podrška podrška podrška odsutnost podrške

Engleski FrancuskiNizozemskiTalijanskiŠpanjolskiRuski

BaskijskiBugarskiDanskiFinskiGalicijskiGrčkiKatalonskiNorveškiPoljskiPortugalskiRumunjskiSlovačkiSlovenskiŠvedskiČeškiMađarski

EstonskiIrskiIslandskiHrvatskiLatvijskiLitavskiMalteškiSrpski

18: Analiza teksta: stanje jezičnih tehnologija za 30 službenih jezika Europe

Izvrsna Dobra Djelomična Sporadična Slaba podrška/podrška podrška podrška podrška odsutnost podrške

Engleski FrancuskiNizozemskiTalijanskiPoljskiŠpanjolskiŠvedskiČeškiMađarskiRuski

BaskijskiBugarskiDanskiEstonskiFinskiGalicijskiGrčkiKatalonskiHrvatskiNorveškiPortugalskiRumunjskiSrpskiSlovačkiSlovenski

IrskiIslandskiLatvijskiLitavskiMalteški

19: Jezični resursi: stanje jezičnih tehnologija za 30 službenih jezika Europe

41

Page 49: the croatian language in the digital age hrvatski jezik u digitalnom

5

O META-NET-U

META-NET je mreža izvrsnosti koju podupire Europ-ska komisija. Mreža se trenutačno sastoji od 54 članaiz 33 europske zemlje [65]. META-NET organiziraMETA (Multilingual Europe Technology Alliance),rastuću zajednicu europskih profesionalaca i organiza-cija u području jezičnih tehnologija.META-NET skrbi o tehnološkim temeljima za istinskovišejezično europsko društvo koje će:

‚ omogućiti komunikaciju i suradnju među jezicima;

‚ za sve Europljane osigurati jednak pristup informa-cijama i znanju na bilo kojem jeziku;

‚ dorađivati i unaprjeđivati funkcionalnosti umreženeinformacijske tehnologije.

Ova mreža izvrsnosti podupire Europu koja se ujedi-njuje u jedinstveno digitalno tržište i jedinstven infor-macijski prostor. Ona potiče i promiče višejezične teh-nologije za sve europske jezike. Te tehnologije podu-piru strojno prevođenje, automatsko generiranje sadr-žaja, obradbu obavijesti i upravljanje znanjem u veli-kome broju područja i primjena. Te tehnologije takođeromogućuju intuitivna, jezično utemeljena sučelja u ras-ponu od kućanskih uređaja, strojeva i vozila do računalai robota. S početkom od 1. veljače 2010., META-NETje već organiziraomnogobrojne aktivnosti u tri osnovnasmjera djelovanja: META-VISION, META-SHARE iMETA-RESEARCH.META-VISION skrbi o zajednici dinamičnih i utje-cajnih dionika koja je okupljena oko jedinstvene vizijei zajedničkoga istraživačkoga plana (Strategic ResearchAgenda, SRA). Glavni cilj ovih aktivnosti jest izgraditi

koherentnu i kohezivnu jezičnotehnološku zajednicu uEuropi uključivanjem predstavnika iz sasvim različitih irascjepkanih skupina dionika. Ova bijela knjiga prire-đena je zajednički za još 29 jezika. Zajednička tehno-loška vizija u tri područne skupine za META-VISION.Uspostavljeon je META tehnološko vijeće kako bi seraspravio SRA na temelju široke rasprave u čitavoj jezič-notehnološkoj zajednici.META-SHARE stvara otvorenu i distribuiranu plat-forma za razmjenu i dijeljenje resursa. Peer-to-peermreža digitalnih repozitorija sadržavat će jezične po-datke, alate i web servise koji su dokumentirani viso-kokvalitetnim metapodatcima i organizirani u standar-dizirane kategorije. Resursi su odmah dostupni i jed-noobrazno pretraživi. Raspoloživi resursi uključuju bes-platnu i otvorenu građu kao i ograničene, komercijalnodostupne, naplative resurse.META-RESEARCH izgrađuje mostove prema susjed-nim istraživačkim i tehnološkim područjima. Ove ak-tivnosti traže napredak u drugim područjima s kojih biinovativna istraživanjamogli unaprijediti jezične tehno-logije. Aktivnosti se osobito usredotočuju na izvođe-nje vrhunskih istraživanja u području strojnoga prevo-đenja, prikupljanja podataka, priređivanja skupova po-dataka i organizacije jezičnih resursa za potrebe vrjed-novanja; potom u području katalogiziranja jezičnoteh-noloških alata imetoda; u organizaciji radionica i raznihoblika dodatne izobrazbe članova jezičnotehnološke za-jednice.

[email protected] – http://www.meta-net.eu

42

Page 50: the croatian language in the digital age hrvatski jezik u digitalnom

1

EXECUTIVE SUMMARY

Information technology changes our everyday lives. Wetypically use computers for writing, editing, calculating,and information searching, and increasingly for reading,listening tomusic, viewing photos andwatchingmovies.We carry small computers in our pockets and use themto make phone calls, write emails, get information andentertain ourselves, wherever we are. How does thismassive digitisation of information, knowledge and ev-eryday communication affect our language? Will ourlanguage change or even disappear? What are theCroa-tian language’s chances of survival?Many of the world’s 6,000 languages will not survive ina globalised digital information society. It is estimatedthat at least 2,000 languages are doomed to extinctionin the decades ahead. Others will continue to play a rolein families and neighbourhoods, but not in the widerbusiness and academic world. e status of a languagedepends not only on the number of speakers or books,films and TV stations that use it, but also on the pres-ence of the language in the digital information space andsoware applications.In today’s information society accessibility of informa-tion in your mother tongue is considered to be the civil-isational level necessary for overcoming the digital di-vide. e linguistic communities without developedlanguage technologies for their language will remain onthe other side of digital divide. When it comes to theCroatian language and its language technologies, it isnot just the assurance that it will be able to participateon equal grounds with other languages in our globalisedinformation society, but even more it is about the im-minent change of its sociolinguistic conditions. It is

projected that from mid 2013 the Croatian languagewill become the 24th official language of the EuropeanUnion. Starting with that moment it will be expectedthat for Croatian the whole range of different languageresources, tools and services will be accessible, similar tothe ones that already exist and are being developed fur-ther for other EU languages. Search engines providingfull-text search with all word forms in which Croatianwords could appear, dictation systems, i. e., speech totext systems for Croatian, or – maybe the most impor-tant – machine translation systems to and from Croa-tian, are just some of examples of important languagetechnologies. ese systems are not expected as researchprototypes only, but also as useful commercial prod-ucts. We can’t expect that they will be developed for theCroatian language by researchers dealing with English,French, German, Czech, Slovenian or Serbian, but wehave to develop these language resources, tools and ser-vices on our own. However, this will be easier to achieveif we harmonise and coordinate our efforts with similarefforts for other EU languages. It is exactly what the ini-tiative described in this publication is about.

is white paper for the Croatian language demon-strates that a basic language research environment existsin Croatia, although the language industry is not reallydeveloped. Despite the fact that a small number of tech-nologies and resources forCroatian exist, there are fewerof them developed for the Croatian language than forother Slavic languages, e. g., Czech, and far fewer thanfor the major EU languages, like English, German orFrench.

43

Page 51: the croatian language in the digital age hrvatski jezik u digitalnom

Although in Croatia there’s a half-century long tradi-tion of research in computational linguistics, naturallanguage processing and corpus linguistics (with com-piling such important language resources as the Croat-ian Frequency Dictionary, the Croatian National Cor-pus, the Croatian-English Parallel Corpus, the Croat-ian Morphological Lexicon, the Croatian DependencyTreebank, etc.), it can’t be assumed that the current sta-tus of language technologies is satisfactory. Beside thenationally funded projects – unfortunately, still onlyfew of them– since 2008 startedmore substantial fund-ing through five EC projects: CLARIN, ACCURAT,LetsMT!, ATLAS, XLike; but they are also mainly ori-ented towards solving individual problems or providingtechnological solutions, and rarely towards advancingthe overall situation of language technologies for Croa-tian. For the Croatian language the sixth project – CE-SAR – takes exactly this role within the wider META-NET initiative, by producing this white paper.

According to the assessment detailed in this report, fo-cused action must be taken in order to bring the Croa-tian language resources and tools at the level of qual-ity and quantity of language resources and tools that al-ready exist for other European languages.

META-NET’s vision is high-quality language technol-ogy for all languages that supports political and eco-nomic unity through cultural diversity. is technologywill help tear down existing barriers and build bridgesbetweenEurope’s languages. is requires all stakehold-ers – inpolitics, research, business, and society– tounitetheir efforts for the future.

is white paper series complements the other strategicactions taken by META-NET. Up-to-date informationsuch as the current version of the META-NET visionpaper [2] or the Strategic Research Agenda (SRA) canbe found on the META-NET web site: http://www.meta-net.eu.

44

Page 52: the croatian language in the digital age hrvatski jezik u digitalnom

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramat-ically impacting communication and society. Recentdevelopments in digitised and network communicationtechnology are sometimes compared to Gutenberg’s in-vention of the printing press. What can this analogy tellus about the future of the European information societyand our languages in particular?

The digital revolution is comparable toGutenberg’s invention of the printing press.

Aer Gutenberg’s invention, real breakthroughs incommunication and knowledge exchange were accom-plished by efforts such as Luther’s translation of theBible into vernacular language. In subsequent centuries,cultural techniques have been developed to better han-dle language processing and knowledge exchange:

‚ the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

‚ the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

‚ the teaching and translation of languages enabled ex-changes across languages;

‚ the creationof editorial andbibliographic guidelinesassured the quality of printed material;

‚ the creation of different media like newspapers, ra-dio, television, books, and other formats satisfieddifferent communication needs.

In the past twenty years, information technology helpedto automate and facilitate many processes:

‚ desktop publishing soware replaces typewritingand typesetting;

‚ Microso PowerPoint replaces overhead projectortransparencies;

‚ e-mail allows documents to be sent and receivedmore quickly than using a fax machine;

‚ Skype offers cheap Internet phone calls and hostsvirtual meetings;

‚ audio and video encoding formatsmake it easy to ex-change multimedia content;

‚ web search engines provide keyword-based access;

‚ online services like Google Translate produce quick,approximate translations;

‚ social media platforms such as Facebook, Twitterand Google+ facilitate communicaton, collabora-tion and information sharing.

Although such tools and applications are helpful, theyare not yet capable of supporting a fully-sustainable,multilingual European society in which informationand goods can flow freely.

45

Page 53: the croatian language in the digital age hrvatski jezik u digitalnom

2.1 LANGUAGE BORDERSHOLD BACK THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informationsociety will look like. However, there is a strong like-lihood that the revolution in communication technol-ogy is bringing together people who speak different lan-guages in new ways. is is putting pressure both on in-dividuals to learnnew languages and especially ondevel-opers to create new technology applications to ensuremutual understanding and access to shareable knowl-edge. In the global economic and information space,there is increasing interaction between different lan-guages, speakers and content thanks to new types ofme-dia. e current popularity of social media (Wikipedia,Facebook, Twitter, YouTube, and, recently, Google+) isonly the tip of the iceberg.

The global economy and informationspace confronts us with different languages,

speakers and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language that we do not understand. According to arecent report from the European Commission, 57% ofInternet users in Europe purchase goods and services innon-native languages; English is the most common for-eign language followed byFrench,German andSpanish.55% of users read content in a foreign language while35% use another language to write e-mails or post com-ments on the Web [3]. A few years ago, English mighthave been the lingua franca of the Web – the vast ma-jority of content on the Web was in English – but thesituation has now drastically changed. e amount ofonline content in other European (as well as Asian andMiddle Eastern) languages has exploded. Surprisingly,

this ubiquitous digital linguistic divide has not gainedmuch public attention; yet, it raises a very pressing ques-tion: Which European languages will thrive in the net-worked information and knowledge society, and whichare doomed to disappear?

2.2 OUR LANGUAGES AT RISKWhile the printing press helped step up the exchange ofinformation in Europe, it also led to the extinction ofmany European languages. Regional and minority lan-guages were rarely printed and languages such as Cor-nish and Dalmatian were limited to oral forms of trans-mission, which in turn restricted their scope of use. Willthe Internet have the same impact on our modern lan-guages?

Europe’s approximately 80 languages are one of our rich-est and most important cultural assets, and a vital partof this unique social model [4]. While languages suchas English and Spanish are likely to survive in the emerg-ingdigitalmarketplace,manyEuropean languages couldbecome irrelevant in a networked society. is wouldweakenEurope’s global standing, and run counter to thestrategic goal of ensuring equal participation for everyEuropean citizen regardless of language.

The variety of languages in Europe is one of itsrichest and most important cultural assets.

According to a UNESCO report on multilingualism,languages are an essential medium for the enjoyment offundamental rights, such as political expression, educa-tion and participation in society [5].

46

Page 54: the croatian language in the digital age hrvatski jezik u digitalnom

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investments in language preservation fo-cussed primarily on language education and transla-tion. According to one estimate, the European marketfor translation, interpretation, soware localisation andwebsite globalisation was € 8.4 billion in 2008 and isexpected to grow by 10% per annum [6]. Yet this fig-ure covers just a small proportion of current and futureneeds in communicating between languages. e mostcompelling solution for ensuring the breadth and depthof language usage in Europe tomorrow is to use appro-priate technology, just as we use technology to solve ourtransport and energy needs among others.Language technology targeting all forms of written textand spoken discourse can help people to collaborate,conduct business, share knowledge and participate insocial and political debate regardless of language barri-ers and computer skills. It oen operates invisibly insidecomplex soware systems to help us already today to:

‚ find information with a search engine;

‚ check spelling and grammar in a word processor;

‚ view product recommendations in an online shop;

‚ follow the spoken directions of a navigation system;

‚ translate web pages via an online service.

Language technology consists of a number of core ap-plications that enable processes within a larger applica-tion framework. e purpose of the META-NET lan-guage white papers is to focus on how ready these coreenabling technologies are for each European language.Tomaintain our position in the frontline of global inno-vation, Europe will need language technology, tailoredto all European languages, that is robust and affordableand can be tightly integrated within key soware envi-ronments. Without language technology, we will not

be able to achieve a really effective interactive, multime-dia and multilingual user experience in the near future.

Europe needs robust and affordable languagetechnology for all European languages.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text using a suit-ably powered printing press. Human beings had to dothe hard work of looking up, assessing, translating, andsummarising knowledge. We had to wait until Edisonto record spoken language – and again his technologysimply made analogue copies.Language technology can now simplify and automatethe processes of translation, content production, andknowledge management for all European languages. Itcan also empower intuitive speech-based interfaces forhousehold electronics, machinery, vehicles, computersand robots. Real-world commercial and industrial ap-plications are still in the early stages of development,yet R&D achievements are creating a genuine windowof opportunity. For example, machine translation is al-ready reasonably accurate in specific domains, and ex-perimental applications provide multilingual informa-tion and knowledge management, as well as contentproduction, in many European languages.As with most technologies, the first language applica-tions such as voice-based user interfaces and dialoguesystems were developed for specialised domains, and of-ten exhibit limited performance. However, there arehuge market opportunities in the education and enter-tainment industries for integrating language technolo-gies into games, edutainment packages, libraries, simu-lation environments and training programmes. Mobile

47

Page 55: the croatian language in the digital age hrvatski jezik u digitalnom

information services, computer-assisted language learn-ing soware, eLearning environments, self-assessmenttools and plagiarism detection soware are just someof the application areas in which language technologycan play an important role. e popularity of socialmedia applications like Twitter and Facebook suggest aneed for sophisticated language technologies that canmonitor posts, summarise discussions, suggest opiniontrends, detect emotional responses, identify copyrightinfringements or track misuse.

Language technology helps overcomethe “disability” of linguistic diversity.

Language technology represents a tremendous opportu-nity for the European Union. It can help to address thecomplex issue of multilingualism in Europe – the factthat different languages coexist naturally in Europeanbusinesses, organisations and schools. However, citi-zens need to communicate across the language bordersof the European Common Market, and language tech-nology can help overcome this final barrier, while sup-porting the free and open use of individual languages.

Looking even further ahead, innovative European mul-tilingual language technology will provide a benchmarkfor our global partners when they begin to supporttheir own multilingual communities. Language tech-nology can be seen as a form of “assistive” technologythat helps overcome the “disability” of linguistic diver-sity andmakes language communitiesmore accessible toeach other. Finally, one active field of research is the useof language technology for rescue operations in disas-ter areas, where performance can be a matter of life anddeath: Future intelligent robots with cross-lingual lan-guage capabilities have the potential to save lives.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.Widely-used technologies such as the spelling and gram-mar correctors in word processors are typically mono-lingual and are only available for a handful of languages.

Technological progress needs to be accelerated.

Online machine translation services, although usefulfor quickly generating a reasonable approximation of adocument’s contents, are fraught with difficulties whenhighly accurate and complete translations are required.Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business that requires sustainedfunding commitments. Europe must therefore main-tain its pioneering role in facing the technological chal-lenges of a multiple-language community by inventingnewmethods to accelerate development right across themap. ese could include both computational advancesand techniques such as crowd sourcing.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them toprocess different tongues,let’s look briefly at the way humans acquire first and sec-ond languages, and then see how language technologysystems work.Humans acquire language skills in two different ways.Babies acquire a language by listening to the real inter-action between their parents, siblings and other familymembers. From the age of about two, children produce

48

Page 56: the croatian language in the digital age hrvatski jezik u digitalnom

their first words and short phrases. is is only possi-ble because humans have a genetic disposition to imitateand then rationalise what they hear.Learning a second language at an older age requiresmore cognitive effort, largely because a child is not im-mersed in a language community of native speakers. Atschool, foreign languages are usually acquired by learn-ing grammatical structure, vocabulary and spelling usingdrills that describe linguistic knowledge in terms of ab-stract rules, tables and examples.

Humans acquire language skills in two differentways: learning from examples and learning the

underlying language rules.

Moving now to language technology, the two maintypes of systems ‘acquire’ language capabilities in a simi-lar manner. Statistical (or ‘data-driven’) approaches ob-tain linguistic knowledge from vast collections of con-crete example texts. While it is sufficient to use text in asingle language for training, e. g., a spell checker, paral-lel texts in two (or more) languages have to be availablefor training a machine translation system. e machinelearning algorithm then “learns” patterns of how words,short phrases and complete sentences are translated.is statistical approach usually requiresmillions of sen-tences to boost performance quality. is is one rea-son why search engine providers are eager to collect asmuch written material as possible. Spelling correctionin word processors, and services such as Google Searchand Google Translate, all rely on statistical approaches.e great advantage of statistics is that the machinelearns quickly in a continuous series of training cycles,even though quality can vary randomly.e second approach to language technology, and tomachine translation in particular, is to build rule-based

systems. Experts in the fields of linguistics, computa-tional linguistics and computer science first have to en-code grammatical analyses (translation rules) and com-pile vocabulary lists (lexicons). is is very time con-suming and labour intensive. Some of the leading rulebasedmachine translation systems have been under con-stant development for more than 20 years. e greatadvantage of rule-based systems is that the experts havemore detailed control over the language processing.is makes it possible to systematically correct mistakesin the soware and give detailed feedback to the user, es-pecially when rule-based systems are used for languagelearning. However, due to the high cost of this work,rule-based language technology has so far only been de-veloped for a few major languages.

The two main types of language technologysystems acquire language in a similar manner.

As the strengths and weaknesses of statistical and rulebased systems tend to be complementary, current re-search focussed on hybrid approaches that combine thetwomethodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology, particularly in Europe’s eco-nomic and information space. Although this technol-ogy hasmade considerable progress in the last few years,there is still huge potential to improve the quality of lan-guage technology systems. In the next section, we de-scribe the role of Croatian in the European informationsociety and assess the current state of language technol-ogy for the Croatian language.

49

Page 57: the croatian language in the digital age hrvatski jezik u digitalnom

3

THE CROATIAN LANGUAGE IN THEEUROPEAN INFORMATION SOCIETY

3.1 GENERAL FACTSeCroatian language belongs to theWest-South Slavicsubgroup of the Slavic branch of the Indo-European lin-guistic family. Currently over 5.5 million people speakCroatian as their native language. e Croatian lan-guage consists of the dialects and standard national lan-guage of the Croats, which is the official language ofmore than 4 million people in the Republic of Croatiaand is, along with Bosnian and Serbian, one of three of-ficial languages in Bosnia and Herzegovina, where it isspoken by about 700,000 people. However, the Croat-ian language is also spoken by members of national mi-norities in Croatia as well as by autochthonous Croat-ian ethnic and linguistic minorities in Serbia, Montene-gro, Slovenia, Hungary, Austria, Slovakia and Italy, whoeither reside upon territories of former Croatian landsor emigrated due to historically conditioned exodusesthroughout the centuries.

Croatian is the language of government andadministration, all levels of the school system, andthe language of business and general day-to-day

interactions in Croatia.

Due to intensive economically and politically condi-tioned emigration aer the twoWorldWars in the 20thcentury, Croatian is also spoken within the Croatianlinguistic community in a number of other Europeancountries and overseas. e largest Croatian economic

diaspora is located in Germany, followed by the USA,Canada and Australia, and they also occasionally usethe Croatian language. eir active use of the Croatianlanguage mainly depends on the generation of emigra-tion they belong to. However, in many countries, espe-cially in Europe, there are additional school programs inCroatian organized and financed by the Croatian gov-ernment.e official status of the Croatian language in Croatiais defined by the Constitution of the Republic of Croa-tia. According to Article 12 of the Constitution: “eCroatian language and theLatin script shall be in officialuse in the Republic of Croatia. In individual local units,another language andCyrillics or some other script maybe introduced into official use together with the Croat-ian language andLatin script under conditions specifiedby law.” Since Croatia is expected to join the EuropeanUnion in 2013, theCroatian language will then becomethe 24th official language of the EU.In Croatia there is still not a unified language law stip-ulating the usage of Croatian as an official languagein public matters. Efforts to introduce a language acthave been undertaken on a few occasions since Croatiagained independence, but so far noneof themsucceededin gaining the support of theCroatianGovernment anddid not enter parliamentary procedure. e last attemptwas made in April 2010. However, certain articles re-garding the usage of Croatian as an official state lan-guage in official matters are found within acts on edu-cation, court procedures etc. So far, legislation states no

50

Page 58: the croatian language in the digital age hrvatski jezik u digitalnom

requirement for a compulsory test or examination as aprerequisite for naturalization. e Citizenship Act [7]presupposes that a foreign person applying for Croatiancitizenship is familiar with the Croatian language andalphabet.

According to the 2001 census, Croatia has 4,437,460residents, of whom 89.63% are Croats. Serbs are themost significant national minority, comprising 4.54%of the population, while each remaining national mi-nority makes up less than 0.5% of the population:the Bosniaks (0.47%), Albanians (0.34%), Slovenians(0.30%), Montenegrins (0.11%) and others in less sig-nificant numbers. Croatian is the native language of96% of all residents. National minorities declared tospeak these languages: Albanian, Bosnian, Bulgarian,Czech, Hebrew, Hungarian, German, Istro-Romanian,Italian, Macedonian, Montenegrin, Polish, Roma, Ro-manian, Russian, Rusyn, Slovak, Serbian, Turkish andUkrainian. Four minority languages, Serbian, Hungar-ian, Italian and Czech, have earned the right to the of-ficial use of their minority language and script in cer-tain districts according to their share in the population,which must amount to 1/3 of the general population ina local government district. As of 2009, there are 27districts in Croatia where national minorities have theright to the official use of their language in local admin-istration. at right is used to a high degree in IstarskaCounty, where Italian is the native language of 20,521residents, but bilingual street signs can be found even inareas where there is no Italian minority. e Republicof Croatia ratified the European Charter for Regionalor Minority Languages in 1997.

e recently conducted 2011 census, which was carriedout according to international statistical standards, andthus enumerated all citizens of the Republic of Croatia,foreign citizens and stateless persons who reside in theRepublic ofCroatia, has not yet provided official figureson language usage.

Croatia has a sizable diaspora that oen still speaksCroatian (see Figure 1). Croatian ethnic and linguisticminorities live in many European countries due to his-torical migrations beginning from the 16th century, aswell as recent, mostly economical and political emigra-tion. e most numerous groups are the so-called Bur-genland Croats in Austria (presumably about 50,000),and about the same number of Croats live in Hungary.InAustria, theCroats actively use BurgenlandCroatian.is variant of Croatian, which has been standardizedaccording to somewhat different rules than standardCroatian, is one of Austria’s official minority languages.ere are a number of kindergartens and schools in Bur-genland that use Burgenland Croatian. On the otherhand, the Croatian standard language is the official mi-nority language in Hungary. In Italy at the moment liveabout 3,000Croats, who use a variant ofCroatian calledMolise Croatian that is also taught in schools in threecommunities inhabited by Croats in Molise. e num-ber of Croats in Serbia, specifically in the province ofVojvodina where Croats are a national minority, is dif-ficult to establish, since a number of ethnic Croats aredeclared as so-called “Bunjevci”, mostly for political rea-sons. Although many Croats were expelled from Serbiaaer Croatia gained independence from Yugoslavia, itis assumed that there are still more than 100,000 Croatsin Serbia. In other European countries, a Croatian au-tochthonous minority lives in Montenegro (7,000 to10,000), the Czech Republic (less than 1,000), Slovakia(4,000) and Romania (7,500). e number of Croatsin Slovenia is about 50,000, but only a small number ofthem are an autochthonous minority, mostly in settle-ments along the border, and more of them are recenteconomic emigrants. So, as a minority language, Croa-tian is an official minority language in Serbia (as one ofseven official languages in the province of Vojvodina),Montenegro, Austria and Hungary, and in Italy, MoliseCroatian is recognized as a linguistic minority.

51

Page 59: the croatian language in the digital age hrvatski jezik u digitalnom

1: Croats in neighbouring states [8]

52

Page 60: the croatian language in the digital age hrvatski jezik u digitalnom

3.2 CROATIAN DIALECTSe dialectal picture of Croatia is composed of threedialectal groups: Čakavian, Kajkavian and Štokavian(see Figure 2). Dialects belonging to all three dialec-tal groups are spoken throughout the Republic of Croa-tia. All Croatian dialects belong to the Central SouthSlavic diasystem of the Slavic linguistic branch, and onthe South-Slavic territory it comprises part of the di-alectal continuum between the Slovenian type in theNorth-West and the Macedonian-Bulgarian type in theSouth-East. e names of those dialectal groups arebased upon the use of the interrogative pronouns ča,kaj and što ‘what’ (lat. quid). However, on the SouthSlavic territory, this classification is relevant only forCroatian dialects and it results from the needs of theCroatian linguistic community. e Slovenes use thepronoun kaj but the Slovenian language is not a Ka-jkavian dialect. e Bosniaks, Montenegrins, Serbs, aswell as the Bulgarians, Macedonians and Eastern Slavsuse što, but their languages are not Štokavian dialects inthe same sense as the Croatian Štokavian dialect. eSerbs, the Montenegrins and the Bosniaks do not havethis pronominal word as a criterion of dialectal clas-sification. As far as Štokavian dialects are concerned,the archaic šćakavian (the so-called Slavonian) is spokenonly by Croats, Neo-Štokavian ikavian and ijekavian-šćakavian is spoken by Croats and Bosniaks, and Neo-Štokavian ijekavian byCroats in some areas in the widerDubrovnik region, but also by other South Slavic peo-ples. Croats inBurgenland (Austria,Hungary, Slovakia)mostly speak Čakavian, and rarely the Štokavian or Ka-jkavian dialects; Croats in the Italian province ofMolisespeak an archaic Štokavian dialect, andKaraševoCroatsin Romania speak a Torlak dialect.

Due to numerous, oen forcedmigrations, the areal dis-tribution of certain Croatian dialects has changed dras-tically since the Middle Ages. Both Čakavian and Ka-jkavian were historically distributed throughout amuch

wider area, but at present the Štokavian dialect prevails.Prior to migrations, the Čakavian dialects were spokenas far North as the rivers Kupa and Sava, and as far eastas the Una-Dinara-Cetina line. Aer migrations, Čaka-vian dialects were ousted mostly to the coastal regionsand islands, while the Čakavian dialects inland beganto differ according to the degree of Štokavian influence.eKajkavian dialects were also once spokenmuch fur-ther to the East, where the Štokavian prevails today.eČakavian,Kajkavian andŠtokaviandialectal groupsdiffer on all linguistic levels: phonological, morpholog-ical, syntactic and lexical, and each level includes a num-ber of archaisms and innovations specific to a particulardialectal group.

3.3 STANDARDISATION OFCROATIAN LANGUAGEe millennial history of the Croatian language is at-tested to by texts written as early as the end of the 10thor the beginning of the 11th century, the period inwhich the threeCroatian dialects (Čakavian, Štokavian,Kajkavian) began to form. All three Croatian dialectsplayed an important part in the formation of the Croat-ian literary language (various dialectal stylizations) andthe moulding of the Croatian linguistic culture thatled to the Croatian standard language with a Štokavianfoundation.

Did you know that the etymology of theword „cravatte“ (‘tie’) comes from „Croatian“and from French in 17th century it spread

to other languages?

e first clear trends towards the shaping of the Croa-tian standard language became apparent in the 17thcentury, when the majority of the Croatian ethniccommunity – especially aer the grammar and other

53

Page 61: the croatian language in the digital age hrvatski jezik u digitalnom

2: Map of Croatian dialects in the Republic of Croatia

54

Page 62: the croatian language in the digital age hrvatski jezik u digitalnom

works of Bartol Kašić (1575–1650) and a flourish-ing of Renaissance and Baroque literature from Štoka-vian Dubrovnik – recognised the linguistic structureof the Štokavian dialect (firstly with the ikavian jatreflex, but later with the jekavian reflex) as the beststarting point for the construction of a supra-regionalCroatian literary language. Despite the choice of onelinguistic structure in the construction of their stan-dard language, the Croats did not dismiss the achieve-ments of the centuries-old linguistic cultures of vari-ous dialectal stylisations within the Croatian literarylanguage (Kajkavian, Štokavian, Čakavian, hybrid) thathad marked its history within the Croatian ethnic com-munity. Although the standardisation of the languageof the Croats based upon the Štokavian dialect beganvery early, national linguistic unity was only achievedduring the time of the Illyrian national revival (start-ing in 1835), when smaller groups of Croats who haduntil then expressed themselves in the Kajkavian id-iom also accepted the Štokavian Croatian standard lan-guage. roughoutmost of the 20th century, theCroat-ian standard language developed in various South Slavicstate units under various names, and was presentedas a variant of the so-called Croato-Serbian (Serbo-Croatian) language. is was abandoned during thesocio-political changes of 1990.

Different stylisations of the Croatian language wereshaped in diaspora long in the past (e. g., BurgenlandCroatian, Molise Croatian). Croatian written culture ismarked by the use of three alphabets (Glagolitic, Cyril-lic, Latin), and the Latin script has been the foremost ofthe three among the Croats since the 16th century. Itsusage was neither normed nor systematised until 1835,when Ljudevit Gaj gave the Croatian Latin alphabet itsmodern-day form.

3.4 CHARACTERISTICS OF THECROATIAN LANGUAGE

3.4.1 Phonetics, phonology, morphonol-ogy

e phoneme inventory of the Croatian standard lan-guage consists of 5 vowels (a, e, i, o, u) and 25 conso-nants (m, v, n, l, r, j, nj, lj, p, b, f, s, z, c, t, d, ć, đ, š,ž, č, dž, h, k, g). e acoustic and articulatory charac-teristics of the vowels do not change depending on theirplacement (regardless whether in a short, long, accentedor unaccented syllable). In addition to these 5 vowels,there also exist the syllabic r (crn ‘black’) and the diph-thong ie, which is marked in writing as je/ije (djelo, odi-jelo).

e prosodic system consists of 4 accents (two long ac-cents with a descending and ascending tone and twoshort accents with descending and ascending tone) andunaccented post-accentual lengths. e accentual sys-tem of theCroatian standard language is neo-štokavian,although it exists today withmany differentiations fromthe prosodic models codified in the second half of the19th century. Accent location is not fixed to a spe-cific syllable, but the distribution of accents does havesome limitations (e. g., the last syllable of amulti-syllableword cannot in principle be accentuated, descendingaccents are realised only in the initial syllables of non-compound words). ese rules are broken in everydayspeech, especially in large urban centres that are not lo-cated in Neo-štokavian regions (e. g., kontinuitêt / kon-tinuìtēt). Accent and length can have a differentiatingrole as they occasionally differentiate the meaning oflexemes or their wordforms, e. g., gr d (= ‘hail’) : grâd(= ‘town, city’), žènē (Gen. sing.) : žène (Nom. plur.).

In Croatian some words do not have their own accent(clitic), but in an accentual unit proclitics can carry anaccent passed over from an accented word with a de-scending accent in the initial syllable (grâd : grād),

55

Page 63: the croatian language in the digital age hrvatski jezik u digitalnom

while enclitics cannot do this. e transfer of an accentonto a proclitic is becoming ever more rare in everydayspeech, especially in urban centres not located in neo-Štokavian regions.

e Croatian standard language is characterised bya number of phonologically (Nom. sing. sladak :Gen. sing. slatkoga, Nom. sing. dio : Gen. sing. di-jela) and morphonologically conditioned alternations(Nom. sing.majka : Dat. sing.majci, Nom. sing. junak :Voc. sing. junače).

Regional implementation of the Croatian standard lan-guage is oen influenced in speech by dialects locatedin a given region, e. g., in the Čakavian Kvarner regionthe prevalence of the plosive t’ in place of the voicelessafricate ć, or in the northwestern (Kajkavian) region, thenon-differentiation of č – ć and đ – dž.

3.4.2 Morphology

e Croatian standard language differentiates betweenten parts of speech, of which five inflect (nouns, ad-jectives, numbers, pronouns, verbs) and four do notinflect (prepositions, conjunctions, particles, exclama-tions), while adverbs inflect only in comparation.

Grammatical categories that characterise themajority ofdeclinable words are gender (three values: masculine,neuter, feminine), number (two values: singular, plu-ral), case (seven values: nominative, genitive, dative, ac-cusative, vocative, locative, instrumental). Some declin-able words have special categories (e. g., definiteness ismarked on adjectives with a full set of inflectional end-ings; animacy is marked by ending in masculine nounsand adjectives; nouns can be concrete, material, cate-gorial or collective etc.). Words that are conjugated(verbs) are characterised by the categories of: manner(four values: indicative, imperative, conditional, opta-tive), person (three values: 1st, 2nd, 3rd), number (twovalues: singular, plural), voice (two values: active, pas-sive), tense (seven values: present, aorist, imperfect, per-

fect, pluperfect, future 1, future 2). e verbs biti (‘tobe’) and htjeti (‘to will’) are auxiliary in Croatian. Verbsalso have a complicated aspectual system (imperfectiveand perfective with additional subvalues such as inchoa-tivity, iterativity etc.) and they also encode the featureof transitivity. Adjectives and adverbs can take compar-ative forms (three values: positive, comparative, superla-tive). Declension has two main types: noun declension(nouns and indefinite form of adjectives) and pronoun-adjective declension (pronouns, definite form of adjec-tives, numbers). Each noun gender has its own declen-sion (a-type for masculine and neuter gender, e-type forfeminine gender), and there is a special i-type (femininegender nouns).Suffixes for noun declension are shown in Figure 3 andfor adjective-pronoun declension are shown in Figure 4.Words in Croatian are formed by derivation and com-pounding. ere are a few different methods of forma-tion: suffix formation (star-ac), prefix-suffix formation(do-žiot-an), compound non-suffix formation (plači-drug), compound suffix formation (vanjsk-o-politički),coalescence (uz-brdo), formation through compoundabbreviations (Varteks) and conversion (mlada). Suffixformation is the most common.

3.4.3 Vocabulary, phraseology, terminol-ogy

e foundational lexical layer of the Croatian standardlanguage, aside from proto-Slavonic lexical heritage,consists of Štokavian vocabulary with an admixture ofvocabulary from other Croatian dialects or vocabularyinherited from the literary language of various dialec-tal stylisations from older periods (e. g., from Kajka-vian, kukac, hlače, rječnik, or Čakavian, spužva). Asidefrom this, the Croatian language as a whole bears wit-ness to direct and indirect contact with other cultures.e Croatian language stands out among the remainingSouth Slavic languages in significant lexical influence re-ceived from Romance languages (substrate traces of the

56

Page 64: the croatian language in the digital age hrvatski jezik u digitalnom

Noun declension N and G singular N plural

a-type masculine opis, opisa opisia-type neuter sunce, sunca suncae-type feminine žena, žene ženei-type feminine noć, noći noći

3: Noun declension in the Croatian language

Case Masculine Neuter Feminine

Singular

N -i -o -e -aG -og(a) -eg(a) -og(a) -eg(a) -eD -om(u/e) -em(u/e) -om(u/e) -em(u/e) -ojA = N / = G = N -uV = N = N = NL -om(u/e) -em(u/e) -om(u/e) -em(u/e) = DI -im -im -om

Plural

N -i -a -eG -ih -ih -ihD -im(a) -im(a) -im(a)A -e = N = NV = N = N = NL = D = D = DI = D = D = D

4: Adjective-pronoun declension in the Croatian language

57

Page 65: the croatian language in the digital age hrvatski jezik u digitalnom

Dalmatic language, e. g., jarbol, tunj). Italian signifi-cantly influenced the coastal regions of Croatia (espe-cially the parts formerly under Venetian control), whileGerman and, to an extent, Hungarian influenced thecontinental part.

e Church Slavonic literary language le traces inolder historical periods of the Croatian language, andso it did not present a great influence during the time inwhich the standard language was being shaped. Russiandid not leave as a deep mark on Croatian as it did onthe neighbouring Serbian standard language. e influ-ence of the vocabulary of classical languages (Latin andGreek) is omnipresent in Croatian culture, especiallyin intellectual vocabulary, and scientific terminology.During the middle-Croatian period (16th to 18th cen-tury), Turkish loanwords intensively entered theCroat-ian language, especially words related to everyday life. Itis interesting to note that Burgenland Croatian, due toearly migrations, does not have any Turkish loanwords,not even those that are in standard Croatian no longerperceived as foreign words (e. g., bubreg, čizma, jastuk,etc.). In contrast to those loan-words, BurgenlandCroa-tian uses older Croatian words of common Slavic originand is therefore very important for the history of Croa-tian lexical inventory. German and French once hadan influence on Croatian vocabulary, and in the secondhalf of the 20th century, the influence of English hasbeen ever stronger. e Czech language, although notin direct contact, has had a strong influence on Croat-ian vocabulary in several episodes, especially in the 19thcentury in professional terminology enriched by Bo-goslav Šulek (e. g., časopis, kisik, dušik, odik). Duringthe period of Yugoslavia, Croatian was influenced bythe Serbian language, especially because of common fed-eral state administration. Purist tendencies in vocabu-lary came about occasionally from the 16th to the 20thcentury (e. g., Zoranić, Ritter Vitezović, Reljković, theperiod from 1941 to 1945).

Continuity fromancient times to themodern-dayCroa-tian standard language and the participation of three di-alects in the construction of the Croatian standard lan-guage can be seen in its well-developed and rich phrase-ology (e. g., in his 16th century stylised texts, Marulićuses the phraseme zgubiti glas = ‘to be ashamed, tolose face’, while Zoranić uses the phraseme u magnutjeoka = ‘immediately’, which are nearly the same as thephrasemes izgubiti glas andu trenu oka in the Štokavian-structured standard language).

Terminology in specific professional fields began to de-velop as early as the 16th century, confirmed by thenumerous Croatian (mostly multi-lingual) dictionariescompiled from the 16th to the 20th century. In the 19thcentury, German and Czech had especially strong influ-ence on Croatian terminology, and English has todayassumed this role.

3.4.4 Syntax

e Croatian language belongs to a group of languagescharacterised by an SVO syntactic structure (Marijaoli Ivana) and relatively free word order (numerouspermutations of constituents are possible with somelimitations, such as clitic placement). As concerns theinformation structure of sentences, it is a basic rulefor structuring stylistically unmarked discourse that thefirst place is takenby the theme (old information), whichis followed by the rheme (comment, new information).

e subject of a sentence does not have to be explic-itly stated, and its omission is desirable insofar as it isrepeated a number of times within a narrow context.Double-negation is required (Nitko ga nije olio). eagreement of components in gender, number and caseis typical of Croatian sentence structure.

ere are seven cases in the Croatian standard language,and case forms are combined with prepositions (obliga-tory for the locative case). An important characteristicofCroatian verbs is their aspectwhile verb forms also ex-

58

Page 66: the croatian language in the digital age hrvatski jezik u digitalnom

press both tense and modal meaning. Sentence organi-sation can be both coordinated and subordinated (withthe aid of conjunctions or without them). A relativelynew occurrence in the modern language is the commonuse of the Slavonic genitive (Nije olio vina), genitive ex-pressions of possession are avoided in favour of possesiveadjectives (majčina kuća instead of kuća majke), and theuse of preterite tenses is reduced (imperfect, aorist andpluperfect). In modern Croatian passive constructionsare rarer than in the older Croatian language.

3.4.5 Orthography

Although the history of Croatian culture has beenmarked by the use of three scripts (Glagolitic, Cyrillicand Latin script), the Latin script has been the domi-nant script used by Croats since the 16th century. eCroatianLatin alphabetwas not fully standardizeduntil1835, when Ljudevit Gaj gave it its current-day form. Itis composed of 30 characters, of which three are doublecharacters (dž, lj, nj), and the rest are single characters,of which five have diacritics (č, ć, đ, š, ž). In academiccircles, especially in the printing of texts from Croatianwritten heritage, the dual-characters dž, lj and nj, are re-placed by ģ, ļ and ń respectively. e characters q, x, y,w do not exist in the Croatian alphabet originally, al-though they are being used for writing foreign names.e Croatian Latin alphabet is shown in Figure 5.

Croatianorthography is phonological-morphonological,since it presents a confluence of two orthographicprinciples: dominant phonological (e. g., the mark-ing of assimilation) and subordinate morphonological(e. g., podcrtati). Interword separation is logical, andnotgrammatical (as it once was). It is typical of Croatianorthography that the writing of foreign names is notadjusted to their pronunciation or the graphic inven-tory of the Croatian alphabet (e. g., John, not Džon, orWashington, not Vašington).

3.4.6 Onomastics

Croatian names represent important linguistic monu-ments of the linguistic, cultural and social heritage ofthe people who created them. us, both personalnames (anthroponyms) andplace names (toponyms) arean important segment of Croatian linguistic culture.e territory of present-day Croatia, roughly bound bythe river Drava in the North, the river Danube in theEast and the Adriatic Sea in the South, is very pic-turesquely reflected in its complex stratification of ge-ographical names. e complex stratification of Croa-tian toponymy reflects centuries of coexistence of thevarious ethnic groups that have settled on the Easterncoast of the Adriatic and its hinterland throughout his-tory. Centuries of linguistic interpenetration and themerging of various cultural traditions have le an indeli-ble imprint on Croatian toponymy. Furthermore, placenames attestations are frequently the oldest witnesses tothe oldest changes in the Croatian language itself.

Did you know that Croats were the first Slavicnation to bear family names since 12th century?

SinceCroatian developed across religious (pre-christianand christian), cultural and civilisational borders, tracesof bothEast andWest have been le onCroatian names.With regards to personal names, Croatianswere the firstSlavic nation to bear family names (since the 12th cen-tury) along the Adriatic coast due to direct Romancecultural influence. e oldest layer of Croatian namesis founded upon proto-Slavic name forms that are fol-lowing common Indo-European name formation pat-terns. e patronymics form the basis for the largestpart of inventory of family names but, unlike in Rus-sian, they are not productive anymore and remain un-changed as frozen family names that are incorporated ininflectional system as nouns. In contrast to theCroatian

59

Page 67: the croatian language in the digital age hrvatski jezik u digitalnom

Capital letters

A B C Č Ć D DŽ Đ E F G H I J KL LJ M N NJ O P R S Š T U V Z Ž

Lowercase letters

a b c č ć d dž đ e f g h i j kl lj m n nj o p r s š t u v z ž

5: The Croatian Latin alphabet

toponomastic system, where we found almost no Turk-ish influence, manyCroatian family names were formedupon Turkish loan-words with Croatian suffixes, sincemost family names in Croatia were created aer theCouncil of Trent in the 16th century, at the timewhen alarge portion of Croatian lands was under Turkish rule.

3.5 THE CROATIAN STANDARDLANGUAGE AND OTHERŠTOKAVIAN-STRUCTUREDLANGUAGESe four national languages, Croatian, Serbian, and re-cently Bosnian and Montenegrin, all share Štokavianas structural basis, however the traditions and super-structures of these languages are fairly different. Whatis specific to Croatian’s linguistic history and cultureamong other South Slavic languages is the relation-ship between its three dialects (Kajkavian, Čakavian,Štokavian), which continually enriches the Štokavian-structured Croatian standard language. Because ofdifferent starting points (the non-existence of a basic,common standard) and traditions in language cultiva-tion and standardisation, the disunity of neo-Štokavianstructure and differences in linguistic superstructure,one monolithic standard language was never formedduring the existence of the Yugoslavian states, althoughthere were serveral attempts of political imposition

of the common name (Serbo-Croato-Sloenian duringthe Kingdom of Yugoslavia; Serbo-Croatian or Croato-Serbian,Croatian or Serbian during the communist Yu-goslavia). During the SecondWorldWar and a few yearslater all official documents in Yugoslavia were publishedin four official languages (Croatian, Macedonian, Ser-bian, Slovenian), but soon a lot of political effort wasput again into convergence of Croatian and Serbian.Despite all attempts to recognise the official existenceof Croatian as a language on its own, the forcing of uni-fied terminology, vocabulary, orthography and otherlinguistic norms in Yugoslavia, led to the official recog-nition of one standard language (Serbo-Croatian) withtwo variants (eastern or Serbian and western or Croat-ian). e reaction from Croatia came in the form ofDeclaration on the Position of the Croatian Languagethat openly advocated the recognition of the indepen-dent Croatian language and was unanimously signedin 1967 by leading scientific, cultural and educationalinstitutions as well as leading intellectuals throughoutCroatia who took a great risk with such an open politi-cal move in communist times.

In the past 20 years, the four Štokavian-structured stan-dard languages have developed autonomously as na-tional standard languages in a naturally diverging way,and no agreement or coordination exists concerningtheir norming, which has increased differences betweenthem.

60

Page 68: the croatian language in the digital age hrvatski jezik u digitalnom

3.6 LINGUISTIC CULTIVATIONIN CROATIAe Croatian Language Council was founded by a de-cision of the Ministry of Science, Education and Sporttaken on 14thApril 2005. Its basic task is the systematicand scientific care of the Croatian standard language.e specific tasks of the Council are:

‚ to tend to the Croatian standard language;

‚ to discuss current dilemmas and open issues in theCroatian standard language;

‚ to warn of cases of infractions of the constitutionaldecree on the position of Croatian as the official lan-guage of the Republic of Croatia;

‚ to promote the culture of the Croatian standard lan-guage in written and oral communication;

‚ to tend to the status and role of the Croatian stan-dard language in light of Croatia’s integration intothe European Union;

‚ to make decisions on further standardisation pro-cesses of the Croatian standard language;

‚ to take care of language issues and set principles forthe orthographic standardization.

e Croatian Language Council meets regularly anddraws conclusions aer thorough debate. e Insti-tute of Croatian Language and Linguistics hosts theCouncil, provides technical and administrative supportas well as linguistic expertise when necessary.e Institute of Croatian Language and Linguistics [9]is the central Croatian institution for the research ofthe Croatian language, and one department of the In-stitute (the Croatian Standard Language Department)is dedicated to the description of the Croatian standardlanguage, with special attention paid to linguistic cul-ture (e. g., work on offering linguistic advice to the pub-lic and the writing of language handbooks). Advice on

proper language usage and linguistic expertise are per-manent duties of the Institute. Advice is given by phone,e-mail and inwritten form. Furthermore, the answers tothe most frequently asked questions are available on theLanguage Advice Portal [10] on the Institute web site.

The basic task of the Croatian Language Councilis the systematic and scientific care of the

Croatian standard language.

e Institute’s STRUNA project [11], which developsthe Croatian professional terminology, deserves a spe-cial mention. e goal of this project is to establish asystem of coordinating terminological work in all pro-fessional fields in Croatia, and in doing so contributeto the improvement of the quality and effectiveness ofhigher education and scientific research work throughthe creation of unified and verified terminology that canbe used by experts in all fields, as well as by interestedparticipants from the general public. e establishmentof a research terminology network and scientific coop-eration between institutions that deal in various aspectsof terminological work is also planned.

Today English loan words are commonin the informal language but much less so in

the formal or written language.

Besides this, other Croatian scientific institutions (sev-eral universities with their departments of Croatian lan-guage and literature) and cultural institutions (suchas Matica hrvatska) also take part in the care of theCroatian language. Public media, such as state radio-television and some newspaper publishers, have well-developed proofreading services for the Croatian stan-dard language and pay special attention to the qualityof language they use in their public text production.

61

Page 69: the croatian language in the digital age hrvatski jezik u digitalnom

3.7 LANGUAGE IN EDUCATIONCroatian is official in all primary and secondary schools,except in regions with national minority residents.However, it is not defined as obligatory for the use atuniversities. ere is a pronounced tendency in Croa-tia, especially in so-called “hard sciences” to teach in theEnglish language. ere were agreeable opinions that itcould be functional and useful, but also harmful and un-acceptable not to teach in the Croatian language at uni-versities. It would have devastating effects for the devel-opment of the Croatian scientific terminology and oc-cupational phraseology. erefore “e Croatian Lan-guage Council” advised the Ministry to legally definethe language usage at higher education.

In primary and secondary schools, Croatian languageand literature is taught as a subject, and takes up consid-erable space in the curriculum. As part of this subject,Croatian grammar, vocabulary and literature is studied,and written and verbal expression in Croatian is devel-oped. e PISA test, which tests the skills of pupilsat the global level, has been executed in Croatia since2006, and the first results of testing showed that Croa-tian 15-year-olds took 26th place of world countries,placed ahead of ten EuropeanUnionmember states andthe United States of America.

Besides Croatian, in primary and secondary educationit is obligatory to study at least one foreign languagefrom the fourth grade. However, English (only rarelyFrench or German) is oen taught already in kinder-gartens. English is usually the first foreign language inprimary education. e most widespread second for-eign language is German, then Italian and French. Insecondary education Russian and Spanish are occasion-ally taught as second or third foreign languages. LatinandOldGreek are taught in all classics-program schoolsthat start from the fih grade of primary school. Fur-thermore, Latin is still obligatory in all humanistic sec-ondary schools. In a Jewish minority school (which

is open to general public), it is also possible to studyHebrew. Education on minority languages, from thekindergarten level to secondary education, is availableand financed by the Croatian government for the Ser-bian, Czech, Hungarian and Italian minority.

3.8 INTERNATIONAL ASPECTSe use of the Croatian standard language in countriesin the region is regulated by the laws of these coun-tries. e status of the Croatian standard language asone of the official languages of neighbouring Bosnia andHerzegovina is especially important, and soCroatian in-stitutions pay special attention to cooperation with sci-entific and cultural institutions of the Croatian nationin Bosnia and Herzegovina. e Republic of Croatia’scultural institutions establish cooperation with manyCroatian diasporic institutions throughout the world.

When Croatia joins the European Union in2013, the Croatian language will become the

24th official language of the EU.

Lectures of Croatian language are organised in schoolsabroad for the children of Croatian citizens who resideeither temporarily or permanently in other countries.e Croatian language is taught at many foreign insti-tutions and Slavic studies centres (there are 36 officialexchange instructorships for the Croatian language andliterature aswell as 2 centres forCroatian studies inAus-tralia and Canada in the jurisdiction of and financed bytheMinistry of Science, Education and Sport of the Re-public of Croatia). A number of centres for the studyof Croatian as a second or foreign language operate inCroatia, the best-known of which is Croaticum [12].

62

Page 70: the croatian language in the digital age hrvatski jezik u digitalnom

3.9 CROATIAN ON THEINTERNETAccording to the statistical information of the CroatianBureau of Statistics, the use of information and commu-nications technology in enterprises and households areshown in Figures 6 and 7.e most-visited Croatian websites are: net.hr (a news,sports, entertainment and events portal), index.hr (gen-eral web portal, info, services, news, sports, entertain-ment, automotive, gastronomy), jutarnji.hr (thewebsiteof the daily newspaper “Jutarnji list”), 24sata.hr (websiteof the daily newspaper “24 sata”), tportal.hr (newsportalof HT, Croatian Telecomm), njuskalo.hr (“Njuškalo”advertisments portal), vecernji.hr (website of the dailynewspaper “Večernji list”), forum.hr (the largest Croa-tian web forum, discussing society, culture, entertain-ment, etc.). Seven daily Croatian newspapers publishtheir articles on their own dedicated portals in additionto their paper versions.e Institute of Croatian Language and Linguisticsmaintains the web page about Croatian that features a

comprehensive list of mono- and multilingual dictio-naries, grammars and orthographies. At the Faculty ofHumanities and Social Sciences a similar web page ismaintained [13]. At the same Faculty a portal on Croa-tian Language Technologies [14] is maintained since1999.

The growing importance of the Internet isimportant for Language Technologies.

eCroatian-languageWikipedia was founded in 2003and has 108,528 articles (as of 2012-05-24), being the30th Wikipedia by number of official articles.

Access to resources in Croatian has been made easier inrecent years by Croatian institutions and organisationsundergoing the digitisation process (including signifi-cant projects supported by Ministry of Science, Educa-tion and Sports and Ministy of Culture for digitisingCroatian cultural heritage) which has increased the vis-ibility of the Croatian language among internet sources.

63

Page 71: the croatian language in the digital age hrvatski jezik u digitalnom

Usage of information and communication technologies (ICT) in enterprises (%)

2008 2009 2010

Computer usage 98 98 97Internet access 97 95 95Web site 64 57 61Usage of financial and banking services 84 84 85E-government usage 56 61 63

6: ICT in enterprises

Households equipped with information and communication technologies (ICT) (%)

2008 2009 2010

Personal computer 53 55 60Internet access 45 50 57Mobile phone 81 82 –

7: ICT in households

64

Page 72: the croatian language in the digital age hrvatski jezik u digitalnom

4

LANGUAGE TECHNOLOGY SUPPORT FORCROATIAN

Language technologies are used to develop sowaresystems designed to handle human language and aretherefore oen called “human language technologies”.Human language comes in spoken and written forms.While speech is the oldest and in terms of human evo-lution the most natural form of language communica-tion, complex information and most human knowledgeis stored and transmitted through the written word.Speech and text technologies process or produce thesedifferent forms of language, using dictionaries, rulesof grammar, and semantics. is means that languagetechnology (LT) links language to various forms ofknowledge, independently of themedia (speech or text)in which it is expressed. Figure 1 illustrates the LT land-scape.When we communicate, we combine language withother modes of information and communication media– for example speaking can involve gestures and facialexpressions. Digital texts link to pictures and sounds.Movies may contain language in spoken and writtenform. Inotherwords, speech and text technologies over-lap and interact with other multimodal communicationand multimedia technologies.In this section, we will discuss the main applicationareas of language technology, i. e., language checking,web search, speech interaction, and machine transla-tion. ese applications and basic technologies include:

‚ spelling correction

‚ authoring support

‚ computer-assisted language learning

‚ information retrieval

‚ information extraction

‚ text summarisation

‚ question answering

‚ speech recognition

‚ speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. e in-terested reader is referred to the following references:[16, 17, 18, 19].Before discussing the above application areas, we willbriefly describe the architecture of a typical LT system.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. While such applications tend to becomplex, Figure 2 shows a highly simplified architectureof a typical text processing system. e first three mod-ules handle the structure andmeaning of the text input:

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, and so on.

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure.

65

Page 73: the croatian language in the digital age hrvatski jezik u digitalnom

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

8: Language technologies

3. Semantic analysis: performs disambiguation (i. e.,computes the appropriate meaning of words in agiven context); resolves anaphora (i. e., which pro-nouns refer to which nouns in the sentence); rep-resents the meaning of the sentence in a machine-readable way.

Aer analysing the text, task-specific modules can per-form other operations, such as automatic summarisa-tion and database look-ups.In the remainder of this section, we firstly introducethe core application areas for language technology, andfollow this with a brief overview of the state of LT re-search and education today, and a description of pastand present research programmes. Finally, we presentan expert estimate of core LT tools and resources forCroatian in terms of various dimensions such as avail-ability, maturity and quality. e general situation of

LT for theCroatian language is summarised inFigure 14(p. 78) at the end of this chapter. is table lists all toolsand resources that are boldfaced in the text. LT supportforCroatian is also compared to other languages that arepart of this series.

4.2 CORE APPLICATION AREASIn this section, we focus on themost important LT toolsand resources, and provide an overview of LT activitiesin Croatia.

4.2.1 Language Checking

Anyone who has used a word processor such as Mi-crosoWord knows that it has a spell checker that high-lights spelling mistakes and proposes corrections. efirst spelling correction programs compared a list of ex-tracted words against a dictionary of correctly spelled

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

9: A typical text processing architecture

66

Page 74: the croatian language in the digital age hrvatski jezik u digitalnom

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

10: Language checking (top:statistical; bottom:rule-based)

words. Today these programs are farmore sophisticated.Using language-dependent algorithms for grammaticalanalysis, they detect errors related tomorphology (e. g.,plural formation) as well as syntax-related errors, suchas a missing verb or a conflict of verb-subject agreement(e. g., she *write a letter). However, most spell checkerswill not find any errors in the following text [66]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Handling these kinds of errors usually requires an analy-sis of the context. For example: deciding if an Croatiannoun should be written with capital first letter (femalepersonal name) or not (common noun), as in:

‚ Slatka je ova višnja. [is cherry is sweet.]

‚ Slatka je ova Višnja. [is Cherry is sweet.]

is type of analysis either needs to draw on language-specific grammars laboriously coded into the sowareby experts, or on a statistical language model. In thiscase, a model calculates the probability of a particularword as it occurs in a specific position (e. g., betweenthe words that precede and follow it). For example: jazizmeđu (‘gap between’) is muchmore probable word se-quence than jaz generacija (‘generation gap’). A statisti-cal language model can be automatically created by us-ing a large amount of (correct) language data, a text cor-pus. Most of these two approaches have been developed

around data from English. Neither approach can trans-fer easily to Croatian because the language has a flexi-ble word order and rich inflection that contribute abun-dantly to the data sparsness problem in such systems.Language Checking is not limited to word processors;it is also used in “authoring support systems”, i. e., so-ware environments in which manuals and other typesof technical documentation for complex IT, healthcare,engineering and other products, are written. To off-set customer complaints about incorrect use and dam-age claims resulting from poorly understood instruc-tions, companies are increasingly focusing on the qual-ity of technical documentation while targeting the in-ternational market (via translation or localisation) atthe same time. Advances in natural language process-ing have led to the development of authoring supportsoware, which helps the writer of technical documen-tation to use vocabulary and sentence structures that areconsistentwith industry rules and (corporate) terminol-ogy restrictions, but such systems are not yet availablefor Croatian.

Language checking is not limited to wordprocessors but also applies to authoring systems.

Although the research on computational modelsof inflectional morphology existed in 1980s thefirst industry-strength spelling checker for CroatianHrvatski računalni pravopis has been published in 1996[8]. Soon aer it was bought by Microso and today

67

Page 75: the croatian language in the digital age hrvatski jezik u digitalnom

it represents the integral part of Croatian MS Officeproofing tools and it is widely used. Other spellingcheckers have also been developed by several privatecompanies, but none of them has been so success-ful. An on-line Croatian Academic Spelling Checker(Hascheck) [21] exists since 1994 and is still in use. Anopen source spelling checker for Croatian also exists,it can be used with OpenOffice on different operatingsystems and is based on Ispell/Aspell. ese programsare based on the very large lexicon of correct wordformswhich have two drawbacks: 1) strings that representcorrect wordforms appearing in a wrong co text; 2) theinability to distinguish between real spelling errors andwordforms which are correct, but which are unknownto the lexicon. Besides spell checkers and authoring sup-port, Language Checking is also important in the fieldof computer-assisted language learning and is appliedto automatically correct queries sent to Web Search en-gines, e. g., Google’s Did you mean … suggestions.

4.2.2 Web Search

Searching theWeb, intranets or digital libraries is proba-bly themostwidely used yet largely underdeveloped lan-guage technology application today. e Google searchengine, which started in 1998, now handles about80% of all search queries [22]. Since 2004, the verbguglati/googlati and its derivatives (iz-/na-/pre-/pro-/u-)guglati/(iz-/na-/pre-/pro-/u-)googlati is used in Croat-ian, even though it has not made its way into printeddictionaries (even more complex derivatives such asugugljiv ‘googlable’ are recorded). e Google searchinterface and results page display has not significantlychanged since the first version. However, in the currentversion, Google offers spelling correction formisspelledwords and incorporates basic semantic search capabili-ties that can improve search accuracy by analysing themeaning of terms in a search query context [23]. Withthe help of this algorithm it also started to cover some of

the wordforms in which Croatian lexemes could appearin texts. Unlike the, e. g., English nouns where only fourwordforms are possible for a noun lexeme (hand, hand’s,hands, hands’) in Croatian theoretically it can appearin 14 different wordforms, but they are represented onaverage with 10 different types (ruka, ruke, ruci, ruku,rukom, rukama…). Google can retrieve forms like ruka,ruke, but ruci is still not connected to the lemma ruka.ere is room for improvementwhenGoogle has to dealwith inflectionally rich languages where lexemes appearin many different wordforms. e Google success storyshows that a large volume of data and efficient indexingtechniques can deliver satisfactory results using amainlystatistical approach to language processing, but they alsodepend heavily on the language structure.

The next generation of search engineswill have to include much more sophisticated

language technology.

Formore sophisticated information requests, it is essen-tial to integrate deeper linguistic knowledge to facilitatetext interpretation. Experiments using lexical resourcessuch as machine-readable thesauri or ontological lan-guage resources (e. g., WordNet for English or CroatianWordnet, CroWNforCroatian) have demonstrated im-provements in finding pages using synonyms of the orig-inal search terms, such as nuklearna energija and atom-ska energija (nuclear energy and atomic energy) or evenmore loosely related terms.e next generation of search engines will have to in-clude much more sophisticated language technology,especially to deal with search queries consisting of aquestion or other sentence type rather than a list of key-words. For the query, Give me a list of all companiesthat were taken over by other companies in the last fiveyears, a syntactic as well as semantic analysis is required.e system also needs to provide an index to quickly re-

68

Page 76: the croatian language in the digital age hrvatski jezik u digitalnom

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

11: Web search

trieve relevant documents. A satisfactory answer will re-quire syntactic parsing to analyse the grammatical struc-ture of the sentence and determine that the user wantscompanies that have been acquired, rather than compa-nies that have acquired other companies. For the expres-sion last five years, the system needs to determine therelevant range of years, taking into account the presentyear. e query then needs to bematched against a hugeamount of unstructured data to find the pieces of infor-mation that are relevant to the user’s request. is pro-cess is called information retrieval, and involves search-ing and ranking relevant documents. To generate a listof companies, the system also needs to recognise a par-ticular string of words in a document represents a com-pany name, using a process called named entity recogni-tion. A more demanding challenge is matching a queryin one language with documents in another language.Cross-lingual information retrieval involves automati-cally translating the query into all possible source lan-guages and then translating the results back into theuser’s target language.

Now that data is increasingly found in non-textual for-mats, there is a need for services that deliver multime-dia information retrieval by searching images, audio filesand video data. In the case of audio and video files,a speech recognition module must convert the speechcontent into text (or into a phonetic representation)that can then be matched against a user query.

For inflectional languages like Croatian it is importantto be able to search for all the inflectional forms of aword at once, instead of having to enter each differ-ent form separately. is can be done with the aid ofthe Croatian Lemmatisation Server that has been devel-oped at the Department of Linguistics, Faculty of Hu-manities and Social Sciences at the University of Za-greb and is freely accessible [24] providing an interfaceto the Croatian Morphological Lexicon, a comprehen-sive full wordforms database. It contains over 110,000lexemes yielding over 4 million inflectional wordformswhere each entry contains lemma, wordform and fullMSD tag and it is MULTEXT East [25] compliant.

69

Page 77: the croatian language in the digital age hrvatski jezik u digitalnom

In 2009 as a result of a joint Flemish-Croatian projectCADIAL [26], the governmental agency HIDRA en-abled the public web access to all Croatian legislativedocuments using the inflectionally sensitive search en-gine [27]. is engine also enables cross-lingual docu-ment retrieval since all documents are indexedwith EU-ROVOCdescriptors thus allowing the usage of EnglishEUROVOC descriptors in queries.

4.2.3 Speech Interaction

Speech interaction is one of many application areas thatdependon speech technology, i. e., technologies for pro-cessing spoken language. Speech interaction technol-ogy is used to create interfaces that enable users to in-teract in spoken language instead of using a graphicaldisplay, keyboard and mouse. Today, these voice userinterfaces (VUI) are used for partially or fully auto-mated telephone services provided by companies to cus-tomers, employees or partners. Business domains thatrely heavily on VUIs include banking, supply chain,public transportation, and telecommunications. Otheruses of speech interaction technology include interfacesto car navigation systems and the use of spoken languageas an alternative to the graphical or touchscreen inter-faces in smartphones.Speech interaction technology comprises four tech-nologies:

1. Automatic speech recognition (ASR) determineswhich words are actually spoken in a given sequenceof sounds uttered by a user.

2. Natural language understanding analyses the syntac-tic structure of a user’s utterance and interprets it ac-cording to the system in question.

3. Dialogue management determines which action totake given the user input and system functionality.

4. Speech synthesis (text-to-speech or TTS) trans-forms the system’s reply into sounds for the user.

One of the major challenges of ASR systems is to ac-curately recognise the words a user utters. is meansrestricting the range of possible user utterances to alimited set of keywords, or manually creating languagemodels that cover a large range of natural language ut-terances. Using machine learning techniques, languagemodels can also be generated automatically from speechcorpora, i. e., large collections of speech audio files andtext transcriptions. Restricting utterances usually forcespeople to use the voice user interface in a rigid way andcan damage user acceptance; but the creation, tuningand maintenance of rich language models will signifi-cantly increase costs. VUIs that employ language mod-els and initially allow a user to express their intent moreflexibly – prompted by a How may I help you? greeting– tend to be automated and are better accepted.Companies tend to use utterances pre-recorded by pro-fessional speakers for generating the output of the voiceuser interface. For static utterances where the word-ing does not depend on particular contexts of use orpersonal user data, this can deliver a rich user experi-ence. But more dynamic content in an utterance maysuffer from unnatural intonation because different partsof audio files have simply been strung together. roughoptimisation, today’s TTS systems are getting better atproducing natural-sounding dynamic utterances.

Speech interaction is the basis for creatinginterfaces that allow a user to interact withspoken language instead of a graphical

display, keyboard and mouse.

Interfaces in speech interaction have been considerablystandardised during the last decade in terms of their var-ious technological components. ere has also beenstrong market consolidation in speech recognition andspeech synthesis. enationalmarkets in theG20 coun-tries (economically resilient countries with high popu-lations) have been dominated by just five global play-

70

Page 78: the croatian language in the digital age hrvatski jezik u digitalnom

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

12: Speech-based dialogue system

ers, withNuance (USA) andLoquendo (Italy) being themost prominent players in Europe. In 2011,Nuance an-nounced the acquisition of Loquendo, which representsa further step in market consolidation.

Although the Croatian diphone base was developedwithin the MBROLA [28] project in 1998 in whichthe Department of Phonetics, Faculty of Humanitiesand Social Sciences, University of Zagreb participated,up to now, there has been no commercial applicationof Croatian TTS or ATS systems developed in Croa-tia. Research in this field has been conducted also atthe Faculty of Electrical Engineering andComputing ofthe same university [29] as well as at the University ofRijeka where a strong group works on the developmentof resources and tools for speech processing of Croatian[3, 31, 32].

Looking ahead, there will be significant changes, due tothe spread of smartphones as a new platform for man-aging customer relationships, in addition to fixed tele-phones, the Internet and e-mail. is will also affecthow speech interaction technology is used. In the longterm, there will be fewer telephone-based VUIs, andspoken language apps will play a far more central roleas a user-friendly input for smartphones. is will belargely driven by stepwise improvements in the accu-racy of speaker-independent speech recognition via thespeech dictation services already offered as centralisedservices to smartphone users.

4.2.4 Machine Translation

e idea of using digital computers to translate naturallanguages can be traced back to 1946 and was followedby substantial funding for research during the 1950s andagain in the 1980s. Yetmachine translation (MT) stillcannot meet its initial promise of across-the-board au-tomated translation.

At its basic level, Machine Translationsimply substitutes words in one natural language

with words in another language.

e most basic approach to machine translation is theautomatic replacement of the words in a text writtenin one natural language with the equivalent words ofanother language. is can be useful in subject do-mains that have a very restricted, formulaic languagesuch as weather reports. However, in order to produce agood translation of less restricted texts, larger text units(phrases, sentences, or even whole passages) need to bematched to their closest counterparts in the target lan-guage. e major difficulty is that human language isambiguous. Ambiguity creates challenges on multiplelevels, such as word sense disambiguation at the lexicallevel (a jaguar is a brand of car or an animal) or the as-signment of the prepositional phrases on the syntacticlevel, e. g., as in:

71

Page 79: the croatian language in the digital age hrvatski jezik u digitalnom

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

13: Machine translation (left:statistical; right:rule-based)

‚ Policajac je uočio čovjeka bez teleskopa.[e policeman spotted a man without a telescope.]

‚ Policajac je uočio čovjeka bez pištolja.[e policeman spotted a man without a pistol.]

One way to build an MT system is to use linguis-tic rules. For translations between closely related lan-guages, a translation using direct substitution may befeasible in cases such as the above example. However,rule-based (or linguistic knowledge-driven) systems of-ten analyse the input text and create an intermediarysymbolic representation fromwhich the target languagetext can be generated. e success of these methods ishighly dependent on the availability of extensive lex-icons with morphological, syntactic, and semantic in-formation, and large sets of grammar rules carefully de-signed by skilled linguists. is is a very long and there-fore costly process.In the late 1980s when computational power increasedand became cheaper, interest in statistical models formachine translation began to grow. Statistical modelsare derived from analysing bilingual text corpora, paral-lel corpora, such as the Europarl parallel corpus, whichcontains the proceedings of the European Parliament in21European languages or JRCAcquis parallel corpus in22 European languages [67]. Given enough data, statis-tical MT works well enough to derive an approximatemeaning of a foreign language text by processing paral-lel versions and finding plausible patterns of words. Un-

like knowledge-driven systems, however, statistical (ordata-driven) MT systems oen generate ungrammati-cal output. Data-driven MT is advantageous becauseless human effort is required, and it can also cover spe-cial particularities of the language (e. g., idiomatic ex-pressions) that are oen ignored in knowledge-drivensystems. Regarding the European languages, acceptabletranslations can be obtained for English and the Ro-mance languages, but the quality is downgraded sub-stantially for Germanic, Slavic, Finno-Ugric and Balticlanguages [34].

Machine Translation is particularlychallenging for Slavic languages because oftheir free word order, inflectional richness and

long distance dependencies.

e strengths and weaknesses of knowledge-driven anddata-drivenmachine translation tend to be complemen-tary, so that nowadays researchers focus on hybrid ap-proaches that combine both methodologies. One suchapproach uses both knowledge-driven and data-drivensystems, together with a selection module that decideson the best output for each sentence. However, resultsfor sentences longer than, say, 12 words, will oen befar from perfect. A more effective solution is to com-bine the best parts of each sentence from multiple out-puts; this can be fairly complex, as corresponding parts

72

Page 80: the croatian language in the digital age hrvatski jezik u digitalnom

of multiple alternatives are not always obvious and needto be aligned.

For Croatian, MT is particularly challenging. e freeword order and extensive inflection is a challenge forgenerating words with proper endings that mark gram-matical categories of gender, case, number, mood, tense,etc. Also the required agreement in all these categoriesbetween e. g., attributes and their nouns or only in num-ber and gender for subject and predicate represent addi-tional challenge.

Although the pioneering workshop on machine trans-lation was organised at the University of Zagreb, Fac-ulty of Humanities and Social Sciences by Željko Bujasand Bulcsú László as early as 1959 [35], no serious re-search on MT for Croatian happened until the begin-ning of 21st century. e nationally funded project “In-formation Technology in Translation and e-Learningof Croatian” [36] started in 2007 with the goal to in-vestigate the prerequisites in building MT systems fortranslation into and from Croatian. Starting in 2010several EC co-funded projects were undertaken to ad-vance research and development of machine transla-tion for under-resourced languages, includingCroatian.ese projects – ICT-PSP project LetsMT! [37] andFP7 project ACCURAT [38] – are developing inno-vative methods for making it easier to gather data forMT and to create customized MT systems for differ-ent domains and usage scenarios. In both projects thegroup from the Faculty of Humanities and Social Sci-ences, University of Zagreb is taking part.

eACCURATproject [39] researches novel methodsthat exploit comparable corpora to compensate for theshortage of linguistic resources to improve MT qual-ity for under-resourced languages and narrow domains[40]. e ACCURAT project’s target is to achievestrong improvement in translation quality for a numberof newEUofficial languages and languages of associatedcountries (Croatian, Estonian, Greek, Latvian, Lithua-

nian and Romanian), and propose novel approaches foradapting existing MT technologies to specific narrowdomains, significantly increasing language and domaincoverage of automated translation.

e LetsMT! project [41] builds an innovative onlinecollaborative platform for data sharing and MT genera-tion. is cloud-based platform provides all categoriesof users with an opportunity to upload their proprietaryresources to the repository and receive a tailored statis-tical MT system trained on such resources. e lattercan be sharedwith other userswho can exploit them fur-ther on. e translation services of the LetsMT! projectcan be used in several ways: through the web portal,through a widget provided for free inclusion in a web-page, through browser plug-ins, and through integra-tion in computer-assisted translation (CAT) tools anddifferent online and offline applications.

Google Translate has offered translations to and fromCroatian since 2008. e quality of the translations wasrather poor in the beginning, but is getting better asmore and more parallel Croatian-English data is avail-able on-line.

ere is still a huge potential for improving the qual-ity of MT systems. e challenges involve adapting lan-guage resources to a given subject domain or user area,and integrating the technology into workflows that al-ready have term bases and translation memories. An-other problem is that most of the current systems areEnglish-centred and only support a few languages fromand into Croatian. is leads to friction in the trans-lation workflow and forces MT users to learn differentlexicon coding tools for different systems.

Evaluation campaigns help to compare the quality ofMT systems, the different approaches and the statusof the systems for different language pairs. Figure 14(p. 33), whichwas prepared during theECEuromatrix+project, shows the pair-wise performances obtained for22 of the 23 official EU languages (Irish was not com-

73

Page 81: the croatian language in the digital age hrvatski jezik u digitalnom

pared). e results are ranked according to a BLEUscore, which indicates higher scores for better transla-tions [33]. A human translator would normally achievea score of around 80 points.

ebest results (shown in green andblue)were achievedby languages which benefit from considerable researchefforts, within coordinated programs, and from the ex-istence of many parallel corpora (e. g., English, French,Dutch, Spanish, German), the worst (in red) by lan-guages that are very different fromother languages (e. g.,Hungarian, Maltese, Finnish).

4.2.5 Other application areas

Building language technology applications involves arange of subtasks that do not always surface at the levelof interaction with the user, but they provide significantservice functionalities “behind the scenes” of the systemin question. ey all form important research issuesthat have now evolved into individual sub-disciplines ofcomputational linguistics. uestion answering, for ex-ample, is an active area of research for which annotatedcorpora have been built and scientific competitions havebeen initiated. e concept of question answering goesbeyondkeyword-based searches (inwhich the search en-gine responds by delivering a collection of potentiallyrelevant documents) and enables users to ask a concretequestion to which the system provides a single answer.For example:

Question: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

While question answering is obviously related to thecore area of web search, it is nowadays an umbrella termfor such research issues as which different types of ques-tions exist, and how they should be handled; how a setof documents that potentially contain the answer can be

analysed and compared (do they provide conflicting an-swers?); and how specific information (the answer) canbe reliably extracted from a document without ignoringthe context.

Language technology applications oftenprovide significant service functionalities behind

the scenes of larger software systems.

uestion answering is in turn related to informationextraction (IE), an area that was extremely popular andinfluential when computational linguistics took a statis-tical turn in the early 1990s. IE aims to identify spe-cific pieces of information in specific classes of docu-ments, such as the key players in company takeovers asreported in newspaper stories. Another common sce-nario that has been studied is reports on terrorist inci-dents. e task here consists of mapping appropriateparts of the text to a template that specifies the perpe-trator, target, time, location and results of the incident.Domain-specific template-filling is the central charac-teristic of IE, which makes it another example of a “be-hind the scenes” technology that forms a welldemar-cated research area, which in practice needs to be em-bedded into a suitable application environment.In 2009 the Croatian Newswire Agency (HINA) [42]started to develop a system for (pre)processing of theirnews streams that included lemmatisation, named en-tity recognition [68] and classification, classification ofnews to a predefined topic schema and keyword extrac-tion. is system was developed jointly by the Facultyof Electrical Engineering and Computing [43] and theFaculty of Humanities and Social Sciences, both fromthe University of Zagreb.Text summarisation and text generation are two bor-derline areas that can act either as standalone applica-tions or play a supporting role. Summarisation attemptsto give the essentials of a long text in a short form, and

74

Page 82: the croatian language in the digital age hrvatski jezik u digitalnom

is one of the features available in Microso Word. Itmostly uses a statistical approach to identify the “im-portant” words in a text (i. e., words that occur very fre-quently in the text in question but less frequently in gen-eral language use) and determine which sentences con-tain the most of these “important” words. ese sen-tences are then extracted and put together to create thesummary. In this very common commercial scenario,summarisation is simply a form of sentence extraction,and the text is reduced to a subset of its sentences. Analternative approach, for which some research has beencarried out, is to generate brand new sentences that donot exist in the source text.

For the Croatian language, research in most texttechnologies is much less developed than for

other European languages.

is requires a deeper understanding of the text, whichmeans that so far this approach is far less robust. On thewhole, a text generator is rarely used as a stand-alone ap-plicationbut is embedded into a larger soware environ-ment, such as a clinical information system that collects,stores andprocesses patient data. Creating reports is justone of many applications for text summarisation. Noneof these technologies exist for Croatian apart from iso-lated experiments that have been performed on textsummarisation [44] and generation [45].

4.3 EDUCATIONALPROGRAMMESLanguage technology is a very interdisciplinary fieldthat involves the combined expertise of linguists, com-puter scientists, mathematicians, philosophers, psy-cholinguists, and neuroscientists among others. As a re-sult, it has not acquired a clear, independent existence

in the Croatian higher education system as an inde-pendent subject of studying. However, at the Depart-ment of Linguistics, Faculty of Humanities and SocialSciences the Algebraic linguistic approaches have beenstudied continuously since 1950s, and it was during theBologna reform in higher education in 2005 that theLanguage Technologies topics were collected togetherin the special study direction of Computational Lin-guistics at the two-yearMaster’s programme in Linguis-tics at the same department. A similar programme waslaunched at the University of Zadar in 2010.

4.4 NATIONAL PROJECTS ANDINITIATIVESere are only about 5.5million people speakingCroat-ian, and this is not enough to sustain costly developmentof new commercial products. It costs just as much tobuild language resources and tools for Croatian as forlanguages with hundreds of millions of speakers. As aresult, the number of commercial companies in the lan-guage technology industry in Croatian is close to zero.e role of the main funder of language technology re-search was partially taken by the state, but certainly notto the extent necessary to develop all the resources andtools needed.

Did you know that the first usage of a computerparallel corpus in contrastive linguistic in the

history of linguistics was done in Zagreb in 1968?

In Croatia activities for collecting language resources,i. e., computer corpora, started as early as 1967 whenthe first computer corpus of Croatian text was collectedby Željko Bujas and its concordance produced [46] atthe Institute of Linguistics, Faculty of Humanities andSocial Sciences of the University of Zagreb. Since then,

75

Page 83: the croatian language in the digital age hrvatski jezik u digitalnom

this institution has become a central institution for cor-pus linguistics research in Croatia. In 1968 the first us-age of computer parallel corpus in contrastive linguis-tics ever, was led by Rudolf Filipović [47]. e com-puter processing of oldCroatian authorswas going on in1970s and1980swhile the collection of theOne-millioncorpus of Croatian literary language started in 1976, leadby Milan Moguš. On the basis of this corpus the firstCroatian frequency dictionary was produced [48]. ecollection of theCroatianNational Corpus [49] startedin 1998 [50, 20] and it reached 101 million in 2004[51]. Today, the largest Croatian corpus is the hrWaCcollected at the same Faculty in 2011 and it reached1.2 billion tokens crawled from the .hr internet domain[52]. In 2000 at the same Faculty, led by Damir Boras,a large campain of digitisation of Croatian old mono-and multilingual dictionaries started [53].

Did you know that the oldest Croatian printeddictionary Dictionarium quinque nobilissimarum

Europae linguarum Latinae, Italicae,Germanicae, Dalmaticae et Ungaricae by FaustVrančić (1595) is also the oldest Hungarian

printed dictionary?

At the Institute of Croatian Language and Linguisticsthe collection of a comprehensive language corpus eCroatian Language On-line Repository (Riznica) [54,55] that includes Croatian written texts from the 11thcentury onward started in 2004. is Repository is or-ganized into three major corpora (Old Croatian, Mid-dle Croatian, Modern Croatian) where for the first twoa substantial problems characteristic for diachronic cor-pora have to be solved, e. g., transliteration of three dif-ferent scripts (Glagolitic, Cyrillic and Latin), no stan-dardized orthographies, individual variations in the us-age of certain characters etc.Aer the research programmes in 1970s and 1980s, thatwere typically oriented to literary and linguistic com-

puting, most research activities in the fields of computa-tional linguistics, corpus linguistics and language tech-nology today are funded by theMinistry of Science, Ed-ucation and Sports through LT related projects. efirst oneComputational Processing of theCroatianLiter-ary Language started in 1991, andwas followed in 1996by Computational Processing of the Croatian Languageand in 2002 by Development of the Croatian LanguageResources. In 2007 three main research programmesoriented to the development ofLT forCroatian, encom-passing several research projects were funded from thesame source:

‚ Computational Lingustic Models and LanguageTechnologies for Croatian [56] where the produc-tion and maintaining of a number of resources andtools has been initiated (e. g., Croatian NationalCorpus, Croatian-English Parallel Corpus, Croat-ian Morphological Lexicon, Croatian DependencyTreebank [57], Croatian Wordnet [58], hybrid tag-ger [59] and lemmatiser [15], dependency parser,NERC system and other information extractiontools [60] etc.);

‚ Sources for Croatian Heritage and Croatian Euro-pean Identity [61] with projects dealing with digiti-sation of old-Croatian dictionaries and building theCroatian valency dictionary [62];

‚ Croatian Language Repository [54] where a numberof projects deal with different linguistic problemsstarting from Croatian dialects and etymological re-search up to the development of semantic networksin building lexical resources. ese projects includedigitisation of collected linguistic data thus enrich-ing the pool of available language resources forCroa-tian.

Also at theUniversity ofRijeka theproject SpeechTech-nologies [63] made significant progress in the devel-opment of the basic resources and tools for Croatian

76

Page 84: the croatian language in the digital age hrvatski jezik u digitalnom

speech processing such as Croatian Speech Corpus andprototypes for Croatian ATR and TTS.is programmes opened the possibility to catch upwith the level of LT development in other Europeanlanguages and enabled the participation of Croatian re-search teams in current FP7 and ICTPSPprojects, sincethe last one that they participated in (TELRI II) fin-ished in 2002.From Croatia the Faculty of Humanites and SocialSciences, University of Zagreb was a partner in theCLARIN project – a pan-European effort to create alanguage resource infrastructure for researchers in hu-manities and social sciences – and Croatia is to becomeone of the member countries of the CLARIN ERIC.e same institution takes part in FP7 project AC-CURAT and ICT-PSP projects LetsMT! andCESAR.e University of Zadar was a partner in the ICT-PSPproject ATLAS.In 2004 the Croatian Language Technologies Society[69] was founded as a non-governmental organisationand since then it takes care about the development oflanguage technologies for Croatian. e Society hassuccessfuly organised several national as well as interna-tional conferences, Formal Approaches to South Slavicand Balkan Languages (2008, 2010, 2012) and Slav-iCorp (2011), and appeared as a publisher of severalbooks in the field.

4.5 AVAILABILITY OF TOOLSAND RESOURCES FORCROATIANFigure 14 provides a rating for language technology sup-port for Croatian. is rating of existing tools and re-sourceswas generated by leading experts in the fieldwhoprovided estimates based on a scale from 0 (very low) to6 (very high) using seven criteria. e key results can besummed up as follows:

‚ Croatian stands reasonably well with respect to themost basic language technology tools and resources,such as reference corpora, smaller parallel corpora,large inflectional lexicons, tokenisers, MSD taggers,lemmatisers, NERC system etc.

‚ However, a large syntactically annotated corpus ismissing as well as a large parallel corpus (e. g., Croa-tian translations of Acquis Communautaire). Manyexisting resources lack standardisation so initiativesare needed to standardise the data and interchangeformats.

‚ Experiments have been conducted in some areas,such as shallow parsing (chunking), summarization,application of ontological resources, but only in anacademic research environment. However, the re-sults obtained are far from the level of developmentthat other European languages demonstrate. emultimedia and multimodal document processing,is gaining attraction, particularly the digitisation inthe context of preserving cultural heritage, but lan-guage technologies for Croatian are not involved inthese processes as needed.

‚ ere exist also individual products with limitedfunctionality in subfields such as speech synthesis,speech recognition and information extraction, anda few others.

‚ Tools and resources for more advanced languagetechnology such as deep parsing, machine transla-tion, text semantics, discourse processing, languagegeneration, dialogue management, etc., simply donot exist.

Taken the funding of all above mentioned languagetechnology programmes and projects from 2007 to2012 the amount was only around 1/6 of the estimatedneeded sum. It should therefore come as no surprise thatCroatian LT is still in its early stages. 5.5 million speak-ers in the Republic of Croatian and neighbouring coun-tries are simply too few to sustain costly development

77

Page 85: the croatian language in the digital age hrvatski jezik u digitalnom

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Tools, Technologies, Applications

Speech recognition 1 2 2 2 2 1 3

Speech synthesis 2 2 2 2 2 1 2

Grammatical analysis 2 1.5 3.5 3 2 1 4

Semantic analysis 0.3 0 0.3 0.67 0 0 0.3

Text generation Processing 1 1 2 0 1 0 0

Machine translation 1 0 1 1 0 0 0

Language Resources: Resources, Data, Knowledge Bases

Text corpora 2 2 3 4 3 2.5 2

Speech corpora 2 1 2 2 2 2 2

Parallel corpora 3 2 3 3 3 1 2

Lexical resources 2.5 3 3.5 3.5 3.5 2.5 2.5

Grammars 0 0 0 0 0 0 0

14: State of language technology support for Croatian

of new products. At present, almost no companies inCroatia are working in the LT area because they do notsee it as profitable. It is thus extremely important to con-tinue public support for Croatian LT particularly hav-ing in mind the enlargement of digital documents ap-pearing inCroatian since it will become the 24th officiallanguage of the European Union by Croatian accessionin 2013.

4.6 CROSS-LANGUAGECOMPARISONecurrent state of LT support varies considerably fromone language community to another. In order to com-pare the situation between languages, this section willpresent an evaluation based on two sample applica-

tion areas (machine translation and speech processing)and one underlying technology (text analysis), as wellas basic resources needed for building LT applications.e languages were categorised using the following five-point scale:

1. Excellent support

2. Good support

3. Moderate support

4. Fragmentary support

5. Weak or no support

LTsupportwasmeasured according to the following cri-teria:Speech Processing: uality of existing speech recog-nition technologies, quality of existing speech synthesis

78

Page 86: the croatian language in the digital age hrvatski jezik u digitalnom

technologies, coverage of domains, number and size ofexisting speech corpora, amount and variety of availablespeech-based applications.Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, coverage oflinguistic phenomena and domains, quality and size ofexistingparallel corpora, amount andvariety of availableMT applications.Text Analysis: uality and coverage of existing textanalysis technologies (morphology, syntax, semantics),coverage of linguistic phenomena and domains, amountand variety of available applications, quality and size ofexisting (annotated) text corpora, quality and coverageof existing lexical resources (e. g., WordNet) and gram-mars.Resources: uality and size of existing text corpora,speech corpora and parallel corpora, quality and cover-age of existing lexical resources and grammars.Figures 15 to 18 show that Croatian is in the bottomcluster for almost all of the tools and resources listed. Itcompares well with other languages with a small num-ber of speakers, such as Estonian, Latvian, Lithuanian,Slovak, and to some extent more developed Danish andFinnish. However, all these languages lag far behindlarge languages like German and French, for instance.But even LT resources and tools for those languagesclearly do not yet reach the quality and coverage of com-parable resources and tools for the English language,which is in the lead in almost all LT areas. And there arestill plenty of gaps in English language resources withregard to high quality applications.

4.7 CONCLUSIONSIn this series of white papers, we have made an impor-tant effort by assessing the language technology supportfor 30 European languages, and by providing a high-leel comparison across these languages. By identifyingthe gaps, needs and deficits, the European language tech-

nology community and its related stakeholders are nowin a position to design a large scale research and develop-ment programme aimed at building a truly multilingual,technology-enabled communication across Europe.

e results of this white paper series show that there is adramatic difference in language technology support be-tween the various European languages. While there aregood quality soware and resources available for somelanguages and application areas, others, usually smallerlanguages, have substantial gaps. Many languages lackbasic technologies for text analysis and the essential re-sources. Others have basic tools and resources but theimplementation of for example semanticmethods is stillfar away. erefore a large-scale effort is needed to at-tain the ambitious goal of providing high-quality lan-guage technology support for all European languages,for example through high quality machine translation.

We cannot really be optimistic about technology sup-port for the Croatian language. ere is a nascent re-search scene in Croatia concerning Croatian languageLT, mostly in universities and scientific institutions, butthe small and medium enterprises are only potentialusers of solutions of specific LT problems and no de-velopment is done there. Various institutions have de-voted their efforts to research and development of theLT products such as production of large Croatian cor-pora, the morphology processing, machine translation,speech recognition system, etc. But those must be fur-ther developed and supported. According to the assess-ment detailed in this report, immediate action must oc-cur before any breakthroughs for the Croatian languagecan be achieved. It is clear that there must be a greatereffort to create LT resources for Croatian, and drive re-search, innovation and development in general. eneed for large amounts of data and the extreme com-plexity of language technology systems makes it vital todevelop a new infrastructure to spur greater sharing andcooperation.

79

Page 87: the croatian language in the digital age hrvatski jezik u digitalnom

Public funding for LT in Europe is relatively low com-pared to the expenditures for language translation andmultilingual information access by the USA [64]. InCroatia public funding is even lower than inmany otherEuropean countries, including neighboring countriesSlovenia and Hungary. Finally there is a lack of conti-nuity in research and development funding. Short-termcoordinated programmes tend to alternate with periodsof sparse or zero funding. In addition, there is an over-all lack of coordination with programmes in other EUcountries and at the European Commission level.Although there is a pressing need of recognising theimportance of LT in ensuring sustainable developmentof Croatian in the 21st century and in challenges thatEU membership will bring with the role of Croatian asthe 24th EU official language, no national initiative hasbeen launched, that would foster the creation of large-scale resources and tools/services for Croatian, as well

as a partnership between government, academia and in-dustry to develop an expertise cluster in Croatian lan-guage technology. We believe that this initiative shouldbe institutionally supported by a special-purpose com-petence centre that could be funded by the EU in orderto stimulate business research and promote sectoral co-operation between companies and research institutionsto develop innovative products and technologies to im-prove the competitiveness of enterprises on the EUmar-ket from 2013 on.e long term goal of META-NET is to enable the cre-ation of high-quality language technology for all lan-guages. is requires all stakeholders – in politics, re-search, business, and society – to unite their efforts.e resulting technology will help tear down existingbarriers and build bridges between Europe’s languages,paving theway for political and economic unity throughcultural diversity.

80

Page 88: the croatian language in the digital age hrvatski jezik u digitalnom

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFinnishFrenchGermanItalianPortugueseSpanish

BasqueBulgarianCatalanDanishEstonianGalicianGreekHungarianIrishNorwegianPolishSerbianSlovakSloveneSwedish

CroatianIcelandicLatvianLithuanianMalteseRomanian

15: Speech processing: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English FrenchSpanish

CatalanDutchGermanHungarianItalianPolishRomanian

BasqueBulgarianCroatianCzechDanishEstonianFinnishGalicianGreekIcelandicIrishLatvianLithuanianMalteseNorwegianPortugueseSerbianSlovakSloveneSwedish

16: Machine translation: state of language technology support for 30 European languages

81

Page 89: the croatian language in the digital age hrvatski jezik u digitalnom

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English DutchFrenchGermanItalianSpanish

BasqueBulgarianCatalanCzechDanishFinnishGalicianGreekHungarianNorwegianPolishPortugueseRomanianSlovakSloveneSwedish

CroatianEstonianIcelandicIrishLatvianLithuanianMalteseSerbian

17: Text analysis: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFrenchGermanHungarianItalianPolishSpanishSwedish

BasqueBulgarianCatalanCroatianDanishEstonianFinnishGalicianGreekNorwegianPortugueseRomanianSerbianSlovakSlovene

IcelandicIrishLatvianLithuanianMaltese

18: Speech and text resources: State of support for 30 European languages

82

Page 90: the croatian language in the digital age hrvatski jezik u digitalnom

5

ABOUT META-NET

META-NET is a Network of Excellence partiallyfunded by the European Commission. e networkcurrently consists of 54 research centres members from33European countries. META-NET forgesMETA, theMultilingual Europe Technology Alliance, a growingcommunity of language technology professionals andorganisations in Europe [65].META-NET fosters the technological foundations for atrulymultilingual European information society that:

‚ makes communication and cooperation possibleacross languages;

‚ grants all Europeans equal access to information andknowledge in any language;

‚ builds upon and advances functionalities of net-worked information technology.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimulatesand promotes multilingual technologies for all Euro-pean languages. ese technologies support automatictranslation, content production, information process-ing and knowledge management for a wide variety ofsubject domains and applications. ey also enable in-tuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehi-cles to computers and robots. Launched on 1 February2010,META-NEThas already conducted various activ-ities in its three lines of actionMETA-VISION,META-SHARE and METARESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared vi-sion and a common strategic research agenda (SRA).

e main focus of this activity is to build a coherentand cohesive LT community in Europe by bringing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present White Paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.

META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peerto-peer network of repositories will contain language data,tools and web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.

META-RESEARCH builds bridges to related technol-ogy fields. is activity seeks to leverage advances inother fields and to capitalise on innovative research thatcan benefit language technology. In particular, the ac-tion line focuses on conducting leading-edge research inmachine translation, collecting data, preparing data setsand organising language resources for evaluation pur-poses; compiling inventories of tools and methods; andorganising workshops and training events for membersof the community.

[email protected] – http://www.meta-net.eu

83

Page 91: the croatian language in the digital age hrvatski jezik u digitalnom
Page 92: the croatian language in the digital age hrvatski jezik u digitalnom

A

BIBLIOGRAFIJA REFERENCES

[1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann, Georg Rehm,Manfred Stede, HansUszkoreit, andMartin Volk. DieDeutsche Sprache imDigitalen Zeitalter –eGerman Languagein the Digital Age. META-NET White Paper Series. Georg Rehm and Hans Uszkoreit (Series Editors). Springer, 2012.

[2] Aljoscha Burchardt, Georg Rehm, and Felix Sasaki. e Future European Multilingual Information Society – VisionPaper for a Strategic Research Agenda, 2011. http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf.

[3] Directorate-General Information Society & Media of the European Commission. User Language Preferences Online,2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[4] European Commission. Multilingualism: an Asset for Europe and a Shared Commitment, 2008. http://ec.europa.eu/languages/pdf/comm2008_en.pdf.

[5] Directorate-General of theUNESCO. IntersectoralMid-term Strategy on Languages andMultilingualism, 2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[6] Directorate-General for Translation of the European Commission. Size of the Language Industry in the EU, 2009.http://ec.europa.eu/dgs/translation/publications/studies.

[7] Narodne novine. Ustav Republike Hrvatske, 2001. http://narodne-novine.nn.hr/clanci/sluzbeni/232289.html.

[8] Mladen Klemenčić. A Concise atlas of the Republic of Croatia & of the Republic of Bosnia and Hercegovina. MiroslavKrleža Lexicographical Institute, 1993.

[9] Institut za hrvatski jezik i jezikoslovlje (Institute of Croatian Language and Linguistics). http://www.ihjj.hr.

[10] Institut za hrvatski jezik i jezikoslovlje. Jezični Savjeti (Language Advice Portal). http://savjetnik.ihjj.hr.

[11] Institut za hrvatski jezik i jezikoslovlje. Struna: Hrvatsko strukovno nazivlje (Struna: Croatian Professional Terminol-ogy). http://struna.ihjj.hr/o-programu/.

[12] Croaticum – centar za hrvatski kao drugi i strani jezik (Croaticum – e Center for Croatian as a Second and ForeignLanguage). http://croaticum.ffzg.hr.

[13] Hrvatski jezik (Croatian Language). http://www.hrvatskijezik.eu.

[14] Jezične tehnologije za hrvatski jezik (HLT). http://jthj.ffzg.hr.

[15] Željko Agić, Marko Tadić, and Zdravko Dovedan. Evaluating Full Lemmatization of Croatian Texts. In M. Klopotek,A. Przepiorkowski, S. Wierzchon, and K. Trojanowski, editors, Recent Advances in Intelligent Information Systems. Aca-demic Publishing House EXIT, 2009.

[16] Daniel Jurafsky and James H. Martin. Speech and Language Processing (2nd Edition). Prentice Hall, 2009.

85

Page 93: the croatian language in the digital age hrvatski jezik u digitalnom

[17] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press,1999.

[18] Language Technology World (LT World). http://www.lt-world.org.

[19] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zampolli, editors.Survey of the State of the Art in Human Language Technology (Studies in Natural Language Processing). CambridgeUniversity Press, 1998.

[20] Marko Tadić. Jezične tehnologije i hrvatski jezik (HLT and Croatian). Exlibris, 2003.

[21] Hrvatski akademski spelling checker (Hascheck). http://hacheck.tel.fer.hr.

[22] Spiegel Online. Google zieht weiter davon (Google is still leaving everybody behind), 2009. http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html.

[23] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities, 2009. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[24] Hrvatski Morfološki Leksikon (Croatian Morphological Lexicon). http://hml.ffzg.hr.

[25] MULTEXT-East: Multilingual Text Tools and Corpora for Central and Eastern European Languages. http://nl.ijs.si/ME/.

[26] Cadial: Computer aided document indexing for accessing legislation. http://www.cadial.org.

[27] Cadial: Computer aided document indexing for accessing legislation. http://cadial.hidra.hr/search.php.

[28] e MBROLA Project. http://tcts.fpms.ac.be/synthesis/mbrola.html.

[29] Branimir Dropuljić and Davor Petrinović. Development of Acoustic Model for Croatian Language Using HTK. Au-tomatika, 51(1):79–88, 2010.

[30] Sanda Martinčić-Ipšić, Miran Pobar, and Ivo Ipšić. Croatian Large Vocabulary Automatic Speech Recognition. Au-tomatika, 52(2):147–157, 2011.

[31] CRO-SPEECHDAT (Baza govornih uzoraka i tekstova dostupna putem Interneta). http://www.inf.uniri.hr/~ivoi/CROSPEECH/index.htm.

[32] Sanda Martinčić-Ipšić and Ivo Ipšić. Croatian HMM Based Speech Synthesis. Journal of Computing and InformationTechnology, 14(4):299–305, 2006.

[33] Kishore Papineni, SalimRoukos, ToddWard, andWei-JingZhu. BLEU: aMethod forAutomatic Evaluation ofMachineTranslation. In Proceedings of the 40th Annual Meeting of ACL, 2002.

[34] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe. In MT SummitXII, 2009.

[35] Svetozar Petrović and Bulcsú László. Strojno prevođenje i statistika u jeziku. Naše teme, (6):105–298, 1959.

[36] Information Technology in Translation and e-Learning of Croatian. http://rmjt.ffzg.hr/p4_en.html.

[37] Let’s MT. https://www.letsmt.eu/Start.aspx.

[38] Accurat. http://www.accurat-project.eu.

86

Page 94: the croatian language in the digital age hrvatski jezik u digitalnom

[39] Inguna Skadiņa, Andrejs, Vasiļjevs Raivis Skadiņš, Robert Gaizauskas, Dan Tufiş, and Tatiana Gornostay. Analysis andEvaluation of Comparable Corpora for Under Resourced Areas ofMachine Translation. In Proceedings of the 3rdWork-shop on Building and Using Comparable Corpora. European Language Resources Association (ELRA), 2010.

[40] Andreas Eisele and Jia Xu. Improving Machine Translation Performance Using Comparable Corpora. In Proceedings ofthe 3rd Workshop on Building and Using Comparable Corpora, 2010.

[41] Andrejs Vasiljevs, Tatiana Gornostay, and Raivis Skadins. LetsMT! – Online Platform for Sharing Training Data andBuilding User Tailored Machine Translation. In Proceedings of the Fourth Baltic conference ‘Human Language Technolo-gies – the Baltic Perspective’, 2010.

[42] HINA: Hrvatska izvještajna novinska agencija (HINA: Croatian News Agency). http://websrv2.hina.hr/hina/web/index.action.

[43] Knowledge Technologies Lab. http://ktlab.fer.hr.

[44] NivesMikelić Preradović, Tomislava Lauc, andDamir Boras. CROXMLSUM– the System for XML.Document Sum-marization in Croatian. International Journal of Mathematics and Computers in Simulation, 1(1):81–89, 2007.

[45] Branko Žitko, Slavomir Stankov, Marko Rosić, and Ani Grubišić. Dynamic test generation over ontology-based knowl-edge representation in authoring shell. Expert Systems with Applications, 36(4):8185–8196, 2009.

[46] Željko Bujas. Osman, kompjutorska konkordancija (Osman, Computer Concordance). Sveučilišna naklada Liber, 1974.

[47] Marko Tadić. Računalna obradba hrvatskih korpusa: povijest, stanje i perspektive (Computer processing of Croatiancorpora: history, status and perspectives). Suvremena lingistika, 43-44(1-3):387–394, 1997.

[48] Milan Moguš, Maja Bratanić, and Marko Tadić. Hrvatski čestotni rječnik (Croatian Frequency Dictionary). Školskaknjiga, 1999.

[49] Hrvatski nacionalni korpus (Croatian National Corpus). http://hnk.ffzg.hr.

[50] Marko Tadić. Building the Croatian National Corpus. In Proceedings of the 3rd International Conference on LanguageResources and Evaluation (LREC2002), 2002.

[51] MarkoTadić. Newversionof theCroatianNationalCorpus. InDanaHlaváčková, AlešHorák,KlaraOsolsobě, andPavelRychlý, editors, Aer Half a Century of Slaonic Natural Language Processing, Masaryk Uniersity. Masaryk University,2009.

[52] Nikola Ljubešić and Tomaž Erjavec. hrWaC and slWaC: Compiling web corpora for Croatian and Slovene. In Proceed-ings of the 14th International Conference Text, Speech and Dialogue (TSD2011). Springer, 2011.

[53] Portal hrvatske rječničke baštine (Croatian Old Dictionary Portal). http://crodip.ffzg.hr.

[54] Hrvatska jezična riznica (Croatian Language Repository). http://riznica.ihjj.hr.

[55] Dunja Brozović Rončević and Damir Ćavar. Hrvatska jezična riznica kao podloga jezičnim i jezičnopovijesnim istraži-vanjima hrvatskoga jezika ( Croatian Language treasury as a base language and ..... Croatian language studies). InVidjetiOhrid: Proceedings of the 14th international Slaistic Congress in Ohrid, 2008.

[56] Računalnolingvistički modeli i jezične tehnologije za hrvatski jezik (Computational Linguistic Models and LanguageTechnologies for Croatian). http://rmjt.ffzg.hr.

[57] Hrvatska ovisnosna banka stabala (Croatian Dependency Treebank). http://hobs.ffzg.hr.

87

Page 95: the croatian language in the digital age hrvatski jezik u digitalnom

[58] Lexical Semantics in Building the Croatian WordNet. http://rmjt.ffzg.hr/p3_en.html.

[59] Željko Agić, Marko Tadić, and Zdravko Dovedan. Improving Part-of-Speech Tagging Accuracy for Croatian by Mor-phological Analysis. Informatica, 32(4):445–451, 2008.

[60] Knowledge discovery in textual data. http://rmjt.ffzg.hr/p5_en.html.

[61] Ministarstvo znanosti, obrazovanja i sporta. Z projekti. http://zprojekti.mzos.hr/page.aspx?pid=97&lid=1.

[62] NivesMikelić Preradović. CROVALLEX lexicon improvements: Subcategorization and semantic constraints. WSEASTransactions on Computers, 9(3), 2010.

[63] obrazovanja i sporta Ministarstvo znanosti. Z projekti. http://zprojekti.mzos.hr/page.aspx?pid=96.

[64] Gianni Lazzari. Sprachtechnologien für Europa, 2006. http://tcstar.org/pubblicazioni/D17_HLT_DE.pdf.

[65] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech. MultiLingual, 22(3):51–52,April/May 2011.

[66] Jerrold H. Zar. Candidate for a Pullet Surprise. Journal of Irreproducible Results, page 13, 1994.

[67] Ralf Steinberger, Bruno, Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, and Dániel Varga. eJRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. In Proceedings of the 5th International Confer-ence on Language Resources and Evaluation (LREC2006), 2006.

[68] Božo Bekavac and Marko Tadić. Implementation of Croatian NERC system. In Proceedings of the Workshop on Balto-Slaonic Natural Language Processing 2007, 2007.

[69] Hrvatsko društvo za jezične tehnologije (Croatian LT Society). http://www.hdjt.hr/index_en.html.

88

Page 96: the croatian language in the digital age hrvatski jezik u digitalnom

B

META-NET ČLANICE META-NET MEMBERS

Austrija Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Belgija Belgium Computational Linguistics and Psycholinguistics Research Centre, University ofAntwerp: Walter Daelemans

Centre for Processing Speech and Images, University of Leuven: Dirk van Compernolle

Bugarska Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Cipar Cyprus Language Centre, School of Humanities: Jack Burston

Češka Czech Republic Institute of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič

Danska Denmark Centre for Language Technology, University of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

Estonija Estonia Institute of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider

Finska Finland Computational Cognitive Systems Research Group, Aalto University: Timo Honkela

Department of Modern Languages, University of Helsinki:Kimmo Koskenniemi, Krister Lindén

Francuska France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour la Mé-canique et les Sciences de l’Ingénieur and Institute for Multilingual and Multimedia In-formation: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Grčka Greece R.C. “Athena”, Institute for Language and Speech Processing: Stelios Piperidis

Hrvatska Croatia Institute of Linguistics, Faculty of Humanities and Social Science, University of Zagreb:Marko Tadić

Irska Ireland School of Computing, Dublin City University: Josef van Genabith

Island Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson

Italija Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale“Antonio Zampolli”: Nicoletta Calzolari

Human Lang. Technology, Fondazione Bruno Kessler: Bernardo Magnini

Latvija Latvia Tilde: Andrejs Vasiļjevs

Institute of Mathematics and Computer Science, University of Latvia: Inguna Skadiņa

Litva Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Luksemburg Luxembourg Arax Ltd.: Vartkes Goetcherian

89

Page 97: the croatian language in the digital age hrvatski jezik u digitalnom

Mađarska Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Department of Telecommunications and Media Informatics, Budapest University ofTechnology and Economics: Géza Németh, Gábor Olaszy

Malta Malta Department Intelligent Computer Systems, University of Malta: Mike Rosner

Nizozemska Netherlands Utrecht Institute of Linguistics, Utrecht University: Jan Odijk

Computational Linguistics, University of Groningen: Gertjan van Noord

Norveška Norway Department of Linguistic, Literary and Aesthetic Studies, University of Bergen:Koenraad De Smedt

Department of Informatics, Language Technology Group, University of Oslo:Stephan Oepen

Njemačka Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen University:Hermann Ney

Department of Computational Linguistics, Saarland University: Manfred Pinkal

Poljska Poland Institute of Computer Science, Polish Academy of Sciences:Adam Przepiórkowski, Maciej Ogrodniczuk

University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Department ofComputer Linguistics andArtificial Intelligence, AdamMickiewiczUni-versity: Zygmunt Vetulani

Portugal Portugal University of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering and Comput-ers: Isabel Trancoso

Rumunjska Romania Research Institute for Artificial Intelligence, Romanian Academy of Sciences:Dan Tufiș

Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea

Slovačka Slovakia Ľudovít Štúr Institute of Linguistics, Slovak Academy of Sciences: Radovan Garabík

Slovenija Slovenia Jožef Stefan Institute: Marko Grobelnik

Srbija Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vranes

Španjolska Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, University of the Basque Country:Inma Hernaez Rioja

90

Page 98: the croatian language in the digital age hrvatski jezik u digitalnom

Center for Language and SpeechTechnologies andApplications, Universitat Politècnicade Catalunya: Asunción Moreno

Department of Signal Processing and Communications, University of Vigo:Carmen García Mateo

Švedska Sweden Department of Swedish, University of Gothenburg: Lars Borin

Švicarska Switzerland Idiap Research Institute: Hervé Bourlard

UK UK School of Computer Science, University of Manchester: Sophia Ananiadou

Institute for Language, Cognition andComputation, Center for SpeechTechnologyRe-search, University of Edinburgh: Steve Renals

Research Institute of Informatics and Language Processing, University of Wolverhamp-ton: Ruslan Mitkov

Oko 100 jezične tehnologije stručnjaci – Predstavnici zemalja i jezika zastupljenih u META-NET – raspravljai finalizirani ključne rezultate i poruke Bijele knjige serije na sastanku u Berlinu, Njemačka, listopada 21/22,2011. – About 100 language technology experts – representatives of the countries and languages representedin META-NET – discussed and finalised the key results and messages of the White Paper Series at a meeting inBerlin, Germany, on October 21/22, 2011.

91

Page 99: the croatian language in the digital age hrvatski jezik u digitalnom
Page 100: the croatian language in the digital age hrvatski jezik u digitalnom

C

NIZ BIJELEKNJIGE META-NET

THE META-NETWHITE PAPER SERIES

baskijski Basque euskarabugarski Bulgarian българскиčeški Czech češtinadanski Danish danskengleski English Englishestonski Estonian eestifinski Finnish suomifrancuski French françaisgalicijski Galician galegogrčki Greek εηνικάhrvatski Croatian hrvatskiirski Irish Gaeilgeislandski Icelandic íslenskakatalonski Catalan catalàlatvijski Latvian latviešu valodalitavski Lithuanian lietuvių kalbamađarski Hungarian magyarmalteški Maltese Maltinizozemski Dutch Nederlandsnorveški bokmål Norwegian Bokmål bokmålnorveški nýnorsk Norwegian Nynorsk nynorsknjemački German Deutschpoljski Polish polskiportugalski Portuguese portuguêsrumunjski Romanian românăslovački Slovak slovenčinaslovenski Slovene slovenščinasrpski Serbian српскиšpanjolski Spanish españolšvedski Swedish svenskatalijanski Italian italiano

93

Page 101: the croatian language in the digital age hrvatski jezik u digitalnom

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the po-tential to overcome these barriers and to provide inno-vative interfaces to technologies and knowledge. Thiswhite paper presents the state of language technologysupport for the Icelandic language. It is part of a se-ries that analyses the available language resources andtechnologies for 30 European languages. The analysiswas carried out byMETA-NET, a Network of Excellencefunded by the European Commission. META-NET con-sists of 54 research centres in 33 countries, who cooper-ate with stakeholders from economy, government agen-cies, research organisations and others. META-NET’svision is high-quality language technology for all Euro-pean languages.

U svakodnevnoj komunikaciji građani Europe, pos-lovni partneri i političari neizbježno su suočeni s je-zičnim barijerama. Potencijal koji imaju jezične teh-nologije mogao bi savladati te prepreke i osiguratiinovativna sučelja za tehnologije i znanja. Ovaj do-kument prikazuje stanje jezičnih tehnologija za hr-vatski jezik. Jedan je od dokumenata u nizu bijeleknjige koji analizira dostupne jezične resurse i tehno-logije za 30 europski jezik. Analizu je proveo META-NET – mreža izvrsnosti koju financira Europska komi-sija. META-NET se sastoji od 54 istraživačka centra u33 zemalje, koji surađuju s partnerima iz gospodar-stva, državnih agencija, istraživačkih organizacija idrugih nevladinih organizacija, jezičnih zajednica ieuropskih sveučilišta. Vizija je META-NET-a poveća-nje kvalitete jezičnih tehnologija za sve europske je-zike.

„Niz Jezičnih bijelih knjiga otvara nove uvide u europsku jezičnu raznolikost dok istodobno relativizira pojamtzv. ‘malih’ jezika, poput hrvatskoga. Stoga jezične tehnologije imaju ne samo ključnu ulogu u iskazivanju jezič-noga bogatstva u današnjoj Europi, već predstavljaju metodološko ishodište za daljnji razvitak digitalnih humanis-tičkih znanosti, osobito ako ih se promatra kao temelj za daljnja istraživanja u raznim humanističkih disciplinama.“— Prof. dr. Milena Žic Fuchs (redoviti član Hrvatske akademije znanosti i umjetnosti, predsjednica Stalnoga odboraza humanističke znanosti Europske znanstvene zaklade)