clarin : ziņojums par esošo situāciju

17
CLARIN: ziņojums par esošo situāciju Inguna Skadiņa LU MII CLARIN NKP sēde 29.10.2010. 1. pielikums CLARIN Nacionālās konsultatīvās padomes 2010. gada 29. oktobra protokolam Nr. 2

Upload: truly

Post on 23-Jan-2016

81 views

Category:

Documents


0 download

DESCRIPTION

1. pielikums CLARIN Nacionālās konsultatīvās padomes 2010. gada 29. oktobra protokolam Nr. 2. CLARIN : ziņojums par esošo situāciju. Inguna Skadiņa LU MII CLARIN NKP sēde 29.10.2010. CLARIN posmi. sagatavošanās ( 2008 – 2010 ): - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: CLARIN : ziņojums par esošo situāciju

CLARIN:ziņojums par esošo situāciju

Inguna SkadiņaLU MII

CLARIN NKP sēde29.10.2010.

1. pielikumsCLARIN Nacionālās konsultatīvās padomes

2010. gada 29. oktobra protokolam Nr. 2

Page 2: CLARIN : ziņojums par esošo situāciju

CLARIN posmi• sagatavošanās (2008–2010): CLARIN organizācijas izveide, plānošana,

prototipa izveide

• izveides (2011–2015):CLARIN infrastruktūras izveide un piepildīšana ar resursiem un rīkiem

• izmantošanas (2016 — ):CLARIN ir izmantojams kā serviss

Page 3: CLARIN : ziņojums par esošo situāciju

CLARIN paveiktais

• Sākotnēji sagatavošanās posms bija plānots līdz 2010. gada beigām

• Lai labāk sagatavotos CLARIN izveides posmam, projekts ir pagarināts līdz 2011. gada 30. jūnijam

• Mērķis – izveides posmu īstenot kā CLARIN ERIC (European Research Infrastructure Consortium)

Page 4: CLARIN : ziņojums par esošo situāciju

CLARIN paveiktais

• Tehnoloģiski:– izstrādāts CLARIN centru izmēģinājuma modelis starp

Nīderlandes, Vācijas un Somijas partneriem– izstrādāti rīki valodas resursu un rīku metadatu aprakstīšanai– izstrādāts datu kategoriju reģistrs

http://www.isocat.org/interface/index.html – izstrādāti rīki, kas lietotājam ļauj vienkārši apvienot

infrastruktūrā esošos rīkus darba plūsmā (http://weblicht.sfs.uni-tuebingen.de/englisch/weblicht.shtml, http://weblicht.sfs.uni-tuebingen.de:8080/WebLicht1.5/ )

– izstrādāti rīki autorizācijas un autentifikācijas nodrošināšanai

Page 5: CLARIN : ziņojums par esošo situāciju

5

Vīzija

Page 6: CLARIN : ziņojums par esošo situāciju

CLARIN paveiktais• Saturiski:

– izveidots valodas resursu un rīku katalogs (849 resursi, 183 rīki, http://www.clarin.eu/vlo/)

– izveidots pārskats par minimālo resursu un rīku kopu, kas nepieciešama humanitāro zinātņu pētījumiem

– tiek apkopoti standarti un paraugprakses piemēri valodas resursu un rīku jomā

• Juridiski:– izstrādāti licencēšanas parauglīgumi

Page 7: CLARIN : ziņojums par esošo situāciju

Latviešu valodai nepieciešamie resursi un rīki (atbilstoši iesūtītajiem ieteikumiem)

• Resursi– Valodas korpusi (runātās valodas un tekstu) (tostarp paralēlie

un dialektu) – Elektroniskās vārdnīcas un terminoloģijas datu bāzes

• Rīki– Rakstītā/runātā teksta atpazīšana un pārvēršana drukātā

tekstā– Vārdnīcu izstrādes programmatūra– Semantiskās analīzes rīki

• Citi– Starpaugstskolu datorlingvistikas apguves programma

Page 8: CLARIN : ziņojums par esošo situāciju

8

ERIC — European Research Infrastructure Consortium

• Juridiska organizācija, kuru izveido Eiropas Komisija, lai nodrošinātu pētniecības infrastruktūras darbu

• Konsorciju veido valstis, kuras maksā dalības maksu• Lai izveidotu ERIC, valstu konsorcijs iesniedz

pieteikumu Eiropas Komisijai, kas ietver:– statūtus– zinātniskā un tehniskā darba aprakstu

Page 9: CLARIN : ziņojums par esošo situāciju

9

CLARIN ERIC

• Nepieciešama struktūra, kas nodrošinātu saskaņotību– CLARIN ERIC līmenis– Nacionālais līmenis

• Centri• Saturs

Page 10: CLARIN : ziņojums par esošo situāciju

10

CLARIN mērķi• Virtuālas dalītas datu infrastruktūras izveide un uzturēšana, lai

padarītu pieejamus valodas resursus un rīkus humanitāro un sociālo zinātņu pētniekiem

• Tas ietver– Kompetences centru (centres of expertise) izveidi– Federācijas izveidi– Apmācību un izplatīšanu– Standartu definēšanu un uzturēšanu– Jaunu datu ieguvi un izveidi– Licencēšanas nosacījumus – un citas aktivitātes

Daudzas no šīm aktivitātēm iecerētas nacionālajā līmenī

Page 11: CLARIN : ziņojums par esošo situāciju

11

Plānotais grafiks • Saprašanās memorandu (memorandum of understanding)

plānots parakstīt šī gada novembra sākumā• Iesniegums Eiropas Komisijai — 2011. gada 1. februārī• Komisijas lēmums — 2011. gada pirmajā pusgadā

• Statūti pabeigti un saskaņoti līdz 2011. gada janvāra sākumam• Zinātnisko un tehnisko aktivitāšu apraksts līdz 2010. gada

novembra beigām/decembra sākumam• Finansiālais novērtējums līdz 2010. gada novembra

beigām/decembra sākumam• Dalības līguma projekts 2010. gada novembrī

Page 12: CLARIN : ziņojums par esošo situāciju

ERIC

• CLARIN ERIC izveidi noteikti atbalsta Nīderlande, Vācija, Somija un Igaunija

• LR IZM plāno atbalstīt CLARIN ERIC izveidi un piekritusi parakstīt saprašanās memoranda (memorandum of understanding) par CLARIN izveidi

Page 13: CLARIN : ziņojums par esošo situāciju

HLT evolution in EstoniaCoordinated actions:• Estonian HLT program supported by the Estonian Informatics Centre (1997-

2000)

• EU FP5 project eVikings II (2002-2005): Roadmap for Estonian HLT 2004-2011

• Centre of Excellence in HLT (2003): successful in first round, failed in final round

• Estonian Language Technology Development Centre (2005): accepted for financing, but failed due to the withdrawal of the main industrial partner

• National programme “Estonian Language and Cultural Heritage” (1999-2003): some HLT-projects funded

• National programme “Estonian Language and National Memory” (2004-2008): sub-programme for Estonian HLT (2004-2005)

• Development Strategy of the Estonian Language 2004-2010

• National Programme for Estonian Language Technology (2006-2010)

Page 14: CLARIN : ziņojums par esošo situāciju

National Programme for Estonian Language Technology 2006-2010

Government supported funding initiative aimed at developing of Estonian language resources and language-specific software in order to enable Estonian to function in the modern information technology environment

Estonian Ministry of Education and Research

Page 15: CLARIN : ziņojums par esošo situāciju

General rules

• financing of projects based on open competition • evaluation of projects based on well-established criteria• international standards/formats need to be followed• groups are requested to provide annual progress reports• developed prototypes and language resources are public

Page 16: CLARIN : ziņojums par esošo situāciju

Statistics: projects & funding

2006 2007 2008 2009 2010

Number of project applications

22 22 (18+4)

23 (20+3)

24 (15+9)

24 (22+2)

Number of funded projects

18 20 (18+2)

23 (20+3)

23 (15+8)

24 (22+2)

Total funding, MEEK (MEUR)

7.3 (0.47)

7.1 (0.46)

13.4 (0.86)

12.9 (0.83)

11.8 (0.75)

Ca 33% for corpus projects, 65% for software & research projects, 1-2% for management

Page 17: CLARIN : ziņojums par esošo situāciju

Supporting activities

• Development of human resources:– Doctoral School of Linguistics and Language Technology

(2005-2008)– Doctoral School in Information and Communication

Technologies (2009-2015)– Centre of Excellence in Computer Science (2008-2015)– Curricula on computer linguistics and language technology

at the University of Tartu – Speech technology course at Tallinn University of

Technology