es valodu tehnoloģiju pētniecības projekti latvijā

ES valodu tehnoloģiju pētniecības projekti Latvijā

Andrejs Vasiļjevs, TildeCLARIN seminārsRīga, 26.02.2010

Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām?

Kā nodrošināt pētniecībai nepieciešamos valodas resursus? Kā sagatavot un piesaistīt datorlingvistikas speciālistus? Kā nodrošināt pētniecībai un attīstībai nepieciešamo

finansējumu? Kā attīstīt sadarbību starp akadēmisko un uzņēmējdarbības

vidi? Kā pētījumu rezultātus pārvērst plaši lietotās tehnoloģijās

un risinājumos? Kā apgūt labāko pasaules pieredzi?

Valodas tehnoloģiju attīstības izaicinājumi Latvijā

ES programmu iespējas latviešu valodas attīstībai

Latviešu valodas tehnoloģiskā attīstība

EK līdzfinansējums

Starptautisku speciālistu piesaiste

Sadarbība ar vadošajiem

Eiropas pētniecības

centriem

Valodas tehnoloģiju attīstībai pieejamās ES programmas

Mašīntulkošana

Valodas resursi

Terminoloģija

s risinājumi

ES valodas tehnoloģiju projekti

Eiropas sadarbība valodas tehnoloģiju attīstībā

Automātiska lingvistiskās informācijas izguve no liela apjoma paralēlo tekstu korpusiem ir efektīvs risinājums, kas aizstāj ilgstošu ekspertu darbu

Taču pašreizējo datos balstītu metožu lietojumu ierobežo pieejamais paralēlo tekstu apjoms

Valodām un nozarēm, kurām nav pieejami apjomīgi paralēlie korpusi, datos balstītu mašīntulkošanas sistēmu tulkošanas kvalitāte ir neapmierinoši zema

Datos balstītas mašīntulkošanas attīstība

Izveidot inovatīvu sadarbības platformu

datu koplietošanai un mašīntulku ģenerēšanai,

apkopojot publiskos un lietotāju piedāvātos mašīntulkošanas apmācības datus

un no šiem datiem ģenerējot dažādas mašīntulkošanas sistēmas.

LetsMT! projekta mērķis

Tilde (Project Coordinator) Latvija

Edinburgas universitāte Lielbritānija

Zagrebas universitāte Horvātija

Kopenhāgenas universitāte Dānija

Upsalas universitāte Zviedrija

Moravia Čehija

SemLab Nīderlande

LetsMT! partneri

CLARA Common Language Resources

and their Applications

Jauno valodas tehnoloģiju speciālistu sagatavošana,

attīstot pārrobežu sadarbību,

lai veidotu un uzturētu vienotu valodas resursu infrastruktūru,

kas ļaus radīt jaunas paaudzes teorētiskos un praktiskos lingvistiskos modeļus

CLARA projekta mērķi

Bergenas universitāte Tilde Kārļa universitāte Tūbingenas universitāte Kopenhāgenas universitāte Helsinku universitāte Pompeu Fabra universitāte Norvēģijas Ekonomikas un biznesa administrācijas

augstskola Maksa Planka institūts

CLARA partneri

Izpētīt un novērtēt jaunas metodes,

kā salīdzināmais korpuss var kompensēt

lingvistisko resursu trūkumu,

lai būtiski uzlabotu mašīntulkošanas kvalitāti

mazāku valodu un specializētu jomu tulkojumiem.

ACCURAT projekta mērķi

Teksta resursi divās vai vairāk valodās, kas nav tieši tulkojumi, taču ir ar līdzīgu saturu

Dokumentu kopa, kas savākta pēc noteiktiem kritērijiem (piem., līdzīga žanra vienas jomas teksti, kas radīti noteiktā laikposmā), divās vai vairāk valodās, kuru saturs lielākā vai mazākā mērā pārklājas

Piemēri: ziņas dažādās valodās, daudzvalodu tīmekļa lappuses, Wikipedia raksti u.c.

Salīdzināmie korpusi

Fokuss uz mazāk nodrošinātām valodām, tādām kā latviešu, lietuviešu, igauņu, grieķu, horvātu, rumāņu, slovēņu

Tulkošana no/uz lielajām valodām, piemēram, angļu-latviešu, angļu-horvātu, vācu-rumāņu

Mazāk pētīti mašīntulkošanas virzieni, piemēram, latviešu-lietuviešu, lietuviešu-rumāņu, rumāņu-grieķu

ACCURAT projekta valodas

Tilde (projekta koordinators) - Latvija Šefīldas universitāte - Lielbritānija Līdsas universitāte - Lielbritānija Atēnu Informācijas, komunikāciju un zināšanu

tehnoloģiju pētniecības un inovāciju centrs - Grieķija Zagrebas universitāte - Horvātija DFKI - Vācija Rumānijas ZA Mākslīgā intelekta institūts - Rumānija Linguatec - Vācija Zemanta - Slovēnija

ACCURAT projekta partneri

Latvijas Patentu birojs Latvijas universitāte Lokalizācijas industrijas standartu asociācija Pēterburgas Hercena Valsts pedagoģiskā universitāte Eiropas Komisijas Apvienotais pētniecības centrs CLARIN konsorcijs

ACCURAT konsultatīvā padome

Salīdzināmības metrika un atbilstošie rīki

Salīdzināmais korpuss un tā vākšanas un apstrādes rīki

Metodes un rīki salīdzināmā korpusa sastatīšanai dažādos līmeņos

Metodes salīdzināmā korpusa lietojumam statistiskajā un likumbāzētajā mašīntulkošanā

Lietojuma scenāriji un praktiskā noderīguma novērtējums

Sagaidāmie rezultāti

Mašīntulkošanas kvalitātes uzlabošana latviešu un citām mazākām valodām un specializētām jomām

TTCTerminology extraction, translation

tools and comparable corpora

Attīstīt mašīntulkošanas un datorizētās tulkošanas līdzekļus,

automātiski izgūstot divvalodu terminoloģiju

no tīmekļa salīdzināmo korpusu datiem

Eiropas valodās, ieskaitot mazākas valodas.

TTC projekta mērķis

Nantes universitāte Francija

Tilde Latvija

Štutgartes universitāte Vācija

Līdsas universitāte Lielbritānija

Sogitec industries Francija

Syllabs SARL Francija

Eurinnov Francija

TTC Partneri

EASTIN-CLCrosslingual and multimodal Search in a Portal for Support of Assisted Living

Sociālās līdzdalības iespēju sniegšana

vecākiem cilvēkiem un cilvēkiem ar īpašām vajadzībām,

izveidojot viņu vajadzībām piemērotu daudzvalodu portālu,

kas apkopo un tulko informāciju no dažādiem nacionālajiem avotiem.

EASTIN-CL Goals

Linguatec Vācija

Tilde Latvija

Morphologic Ungārija

Institut der deutchen Wirtschaft Vācija

Fondazione don Carlo Gnocchi Itālija

EASTIN-CL projekta partneri

Sadarbība Latvijas līmenī◦ CLARIN Latvija◦ Latviešu valodas nacionālā korpusa iniciatīva

Sadarbība Baltijas līmenī◦ Baltijas HLT konference 2010

Sadarbība Eiropas līmenī◦ FP7, CIP ICT-PSP, Marie Curie programmas

“Horizontālā” sadarbība starp pētniecības iestādēm, atmiņas institūcijām un uzņēmumiem◦ Valodu krasts

Kā virzīt valodas tehnoloģiju attīstību Latvijā

es valodu tehnoloģiju pētniecības projekti latvijā

Documents