es valodu tehnoloģiju pētniecības projekti latvijā
DESCRIPTION
ES valodu tehnoloģiju pētniecības projekti Latvijā. Andrejs Vasiļjevs, Tilde CLARIN seminārs Rīga, 26.02.2010. Valodas tehnoloģiju attīstības izaicinājumi Latvijā. Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām? - PowerPoint PPT PresentationTRANSCRIPT
ES valodu tehnoloģiju pētniecības projekti Latvijā
Andrejs Vasiļjevs, TildeCLARIN seminārsRīga, 26.02.2010
Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām?
Kā nodrošināt pētniecībai nepieciešamos valodas resursus? Kā sagatavot un piesaistīt datorlingvistikas speciālistus? Kā nodrošināt pētniecībai un attīstībai nepieciešamo
finansējumu? Kā attīstīt sadarbību starp akadēmisko un uzņēmējdarbības
vidi? Kā pētījumu rezultātus pārvērst plaši lietotās tehnoloģijās
un risinājumos? Kā apgūt labāko pasaules pieredzi?
Valodas tehnoloģiju attīstības izaicinājumi Latvijā
ES programmu iespējas latviešu valodas attīstībai
Latviešu valodas tehnoloģiskā attīstība
EK līdzfinansējums
Starptautisku speciālistu piesaiste
Sadarbība ar vadošajiem
Eiropas pētniecības
centriem
Valodas tehnoloģiju attīstībai pieejamās ES programmas
Mašīntulkošana
Valodas resursi
Terminoloģija
s risinājumi
ES valodas tehnoloģiju projekti
Eiropas sadarbība valodas tehnoloģiju attīstībā
Automātiska lingvistiskās informācijas izguve no liela apjoma paralēlo tekstu korpusiem ir efektīvs risinājums, kas aizstāj ilgstošu ekspertu darbu
Taču pašreizējo datos balstītu metožu lietojumu ierobežo pieejamais paralēlo tekstu apjoms
Valodām un nozarēm, kurām nav pieejami apjomīgi paralēlie korpusi, datos balstītu mašīntulkošanas sistēmu tulkošanas kvalitāte ir neapmierinoši zema
Datos balstītas mašīntulkošanas attīstība
Izveidot inovatīvu sadarbības platformu
datu koplietošanai un mašīntulku ģenerēšanai,
apkopojot publiskos un lietotāju piedāvātos mašīntulkošanas apmācības datus
un no šiem datiem ģenerējot dažādas mašīntulkošanas sistēmas.
LetsMT! projekta mērķis
Tilde (Project Coordinator) Latvija
Edinburgas universitāte Lielbritānija
Zagrebas universitāte Horvātija
Kopenhāgenas universitāte Dānija
Upsalas universitāte Zviedrija
Moravia Čehija
SemLab Nīderlande
LetsMT! partneri
CLARA Common Language Resources
and their Applications
Jauno valodas tehnoloģiju speciālistu sagatavošana,
attīstot pārrobežu sadarbību,
lai veidotu un uzturētu vienotu valodas resursu infrastruktūru,
kas ļaus radīt jaunas paaudzes teorētiskos un praktiskos lingvistiskos modeļus
CLARA projekta mērķi
Bergenas universitāte Tilde Kārļa universitāte Tūbingenas universitāte Kopenhāgenas universitāte Helsinku universitāte Pompeu Fabra universitāte Norvēģijas Ekonomikas un biznesa administrācijas
augstskola Maksa Planka institūts
CLARA partneri
Izpētīt un novērtēt jaunas metodes,
kā salīdzināmais korpuss var kompensēt
lingvistisko resursu trūkumu,
lai būtiski uzlabotu mašīntulkošanas kvalitāti
mazāku valodu un specializētu jomu tulkojumiem.
ACCURAT projekta mērķi
Teksta resursi divās vai vairāk valodās, kas nav tieši tulkojumi, taču ir ar līdzīgu saturu
Dokumentu kopa, kas savākta pēc noteiktiem kritērijiem (piem., līdzīga žanra vienas jomas teksti, kas radīti noteiktā laikposmā), divās vai vairāk valodās, kuru saturs lielākā vai mazākā mērā pārklājas
Piemēri: ziņas dažādās valodās, daudzvalodu tīmekļa lappuses, Wikipedia raksti u.c.
Salīdzināmie korpusi
Fokuss uz mazāk nodrošinātām valodām, tādām kā latviešu, lietuviešu, igauņu, grieķu, horvātu, rumāņu, slovēņu
Tulkošana no/uz lielajām valodām, piemēram, angļu-latviešu, angļu-horvātu, vācu-rumāņu
Mazāk pētīti mašīntulkošanas virzieni, piemēram, latviešu-lietuviešu, lietuviešu-rumāņu, rumāņu-grieķu
ACCURAT projekta valodas
Tilde (projekta koordinators) - Latvija Šefīldas universitāte - Lielbritānija Līdsas universitāte - Lielbritānija Atēnu Informācijas, komunikāciju un zināšanu
tehnoloģiju pētniecības un inovāciju centrs - Grieķija Zagrebas universitāte - Horvātija DFKI - Vācija Rumānijas ZA Mākslīgā intelekta institūts - Rumānija Linguatec - Vācija Zemanta - Slovēnija
ACCURAT projekta partneri
Latvijas Patentu birojs Latvijas universitāte Lokalizācijas industrijas standartu asociācija Pēterburgas Hercena Valsts pedagoģiskā universitāte Eiropas Komisijas Apvienotais pētniecības centrs CLARIN konsorcijs
ACCURAT konsultatīvā padome
Salīdzināmības metrika un atbilstošie rīki
Salīdzināmais korpuss un tā vākšanas un apstrādes rīki
Metodes un rīki salīdzināmā korpusa sastatīšanai dažādos līmeņos
Metodes salīdzināmā korpusa lietojumam statistiskajā un likumbāzētajā mašīntulkošanā
Lietojuma scenāriji un praktiskā noderīguma novērtējums
Sagaidāmie rezultāti
Mašīntulkošanas kvalitātes uzlabošana latviešu un citām mazākām valodām un specializētām jomām
TTCTerminology extraction, translation
tools and comparable corpora
Attīstīt mašīntulkošanas un datorizētās tulkošanas līdzekļus,
automātiski izgūstot divvalodu terminoloģiju
no tīmekļa salīdzināmo korpusu datiem
Eiropas valodās, ieskaitot mazākas valodas.
TTC projekta mērķis
Nantes universitāte Francija
Tilde Latvija
Štutgartes universitāte Vācija
Līdsas universitāte Lielbritānija
Sogitec industries Francija
Syllabs SARL Francija
Eurinnov Francija
TTC Partneri
EASTIN-CLCrosslingual and multimodal Search in a Portal for Support of Assisted Living
Sociālās līdzdalības iespēju sniegšana
vecākiem cilvēkiem un cilvēkiem ar īpašām vajadzībām,
izveidojot viņu vajadzībām piemērotu daudzvalodu portālu,
kas apkopo un tulko informāciju no dažādiem nacionālajiem avotiem.
EASTIN-CL Goals
Linguatec Vācija
Tilde Latvija
Morphologic Ungārija
Institut der deutchen Wirtschaft Vācija
Fondazione don Carlo Gnocchi Itālija
EASTIN-CL projekta partneri
Sadarbība Latvijas līmenī◦ CLARIN Latvija◦ Latviešu valodas nacionālā korpusa iniciatīva
Sadarbība Baltijas līmenī◦ Baltijas HLT konference 2010
Sadarbība Eiropas līmenī◦ FP7, CIP ICT-PSP, Marie Curie programmas
“Horizontālā” sadarbība starp pētniecības iestādēm, atmiņas institūcijām un uzņēmumiem◦ Valodu krasts
Kā virzīt valodas tehnoloģiju attīstību Latvijā