mūsdienu latviešu valodas korpuss un tā izmantošana

29
Mūsdienu latviešu valodas korpuss un tā izmantošana Everita Andronova LU Matemātikas un informātikas institūts [email protected] CLARIN projekta seminārs 2009. gada 4.-5. februāris

Upload: marty

Post on 07-Feb-2016

112 views

Category:

Documents


2 download

DESCRIPTION

Mūsdienu latviešu valodas korpuss un tā izmantošana. Everita Andronova LU Matemātikas un informātikas institūts [email protected] CLARIN projekta seminārs 2009. gada 4.-5. februāris. KORPUSA PRIEKŠROCĪBAS. Korpuss ļauj pētīt īstu valodu - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Mūsdienu latviešu valodas korpuss un tā izmantošana

Mūsdienu latviešu valodas korpuss un tā izmantošana

Everita AndronovaLU Matemātikas un informātikas institūts

[email protected]

CLARIN projekta seminārs2009. gada 4.-5. februāris

Page 2: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSA PRIEKŠROCĪBAS Korpuss ļauj pētīt īstu valodu

Atskats vēsturē: jebkurš dzimtās valodas runātājs 10 minūšu laikā var izdomāt vairāk piemēru par jebkuru gramatikas jautājumu, nekā iespējams atrast nejaušu tekstu daudzajos vārdlietojumos (V. N. Frensiss)

Neviens korpuss nesaturēs visu informāciju par man interesējošiem valodas jautājumiem; pat neliels korpuss palīdz iegūt faktus, ko nekādā citā veidā nebūtu iespējams uzzināt (Č. Filmors)

Page 3: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSA JĒDZIENS

jebkurš tekstu masīvs (antīkās literatūras tekstu korpuss) mašīnlasāms teksts maksimāli līdzsvarota mašīnlasāmu tekstu izlase kā

valodas pētīšanas instruments

Korpuslingvistikā un datorlingvistikā par korpusu tiek uzskatīts reprezentatīvs rakstīta teksta vai transkribētas runas kopums elektroniskā formā, ko izmanto valodas (dialekta, valodas stila) analīzē un aprakstā.

Page 4: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSA AIZSĀKUMI

Kopš XX gs. vidus tekstu uzkrāšana elektroniskā formā: The Brown Standard Corpus of American English – 1961.g. 1 milj. ASV angļu valodas lietojumu

London - Lund corpus – apm. 500 000 britu angļu valodas vārdlietojumu, kas savākti 60. g. b. un 70. g. s.

pirmo korpusu veidotāju klusās cerības citiem nevajadzēs veidot savu korpusu zinātniekiem tiks sniegta standarta datu kopa valodas

analīzei

Page 5: Mūsdienu latviešu valodas korpuss un tā izmantošana

SAPNIS PAR KORPUSU - 1

Korpuss ļauj pētīt reālo valodu un atklāt līdz šim nepamanītas lietas. Korpuss pamana tipisko (skaitliski nozīmīgo).

N. Čomskis: valodas runātāja kompetence vs. valodas lietojums

Page 6: Mūsdienu latviešu valodas korpuss un tā izmantošana

SAPNIS PAR KORPUSU - 2

Labam korpusam jābūt līdzsvarotam un reprezentatīvam. Rezultāti, kurus iegūstam no korpusa analīzes, var tikt attiecināti uz visu valodu vai tās noteiktu daļu.

Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description [of language based on the corpus] would be no more than a mere list. (Chomsky, Noam. Syntactic structures. The Hague, 1957, p. 159)

Page 7: Mūsdienu latviešu valodas korpuss un tā izmantošana

REPREZENTATIVITĀTE

valodas runātāju intuīcija un valodnieciskā pieredze: korpuss ir reprezentatīvs, ja tajā ir sastopami visi vairāk vai mazāk parasti vārdi, frāzes un teikuma struktūras;

valodas funkcionālo stilu atspoguļojums: korpuss ir reprezentatīvs, ja tajā ir vairāk vai mazāk visu valodas funkcionālo stilu teksti un teksti ir ievietoti korpusā, ievērojot zināmas proporcijas;

korpusā iekļauto tekstu autentiskums: korpuss ir reprezentatīvs, ja tas uzticami atspoguļo īstu valodu, tas nozīmē bez „labojumiem”, izņemot formālas izmaiņas (formatējuma, fonta vienādošana u. tml.).

Page 8: Mūsdienu latviešu valodas korpuss un tā izmantošana

ŠODIEN SEMINĀRĀ

Ievads par valodas korpusu Iepazīšanās ar www.korpuss.lv Praktiskais darbs ar

Līdzsvarotu miljons vārdlietojumu lielu mūsdienu latviešu valodas korpusu u.c.

Page 9: Mūsdienu latviešu valodas korpuss un tā izmantošana

ELEKTRONISKO RESURSU VEIDI tekstu arhīvs — viegli lasāma elektronisku tekstu

krātuve, kur teksti nav nekādā veidā saskaņoti (piem., latviešu klasiķu darbi www.ailab.lv/Teksti)≈ datorfonds (piem., latviešu sakāmvārdu datorfonds http://valoda.ailab.lv/folklora/sakamvardi/)

elektroniskā bibliotēka — elektronisku tekstu krājums standartizētā formātā ar īpašiem satura u. c. izveides noteikumiem, bet bez striktiem atlases kritērijiem (piem., folkloristikas elektroniskā bibliotēka www.korpuss.lv/feb/)

(runas, tekstu) korpuss(piem., latviešu valodas seno tekstu korpuss www.korpuss.lv/SENIE)

Page 10: Mūsdienu latviešu valodas korpuss un tā izmantošana

IESKATS TERMINA VĒSTURĒ (kopš XX gs. v.) mašīnfonds (sal. машинный фонд русского языка) corpus angliski runājošās valstīs Deutsches Referenzkorpus (DEREKO); Corpus di

Italiano Scritto; Český národní korpus; korpus suvremenoga hrvatskoga jezika; Korpus języka polskiego wydawnictwa naukowego PWN; Eesti kirjakeele korpus

Latvijā – datorfonds, datu bāzes, arī korpuss Lietuvā – tekstynas

Page 11: Mūsdienu latviešu valodas korpuss un tā izmantošana

KĀPĒC VAJADZĪGS JAUNS ELEKTRONISKO RESURSU VEIDS? Speciāla korpusa platforma, kas, noindeksējot

tekstus (marķētus/nemarķētus), sniedz papildu informāciju: vārdformu indeksu vārdformu (/pamatformu) biežumu sarakstu un

pārklājumu korpusā konkordances programma ļauj skatīt vārdformas

apkaimi (kontekstu), kārtot pēc biežuma, L/K konteksta

vārdu savienojumu analīzi, gramatisko attieksmju analīzi

Page 12: Mūsdienu latviešu valodas korpuss un tā izmantošana

P.S. KONKORDANCE

Aleksanders Krudens (Alexander Cruden) 1736.g. publicēja karaļa Džeimsa Bībeles tulkojuma konkordanci. Līdz 1879.g. iznāca 42 izdevumi. Šajā konkordancē bija ne tikai, autoraprāt, nozīmīgākie patstāvīgie vārdi Bībelē, bet arī daži palīgvārdi un vārdusavienojumi.

Page 13: Mūsdienu latviešu valodas korpuss un tā izmantošana

P.S. KONKORDANCE

Konkordance ir vārdnīca vai Bībeles indekss, kurā visi vārdi, kas ir sastopami Svētajos Rakstos, ir sakārtoti alfabēta secībā, un blakus pievienotas dažādās teksta vietas, kur tie parādās, lai palīdzētu atrast pantus un lai varētu salīdzināt viena un tā paša vārda vairākās nozīmes.

Aleksanders Krudens

Svēto Rakstu pilnās konkordances priekšvārdā

Page 14: Mūsdienu latviešu valodas korpuss un tā izmantošana

KĀPĒC LATVIEŠU VALODAI VAJADZĪGS KORPUSS? Jo vairāk labāku datu par latviešu valodu, jo kvalitatīvākas

zināšanas, ko izmanto valodas apstrādes tehnoloģijas Agrāk meklējām nezināmos vārdus vārdnīcā, tagad Google

meklētājā Runas datu izmantošana GPS, dialoga sistēmās, teksta

nolasīšana no ekrāna Pilnīga valodas izpēte un pilnvērtīga attīstība nākotnē

Mūsdienu lietuviešu valodas korpuss (100 milj.  vārdliet. donelaitis.vdu.lt),

Krievu valodas nacionālais korpuss (150 milj.  vārdliet. www.ruscorpora.ru),

Igauņu valodas korpuss (95 milj.  vārdliet. http://www.cl.ut.ee/korpused/)

Page 15: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSA IZVEIDE – jautājumi pirms tam Kāds būs korpuss: vienvalodas, divvalodu,

daudzvalodu? Kāds būs lietojuma mērķis: tulkošanas pētījumi,

studentu valodas prasmju izvērtēšana, gramatikas rakstīšana, sinhroni vai diahroni valodas pētījumi, vārdnīcu veidošana, kāda noteikta valodas stila izpēte u.c. Realitāte: korpusa izveide ir visnotaļ dārgs un

laikietilpīgs process, tāpēc tas tiks izmantots arī citiem mērķiem

Page 16: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSA SATURS – TEKSTU IZVĒLE, IEGUVE UN UZKRĀŠANA Kāda veida teksti būs valodas korpusā, kādas būs to

proporcijas, kādā veidā tie tiks iegūti, kāds laika periods tiks aptverts?

Kādā veidā tiks atlasīti teksti, lai tie būtu tipiski un reprezentatīvi?

Vai valodas korpuss būs noslēgts vai pastāvīgi papildināms?

galīgi (statiski) vs. bezgalīgi (dinamiski) (G.Kennedy dynamic vs. J.Sinclair monitor corpora)

Dinamiskā korpusa uzdevums – novērot valodas (gramatisko, semantisko) modeļu maiņu laikā. Dati šādā korpusā visbiežāk ir oportūnistiski un nebūt nav līdzsvaroti. Galvenais korpusa izveides kritērijs – daudzums.

Page 17: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSA IZVEIDE – MARĶĒJUMS Lai korpusa dati būtu mašīnlasāmi un saprotami, kā

arī papildināmi un korpusa daļas savstarpēji savietojamas, svarīgi ir vienoties par uzkrājamo tekstu formātu – marķējuma standartiem, kā arī tekstu dažādo versiju (piem., tīrs teksts, pārbaudīts teksts, anotēts teksts) uzturēšanu.

Jāizstrādā korpusa mērķiem atbilstoša marķēšanas metodika. Lai atrisinātu gramatiskās un semantiskās neviennozīmības

jautājumus, ir nepieciešamas teorētiskās nostādnes morfoloģijas, sintakses un citos jautājumos, kas latviešu valodniecībā nav līdz galam atrisināti vai vispār maz pētīti.

Page 18: Mūsdienu latviešu valodas korpuss un tā izmantošana

KĀDS KORPUSS?

Runas vs. rakstītas valodas korpuss Vispārīgs [latviešu valodas] korpuss vs. speciāls

(izlokšņu; kāda funkcionālā stila; kādas konkrētas vecuma grupas korpuss; noteikta reģiona [latviešu valodas] korpuss; [latviešu] valodas apguvēju korpuss; noteikta laika perioda tekstu korpuss)

Sinhronisks vs. diahronisks korpuss Vienvalodas vs. divu vai vairāku valodu korpuss Multimodāls korpuss, kas apvieno tekstu, skaņu un attēlu

Page 19: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSA IZMANTOŠANA

Gramatikas un citu valodniecības jautājumu izpētē Mūsdienu valodas pētīšanai kopumā (skatot gan runāto, gan

rakstīto valodu) Salīdzināmā valodas analīze gan laika šķērsgriezumā (piem.,

diahroniskais korpuss), gan pēc funkcionālajiem stiliem (piem., zinātnisko tekstu valoda; juridisko tekstu valoda u. tml.), gan arī viena veida tekstu kopumā (piem., daiļliteratūras apakškorpuss, kurā ir gan oriģinālliteratūra, gan tulkotā literatūra).

Leksikogrāfijā – bez korpusa un korpusa rīkiem nevar mūsdienās uzrakstīt labu vārdnīcu (statistikas dati, vārdu savienojumu analīze, t.s. hapax legomenon u.c.)

Page 20: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSA IZMANTOŠANA Terminoloģijas izstrādē Valodas mācīšanā Tulkošanas studijās un tulk(otāj)u apmācībā Mašīntulkošanā Dabīgās valodas apstrādē (morfoloģijas, sintakses

daudznozīmības risinājumi), informācijas izguve, precedenta mašīnmācīšanās

Tiesu ekspertīzēs Psiholingvistikā, sociolingvistikā

Bērnu valodas korpuss ļauj izsekot valodas apgūšanas problēmām; tas lieti noder ne tikai psiholingvistikā, bet arī datorlingvistikā automatizētu sistēmu modelēšanā.

Humanitārajās zinātnēs vispār

Page 21: Mūsdienu latviešu valodas korpuss un tā izmantošana

BALTIŅŠ (www.ailab.lv/SENIE)baltiņš (1) s. m. baltiņsch (1)

Baltiņsch Ein weißer Schilling. it. Ein Setznetze, Ein blenke. Fuer1650_70_1ms, 4018.

1. ‘baltais šiliņš (šiliņš – kopš 14. gs. sudraba monēta vairākās Eiropas valstīs; acīmredzot nosaukumā norāde uz sudraba gaišo krāsu)’.

2. ‘zvejas tīkls’.

3. ‘klajums mežā, meža pļava’.

balts.

Page 22: Mūsdienu latviešu valodas korpuss un tā izmantošana

BALTIŅŠ (latviešu valodas vārdnīcās) ME (1. sēj., 1923–1925):

ein weisses Pferd, gew. Ein altes, schwaches weisses Pferd

LLVV (2. sēj., 1973): Zirgs ar baltu vai ļoti gaišu apmatojumu (parasti neliels un ne visai spēcīgs)

LVV (1987): Zirgs ar baltu vai gaišpelēku spalvu

MLVV (2003–2008):

Zirgs ar baltu vai gaišpelēku spalvu

Page 23: Mūsdienu latviešu valodas korpuss un tā izmantošana

MŪSDIENU LATVIEŠU VALODAS KORPUSS: (www.korpuss.lv) 1 miljons vārdlietojumu (1991–2008)

Page 24: Mūsdienu latviešu valodas korpuss un tā izmantošana

NEMARĶĒTS KORPUSS

Page 25: Mūsdienu latviešu valodas korpuss un tā izmantošana

MARĶĒJUMA VEIDI

Page 26: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)

no <Spg> nokabatas <Ncfsg4> kabatarēgojās <Vmyisii33san> rēgotiesadītas <Vmnpdfsgpsn> adītcepures <Ncfsg5> cepurestūris <Ncmsn2> stūris. viņš <Pp3msn> viņšto <Pdnfsa> tāpikti <Rpm> piktiiestūķēja <Vmnistp33san> iestūķētdziļāk <Rcp> dziļāk

Page 27: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)

Page 28: Mūsdienu latviešu valodas korpuss un tā izmantošana

KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)

Page 29: Mūsdienu latviešu valodas korpuss un tā izmantošana

Paldies par uzmanību!

Jautājumi?

Ķeramies pie uzdevumiem