latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē
TRANSCRIPT
![Page 1: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/1.jpg)
Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē
Normunds GrūzītisGunta Nešpore
LU Matemātikas un informātikas institūtaMākslīgā intelekta laboratorija
Latviešu leksikoloģija, leksikogrāfija un terminoloģijaApvienotais Pasaules latviešu zinātnieku III kongress un Letonikas IV kongress
Rīgā, 2011. gada 25. oktobrī
![Page 2: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/2.jpg)
Īsumā...
• Pilnīga informācija par vārdu = korpuss + vārdnīca– Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu
korpusā• www.korpuss.lv• Morfosintaktiskais marķējums
– Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā
• Korpuss vārdnīca
![Page 3: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/3.jpg)
Informācija par vārdu
1. Formas apraksts – korpuss
2. Leksēmas apraksts – vārdnīca
3. Cita (neskaidra, nevēlama) informācija
• Korpuss: deskriptīvs valodas apraksts– faktiskais lietojums– no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes
• Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi– vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes
īp.v., lokāms/nelokāms/daļēji lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija, ...
![Page 4: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/4.jpg)
Pazīmes
Morfosintaktiskas
MorfoloģiskasSintaktiskas
Leksēmas p.
Korpusā izmantoto pazīmju kopa
Vārdnīcā iekļaujamās leksēmas pazīmes
Ko piesaista (lietojumā), nevis kas piemīt (tipiski)
MULTEXT-East pazīmju kopas atvasinājums, ņemot vērā:- līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā- pieredzi latviešu valodas sintaktiskajā analīzē- pieredzi latviešu valodas ģenerēšanā (sintēzē)- pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē- esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi- latviešu valodniecības tradīciju
![Page 5: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/5.jpg)
Piemērs
pazīme attiecināma uz leksēmu, taču nosakāma ortogrāfiski un/vai kontekstuāli
piem., “daudzstāvu” – Ncmpg
pazīme attiecināma uz leksēmu, taču nosakāma morfoloģiski
Piem., Krustev B. The Bulgarian Morphology in 187 Type Tables. Nauka i Izkustvo, 1984
Marķējumā neiekļautās pazīmes:- kopdzimte- vsk-nieks, dsk-nieks- ģenitīvenis, nelokāms- deklinācija
tradicionālivs.
formāli
![Page 6: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/6.jpg)
Korpusa un vārdnīcas mijiedarbība
• Vārdnīca pilnīga gramatiskā informācija par leksēmu– Precīzai locīšanas paradigmai (t.sk. vārdšķirai) ir jābūt viennozīmīgi
“nolasāmai” vai izsecināmai
• Informācijas atainojums galalietotājam (rādīt/nerādīt, formatējums, secība u.tml.) – sekundārs jautājums
– Mašīnlasāma vārdnīca drukāta, tiešsaistes, mobilā, CD, … vārdnīca
– Dators = “ārzemnieks” (!)
morfosintaktiskās pazīmes
leksēmas pazīmes leksiskā
nozīme
sintaktiskā struktūra
vārdlietojumsdimens. #1
dimens. #2 dimens. #3
dimens. #4
![Page 7: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/7.jpg)
Pieejamie korpusi
Nosaukums Raksturojums
Vārdlie-tojumu
skaits
Morfo-
loģiski marķēts
miljons-2.03,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem.
~3,5 milj. nē
miljons–2.0mlīdzsvarota mūsdienu latviešu valodas korpusa morfoloģiski marķēta versija; morfoloģiskais marķējums nav precīzs, jo nav novērsta daudznozīmība
~3,5 milj. jā
Saeima-2.0Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar metadatiem
22,5 milj. nē
timeklis-1.0liels latviešu valodas tīmekļa korpuss ar daļēju morfoloģisko marķējumu
~97 milj. jā
ledusmanuāli morfoloģiski marķēts paraugkorpuss (P. Bankovskis „Plāns ledus“, 1. nodaļa)
~14 000 jā
sintaktiski anotēts paraugkorpuss
izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros) >900 teik.morf. un
sint. marķēts
![Page 8: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/8.jpg)
Zifa likums
> 100 milj. vārdlietojumu korpuss
![Page 9: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/9.jpg)
Korpuss vārdnīca
• Korpuss (“digitālā kartotēka”) –konkordances–> vārdnīca
• Teorētiski: vispusīgs materiāls, objektīvas analīzes iespējas– “man liekas ka” vs. “faktiski ir tā”
– statistika
– lietojumpiemēri
• biežākie (tipiskie) savienojumi
• stabili vārdu savienojumi
– kolokāciju analīze
– nozīmju dalījums
• piem., valences analīze
![Page 10: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/10.jpg)
Vārdformu biežums
Bonito: Konkordance >> Statistika >> Biežuma sadalījums
![Page 11: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/11.jpg)
Vārdformu biežums
Bonito: Konkordance >> Statistika >> Biežuma sadalījums
![Page 12: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/12.jpg)
KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas
atslēgvārds “iet”:- sakārtots pēc relatīvā biežuma
![Page 13: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/13.jpg)
KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas
atslēgvārds “iet”:- sakārtots pēc absolūtā biežuma
![Page 14: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/14.jpg)
KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas
atslēgvārds “sāpēt”:- sakārtots pēc relatīvā biežuma
![Page 15: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/15.jpg)
Kolokācijas – pēc sintaktiskās valencesBonito: Konkordance >> Statistika >> Kolokācijas
atslēgvārds “skriet”:- pēc dimensijas “tag”
![Page 16: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/16.jpg)
Konkordances kārtošana
Bonito: Konkordance >> Vienkāršā kārtošana (pēc dimensijas “tag”)
![Page 17: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē](https://reader036.vdocuments.site/reader036/viewer/2022081800/55b8b6f7bb61eba1368b467d/html5/thumbnails/17.jpg)
Paldies!www.korpuss.lv www.tezaurs.lv
twitter.com/AILab_lvSekojiet jaunumiem: