„jóízu mazsolázás a korpuszból˝ · pdf...
Post on 05-Mar-2018
220 Views
Preview:
TRANSCRIPT
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
„JÓÍZU MAZSOLÁZÁS A KORPUSZBÓL”
Sass Bálintjoker@nytud.hu
MTA Nyelvtudományi Intézet, Nyelvtechnológiai OsztályPPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program
XVII. MANYE kongresszusSiófok, 2007. április 19–21.
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA
2 MODELL
3 LÉNYEGESSÉG
4 „MAZSOLA”
5 ALKALMAZÁSOK
6 ÍRJUNK SZÓCIKKET!
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA
2 MODELL
3 LÉNYEGESSÉG
4 „MAZSOLA”
5 ALKALMAZÁSOK
6 ÍRJUNK SZÓCIKKET!
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
ALAPÍTÓ ATYÁK
John Rupert Firth John McHardy Sinclair(1933–2007)
„You shall know a word „Language cannot be invented;by the company it keeps.” it can only be captured.”
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
Corpus-based ÉS corpus-driven
1 (introspektív nyelvészet)2 corpus-based módszer
A korpusz segédeszköz, ami empirikus adataivaltámogatja az intuíciót, mérhetové teszi a nyelvijelenségeket, meglévo elméleteket bizonyít/cáfol.
3 corpus-driven módszerA korpusz maga szolgáltatja az „elméletet”, a nyelvészminden elozetes feltevés és elvárás nélkül fordul azadatokhoz. Minden következtetést kizárólagkorpuszmegfigyelésekbol von le.
→ egyfajta corpus-driven szótárírási módszert fogok bemutatni
serendipity principle: jelentos dolog véletlen felfedezése,tipikusan mikor valami egész másra figyelünk
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
KORPUSZOK A LEXIKOGRÁFIA SZOLGÁLATÁBAN
COBUILD: a korpuszok nagy segítséget nyújtanak alexikográfiai munkához
valós nyelvhasználat→ objektív, idiolektustól független munkaúj jelentés, használat felfedezése→ teljesebb szótár
nagy méretu korpuszok→ szükséges a leszurheto tények összegzése
elso: Word Sketch→ Macmillan English Dictionary (2002)
ehhez hasonló új eszközrol lesz most szó, mellyel amagyar igék bovítményszerkezetét lehet kvantitatívantanulmányozni
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA
2 MODELL
3 LÉNYEGESSÉG
4 „MAZSOLA”
5 ALKALMAZÁSOK
6 ÍRJUNK SZÓCIKKET!
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
BOVÍTMÉNYSZERKEZET ÉS JELENTÉS
B. Levin (1993):
Hasonló jelentés hasonló bovítményszerkezettel jár.
Az igék és bovítményeik alkotta jellemzo kollokációkvizsgálatával az igék különféle jelentéseihez jutunkközelebb.
Lehetoség nyílik:adott szó jelentéseit elkülöníteni(’igazat ad’↔ ’tippet ad’↔ ’hangot ad’)hasonló szavak jelentéskülönbségét meghatározni(’emelkedik’↔ ’no’)
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
A MAGYAR MONDAT MODELLJE
bovítményszerkezet:milyen bovítményekkel szokott elofordulni az ige
bovítménykeret
modell: szabad szórend→ az egyszeru mondat (az egyigei keretet tartalmazó egység) egy ige és valahány fonévicsoport halmaza
ige + NP(szóto + eset)–lista
pozíció: morfoszintaktikai pozíció
„összetett” igék: önálló igék, önálló bovítményszerkezettel,önálló jelentéssel
PÉLDA
’vesz’↔ ’vesz részt’↔ ’vesz górcso alá’
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
FELDOLGOZÁSI LÉPÉSEK
forrás: Magyar Nemzeti Szövegtár
tagmondatra bontás
részleges szintaktikai elemzés
funkcionális szerkezet→ a mondat modellje
opcionalizálás: minden bovítmény opcionális
statisztika – a lexikográfia szempontjából lényeges igeikereteket keressük
PÉLDA
’vág hajat’, ’fésül hajat’, ’ad választ -re’,’ad hangot meggyozodésének/véleményének’
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA
2 MODELL
3 LÉNYEGESSÉG
4 „MAZSOLA”
5 ALKALMAZÁSOK
6 ÍRJUNK SZÓCIKKET!
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
LÉNYEGESSÉG
A lényeges keretek/kollokációk megragadására van jóeszközünk: az ún. salience mérték (Kilgarriff 2001)
Adott pozíción álló bovítménynek a keret többi részéhezviszonyított salience-ét tudjuk kiszámolni.
Ez az érték akkor sok, ha a bovítmény és a keret a vártnálgyakrabban fordul elo együtt, és a bovítmény gyakori.Mit tudunk vizsgálni?
Adott ige melletti adott pozícióban mely szavak fordulnak elolegjellemzobben.
. . . beleértve az összetett igéket is.
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
LÉNYEGESSÉG
PÉLDA
’ad -t’ – tárgyi pozíciója salience szerint csökkenoen:’hang’, ’lehetoség’, ’válasz’, ’otthon’, ’tájékoztatás’
→ tényleg gyakori, lényeges szavak
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA
2 MODELL
3 LÉNYEGESSÉG
4 „MAZSOLA”
5 ALKALMAZÁSOK
6 ÍRJUNK SZÓCIKKET!
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
A FELÜLET HASZNÁLATA
http://corpus.nytud.hu/mazsola
Közzétett korpuszok:3-10 szavas mondatok (8mió szó)Magyar Nemzet (12mió szó)Index fórum (18mió szó)
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
A FELÜLET HASZNÁLATA
http://corpus.nytud.hu/mazsola
Közzétett korpuszok:3-10 szavas mondatok (8mió szó)Magyar Nemzet (12mió szó)Index fórum (18mió szó)
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
A FELÜLET HASZNÁLATA
http://corpus.nytud.hu/mazsola
Közzétett korpuszok:3-10 szavas mondatok (8mió szó)Magyar Nemzet (12mió szó)Index fórum (18mió szó)
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
A FELÜLET HASZNÁLATA
http://corpus.nytud.hu/mazsola
Közzétett korpuszok:3-10 szavas mondatok (8mió szó)Magyar Nemzet (12mió szó)Index fórum (18mió szó)
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
A FELÜLET HASZNÁLATA
http://corpus.nytud.hu/mazsola
Közzétett korpuszok:3-10 szavas mondatok (8mió szó)Magyar Nemzet (12mió szó)Index fórum (18mió szó)
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
A FELÜLET HASZNÁLATA
http://corpus.nytud.hu/mazsola
Közzétett korpuszok:3-10 szavas mondatok (8mió szó)Magyar Nemzet (12mió szó)Index fórum (18mió szó)
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: STÍLUSRÉTEGEK ÖSSZEHASONLÍTÁSA
PÉLDA
’ad -t’ kereta Magyar Nemzetben és az Index fórumban
közös elemek
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: STÍLUSRÉTEGEK ÖSSZEHASONLÍTÁSA
PÉLDA
’ad -t’ kereta Magyar Nemzetben és az Index fórumban
eltérések
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: ÖSSZETETT IGÉK
’hány -t’
→ fitty
’hány -rA’
→ szem
’kerül alá’
→ víz, kalapács, fennhatóság
’rejt alá’
→ véka
’hoz alá’
→ teto
’helyez alá’
→ vád
’vesz alá’
→ górcso, kalap, tuz
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: ÖSSZETETT IGÉK
’hány -t’→ fitty
’hány -rA’
→ szem
’kerül alá’
→ víz, kalapács, fennhatóság
’rejt alá’
→ véka
’hoz alá’
→ teto
’helyez alá’
→ vád
’vesz alá’
→ górcso, kalap, tuz
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: ÖSSZETETT IGÉK
’hány -t’→ fitty
’hány -rA’→ szem
’kerül alá’
→ víz, kalapács, fennhatóság
’rejt alá’
→ véka
’hoz alá’
→ teto
’helyez alá’
→ vád
’vesz alá’
→ górcso, kalap, tuz
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: ÖSSZETETT IGÉK
’hány -t’→ fitty
’hány -rA’→ szem
’kerül alá’→ víz, kalapács, fennhatóság
’rejt alá’
→ véka
’hoz alá’
→ teto
’helyez alá’
→ vád
’vesz alá’
→ górcso, kalap, tuz
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: ÖSSZETETT IGÉK
’hány -t’→ fitty
’hány -rA’→ szem
’kerül alá’→ víz, kalapács, fennhatóság
’rejt alá’→ véka
’hoz alá’
→ teto
’helyez alá’
→ vád
’vesz alá’
→ górcso, kalap, tuz
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: ÖSSZETETT IGÉK
’hány -t’→ fitty
’hány -rA’→ szem
’kerül alá’→ víz, kalapács, fennhatóság
’rejt alá’→ véka
’hoz alá’→ teto
’helyez alá’
→ vád
’vesz alá’
→ górcso, kalap, tuz
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: ÖSSZETETT IGÉK
’hány -t’→ fitty
’hány -rA’→ szem
’kerül alá’→ víz, kalapács, fennhatóság
’rejt alá’→ véka
’hoz alá’→ teto
’helyez alá’→ vád
’vesz alá’
→ górcso, kalap, tuz
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: ÖSSZETETT IGÉK
’hány -t’→ fitty
’hány -rA’→ szem
’kerül alá’→ víz, kalapács, fennhatóság
’rejt alá’→ véka
’hoz alá’→ teto
’helyez alá’→ vád
’vesz alá’→ górcso, kalap, tuz
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA
2 MODELL
3 LÉNYEGESSÉG
4 „MAZSOLA”
5 ALKALMAZÁSOK
6 ÍRJUNK SZÓCIKKET!
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
HOL HASZNÁLJUK?
készülo magyar-angol gépi fordítóprogramvonzatkereteinek fix lemmákkal való lekötésekor
magyar WordNet kialakításakor
terv:német-magyar valenciaszótár munkálatainak támogatásáraigék szemantikai osztályozása→ szinonímaszótár
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
IGÉK SZEMANTIKAI OSZTÁLYOZÁSA
no növekedikalany: szám arány ár alany: szám arány érdeklodés-bAn: mérték év -bAn: mérték év-rA: forint százalék dupla -rA: év-vAl: százalék forint -vAl: százalék forint
emelkedik drágulalany: szám ár árfolyam alany: részvény TVK kenyér-bAn: mérték év -bAn: mérték forgalom-rA: forint jogero százalék -rA: forint-vAl: százalék forint -vAl: százalék forint
nyújt, megad, kínálreagál, válaszol, felel
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA
2 MODELL
3 LÉNYEGESSÉG
4 „MAZSOLA”
5 ALKALMAZÁSOK
6 ÍRJUNK SZÓCIKKET!
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
MINIMUM 150 ELOFORDULÁS
Sinclair (1993): legalább 150 példa kell ahhoz, hogymegbízhatóan számolhassunk be egy szó jelentéseirol
illusztrációképpen két ilyen ige:’forog’ – 255 találat’fest’ – 319 találata Magyar Nemzet korpuszbólnem dolgozunk ki teljes szócikket:induktív megállapításokat teszünk az eszköz segítségével,amik aztán egy szócikkbe épülhetnének be
a tapasztalatokat helyenként összevetemaz ÉKSz szócikkeivel
Elv: az 5-nél kevesebbszer eloforduló jelenségeketáltalában nem vesszük figyelembe statisztikaimegállapítások megtételekor
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
MÓDSZER
1 jellemzo mondatokat keresünk
2 feldolgozzuk oket
3 a feldolgozott mondatokat elhagyva,a maradékon folytatjuk a munkát
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: forog (1/2)
Elso mondat: ’forog veszély-ban’→ nézzük a ’-ban’-t:’veszély’ és ’sír’ (’kör’, ’érték’ . . . )
Mi forog veszélyben:’élet’ (’biztonság’, ’diadal’, ’konszenzus’ . . . )→ mindenféle pozitív dolgokValóban: ’betegség’, ’veszteség’ nem szokott→ ez ennek az összetett igének a jelentéséhez tartozik!
ÉKSz. kifejezései:’szóban’, ’szonyegen’, ’veszélyben’Gyakoriság szerint ez adódik:’veszélyben’, ’sírjában’
41 találatot (16%-ot) így feldolgoztunk
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: forog (2/2)
’forog -n’→ ’kockán’Mi? Azt látjuk, hogy nincs jellegzetes alany.
’papír’, ’részvény’ is lehet alany’forog alatt/felett’ csak ilyen (ÉKSz-ben nincs!)’forog között’→ van egy élo alanyú másik jelentés
Általában mi a jellegzetes alany?’papír’, ’részvény’, ’élet’, ’lét’, ’világ’’forog világ körül’↔ ’forog világ -val’
’forog papír/részvény -n’’forinton’, ’áron’↔ ’tozsdén’
154 találatot (60%-ot) így feldolgoztunk
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: fest (1/2)
tárgyas ige: ’fest -t’egyértelmuen legjellegzetesebb tárgy: ’kép’→ a tárgyak 42%-a ’kép’→ az összes ’fest’ elofordulás 25%-a: ’fest képet’!
jellegzetes alanya nincs
’fest kép-t -ról’→ ’helyzet’, ’állapot’
Mindig tárgyas?’fest NEM-t alany’nem (22%), és jellemzonek látszik az ’úgy’ szó jelenléte
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
PÉLDA: fest (2/2)
Ha nem kötjük meg a tárgy hiányát,ugyanannyi találatot kapunk!→ a ’fest úgy’ keret szigorúan tárgyatlan (= ÉKSz.)
’fest -vel’→ nincs jellegzetes
’fest -ra’→ ’fal’
’fest kép-t -ról’ (17%) – foleg átvitt értelem’fest kép-t NEM-ról’ (8%) – foleg konkrét értelem
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
JAVASLAT
gyakoriság fontos szerepe:bovítmény kötelezosége↔ ritkaságamely jelentéseket vegyük fel a szótárbamilyen sorrendben szerepeltessük a jelentéseket
gyakoriság↔ „alapjelentés”vö: ’vesz részt’ önmagában a ’vesz’ 20%-át adja
összetett igék: önálló igék, önálló vonzatkerettel→ önálló lexémák?
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
BIBLIOGRÁFIA
Firth, J.R. 1957. A synopsis of linguistic theory 1930-55.Studies in linguistic analysis 1–32
Kilgarriff, A., Tugwell D. 2001. Word Sketch: Extraction and display ofsignificant collocations for lexicography.In: Proceedings of the 39th Meeting of the Association forComputational Linguistics, Workshop on Collocation: ComputationalExtraction, Analysis and Exploitation, Toulouse 32–38
Levin, B. 1993. English Verb Classes and Alternations.The University of Chicago Press
Sass B. 2007. „Mazsola” – eszköz a magyar igékbovítményszerkezetének vizsgálatára.In: I. Alkalmazott Nyelvészeti Doktorandusz Konferencia kötete(megjelenés alatt)http://www.nytud.hu/oszt/korpusz/resources/sb_mazsola_eszkoz.doc
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
HOZZÁFÉRÉS
http://corpus.nytud.hu/mazsola
Tessék kipróbálni!
felhasználói név: manyejelszó: xvii
Személyes jelszó igénylése: joker@nytud.hu
Köszönöm a figyelmet!
Korpusznyelvészet és lexikográfia Modell Lényegesség „Mazsola” Alkalmazások Írjunk szócikket! Befejezés
HOZZÁFÉRÉS
http://corpus.nytud.hu/mazsola
Tessék kipróbálni!
felhasználói név: manyejelszó: xvii
Személyes jelszó igénylése: joker@nytud.hu
Köszönöm a figyelmet!
top related