nova generacija računalne obrade jezika · 2020. 1. 27. · rali d. Ćavar outline jezik...
TRANSCRIPT
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Nova generacija računalne obrade jezika
Damir Ćavar
Odjel za lingvistiku u.o., Sveučilište u Zadru
34. skup IT profesionalaca u Splitu 2009
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
1 Jezik
2 Modeliranje lingvističke jezgre
3 Namjena
4 Modeli
5 Comments
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?
Govor: percepcijaKontinuirani nediskretni akustički događaji u vrijemenu
Spektrum varijacije energije na frekvencijama od100–11000 HzFormanti: koncentracija energije na određenimfrekvencijamaPrijelazi između šuma i tišine
Govor: artikulacijaKontinuirani nediskretne promjene u vokalnome traktu
Put zraka; položaj jezika, usana; stanje glasnice itd.
kao niz kompleksnih motornih instrukcija
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?
© Davor Petrinović
http://dog.zesoi.fer.hr/predavanja/HTML/Osnoveprocesanastajanjagovora.htm
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?
Time (s)0.8647 2.367
0
1.2·1041.1160778
CzyToSasza?
spektralna analiza rečenice:
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Razine lingvističke analize (teorije i modeli):Fonetika i fonologija: zvukovi i fonemiMorfologija: morfemi i riječiSintaksa: rečenica (i možda kontekst)Semantika: značenje rečenice (možda u kontekstu)Pragmatika: govorni čina, itd.itd.
Iluzija zato što:lingvističke jedinice ne koreliraju nužno s fizičkimaspektima jezika,nego su kognitivne interpretacije akustičkog događaja.
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Ekstralingvistička dimenzija:Kognitivni sustav i njegove osobine (npr. Lazy evaluation,Least Effort, Last Resort, pamćenje)Govorna situacija (npr. šum, događaji, biološki uvjeti)
Lingvistička kognitivna jezgra:Neovisne formalne osobine jezika
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Fonološka razinaRazličiti (nediskretni) zvukovi klasificirani kao jednalinkvistička jedinica → fonemOsnova: teorija ovisnosti i interdependencije zvukova injihova kombinatorikaPrimjer: hrvatski i španjolski “r ” (torero – onaj koji se boris bikom; torrero – npr. stražar u svjetioniku)
Fonotaktička razina:Hrvatski prihvaća “dla” a ne “ lda” kao slog ili početak riječi
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Morfološka razinaFonemi se slažu u morfeme, tj. najmanje jedinice kojeimaju značaj ili neku funkciju, i koje se spajaju u riječiOsnova: teorija značenja i funkcija, ovisnosti iinterdependencije morfema i njihova kombinatorikaPrimjer: hrvatski glagol “čitati” se može razdvojiti u dvaminimalna dijela “čita-” i “-ti” s posebnim značenjem ifunkcijama
Morfotaktička razina:Hrvatski glagoli tipa “čita” se mogu kombinirati sasufiksima kao “-m” i “-š”, ali ne s “-om”, iako je “-om”legitiman sufiks hrvatskog jezika (npr. u riječi ruk-om)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Sintaktiča razinaRiječi se slažu u rečeniceIako imamo dojam da su skoro sve kombinacije moguće,hrvatski je sintaktički jako ograničen
Primjer:Može biti: Ivan se penje na krov.Ne može biti: Krov Ivan se penje na. ili Ivan se krov penjena. itd.
Dodatni problemi:Što znači: Ivan je nazvao nekog čovjeka iz Pariza.Tko je on u: Ivan ga je nazvao. i Ivan tvrdi da ga jeMarija nazvala.
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Sintaktiča stabla i hijerarhijska struktura
R
GF
IF
PF
iz Pariza
I
čovjeka
Č
nekog
nazvao
PG
je
IF
Ivan
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Sintaktiča stabla i hijerarhijska struktura
R
GF
PF
iz Pariza
IF
I
čovjeka
Č
nekog
nazvao
PG
je
IF
Ivan
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Sintaktiča stabla i hijerarhijska struktura
Strukturalna višeznačnostZa jednu rečenicu ili riječ postoji više struktura u skladu sgramatikom, npr.
ablelock
un able
lockun
Leksička višeznačnost:Jedna riječ ima više značenja: npr. duga, pita, je
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistička jezgraFormalni aspekti jezika
Gramatike (elementi i pravila) opisuju mogućukombinatoriku na svim lingvističkim razinamaDeskriptivne gramatike
Opis zvučnih osobina jezikaRiječniciPreskriptivne gramatike za standardni jezikDijalektološke gramatike
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistička jezgraFormalni aspekti jezika
Formalne gramatikekoriste eksplicitnu teoriju i formalizam i omogućavajufalsifikaciju, teoretske predikcije itd.Automati: generatori i prepoznavači jezičnih izraza (nasvim lingvističkim razinama) (niski generativni kapacitet)Parseri: analizatori jezičnih izraza (visoki generativnikapacitet)
Palatalizacija (poljski): krok – kroczek ; mózg – móżdżek ;duch – duszekk,g,h → č,dž,š/ i,e [ Deminutiv | Vokativ ]
Sintaksa:S → NP VPNP → (Adj) N (PP). . .
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistička jezgraFormalni aspekti jezika
Dodatni formalizmi: Unifikacijske gramatike (LFG, HPSGitd.)
© Andrew Bredenkamp http://www.essex.ac.uk/linguistics/clmt/latex4ling/avms/
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistički modeliRazlike: formalni i prirodni jezici
Prirodni jezici su višeznačni na svim višim lingvističkimrazinamaSve razine su povezane i doprinose riješenju problemavišeznačnosti → paralelizam u analizi, procesiranju itd.Gramatike prirodnih jezika su rekurzivne (tj. regularne,kontekstno neovisne i ovisne), što objašnjava neograničenbroj izraza, rečenica itd.
Formalne osobine:Regularna: fonologija i fonotaktika, morfologijaKontekstno neovisna: sintaksa (možda djelomičnokontekstno ovisna)Semantika itd.: kontekstno ovisna
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistički modeliFormalne osobine
Kontekstno neovisne i kompleksnije gramatike (i jezici) seformalno ne mogu usvojiti samo s pozitivnom evidencijom(Gold, 1967)iako sada postoje istraživanja koja to relativirajuTakve gramatike kompleksne su u procesiranjuNe pokrivaju nikada 100% podatkeNe predviđaju razlučivanje višeznačnosti
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistički modeliStatistička revolucija (ponovo)
Generiranje gramatika, riječnika i lingvističkih modela izobilježenih lingvističkih podataka (npr. korpusa)Kontekstno neovisne gramatike s vjerojatnosti pravilaS → NP VP p:0.021NP → (Adj) N (PP) p:0.001. . .Konačni automati s vjerojatnosti na prijelazima (i/iliprijelaznim akcijama kod transduktora)n-gram modeliNesimbolički statistički modeli (npr. neuronske mreže). . .
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Namjena lingvističkih modelaOsnovno procesiranje tekstualnih oblika jezika
Transkripcija u fonetski i/ili fonemski oblikIPA transkripcijaza npr. phonex, soundex pretraživanje, statističke fonetskemodele za prepoznavanje govora i sintezu itd.
Morfološka segmentacija i obilježje:izponapijali : aspektualni prefiks – aspektualni prefiks –korijen i lema napiti – sufiks participa u množiniDodatno obilježje:do neke mijere – malo – “opiti se” od korijenske leme piti –prošlostza parsiranje i semantičku analizu
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Namjena lingvističkih modelaOsnovno procesiranje tekstualnih oblika jezika
Sintaktičko parsiranjeStabla s kategorijama i hijerarhijskom strukturom skopusasintaktičkih fraza i riječiza npr. razlučivanje višeznačnosti, semantičku analizu
Semantičko obilježje i analizaStabla i mreže relacija i povezivanje s reprezentacijomkoncepata i funkcijaza npr. strojno prevođenje, prepoznavanje govornog čina,analizu sadržaja itd.
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Konačni automati
Morfemi kao deterministički konačni automati (DKA) (Mealy iliMoore automati):
0
1č
p
5šv root (-index
2ie 3t 4a v root )-index
0
1n
3pv pref (-index
2a
4o
v pref )-index asp
v pref )-index asp
0
2m
3š
1ε
4t
6
j
v suf (-index
8o
v suf )-index pres 1st sg
v suf )-index pres 2st sg
v suf )-index pres 3rd sg
5e
v suf )-index 2nd sg imper
7
u
v suf )-index pres 1st pl
v suf )-index pres 2nd pl
v suf )-index pres 3rd pl
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Spajanje u monolitičke automate uz regularne izraze
Višeznačnost kao emisija više oznaka: lista emisija 1 do nOznaka DKA s imenomPravila koja koriste ta imena i modeliraju morfotaktičkadistribucijska pravila:
glagolAspektPref* . glagolAtiKorijeni . glagolFleksSuf
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Generiranje monolitičkih automata
Monolitički automati, mogu biti ciklički DKA:
0 3p
1
n
5ε
v pref (-index
4o
2a
ε 6č
p
8šv root (-index
ε
v pref )-index asp
ε
v pref )-index asp
7ie 9t 10a
v root )-index
11ε
13m
14š
12ε
15
t
17
j
v suf (-index
19o
v suf )-index pres 1st sg
v suf )-index pres 2st sg
v suf )-index pres 3rd sg
16e
v suf )-index 2nd sg imper 18u
v suf )-index pres 1st pl
v suf )-index pres 2nd pl
v suf )-index pres 3rd pl
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Sintaktičko parsiranje
Obično u računalnoj lingvistici Earley parser i varijacije togalgoritma (dinamično programiranje):
s dodatnom vjerojatnosti za razlučivanje najvjerojatnijeanalize u slučaju višesnačnostis unifikacijom obilježja za pravila kongruencije i perkolacijuoznakas obilježjem semantičkih osobina i funkcija
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Statistički modeliza npr. obilježje i prepoznavanje
n-gram modelilingvističko obilježje ovisno o (obično lokalnom) kontekstudistribucijske osobine fonema, morfema, riječi u kontekstuodkriva osobine teksta, riječi itd.za npr. klasifikaciju teksta u jezike, zadržajno; klasifikacijunepoznatih riječi itd.
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Glavni zadatci
Stvaranje lingvističkih resursaStvaranje alata za lingvističku analizu
lematizacija riječi u tekstu za pretraživače i daljnu analizugramatike i transfer pravila za strojno prevođenjeprepoznavanje jezičnih jedinica i klasifikacija u npr. imeosobe, ime tvrtke, ime produkta, datum i vrijeme, lokacijaitd.klasifikacija tekstovaanaliza govora i procesiranje govornog dijalogaprepoznavanje zadržaja za forenzičku analizuekstrakcija znanja i generiranje novih saznanjaitd.