jezikovne tehnologije in nove metode

10
Jezikovne tehnologije in nove metode Špela Arhar Amebis, d. o. o., Kamnik

Upload: thisbe

Post on 31-Jan-2016

51 views

Category:

Documents


0 download

DESCRIPTION

Jezikovne tehnologije in nove metode. Špela Arhar Amebis, d . o. o ., Kamnik. dialoški sistemi. prepoznava in sinteza govora. slovnično pregledovanje besedil. povzemanje besedil. strojno prevajanje. iskanje informacij. 5. napake na različnih mestih. analiza napak. 6. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Jezikovne tehnologije in  nove metode

Jezikovne tehnologije in nove metode

Špela ArharAmebis, d. o. o., Kamnik

Page 2: Jezikovne tehnologije in  nove metode

Jezikovne tehnologije in nove metode, 6. 2. 2009

2

Page 3: Jezikovne tehnologije in  nove metode

prepoznavain sinteza govora

strojno prevajanje

slovnično pregledovanje besedil

povzemanje besedil

iskanje informacij

dialoški sistemi

Jezikovne tehnologije in nove metode, 6. 2. 2009

3

Page 4: Jezikovne tehnologije in  nove metode

4

Jezikovne tehnologije in nove metode, 6. 2. 2009

Page 5: Jezikovne tehnologije in  nove metode

Jezikovne tehnologije in nove metode, 6. 2. 2009

5

napake na različnih mestih

Page 6: Jezikovne tehnologije in  nove metode

Jezikovne tehnologije in nove metode, 6. 2. 2009

6

Rupnik, Grčar, Erjavec, IS-LTC 2008

število besed

označevanje

100.003 vse besede v pregledanem korpusu

86.617 TnT pravilno

85.719 Amebis pravilno

78.011 oba označevalnika pravilno

7.708 Amebis pravilno, TnT nepravilno

8.606 Amebis nepravilno, TnT pravilno

3.238 oba nepravilno in enako

2.440 oba nepravilno in različno

testiranje nabora učnih algoritmov ter učnih

parametrov za avtomatsko identifikacijo pravilne

oznake –79.73 % uspešnost

večji učni korpusustrezno zasnovan oblikoslovni leksikon

Page 7: Jezikovne tehnologije in  nove metode

Jezikovne tehnologije in nove metode, 6. 2. 2009

7

Oznake na štirih nivojih:lema

oblikoskladenjski nivoskladenjski nivo

lastna imena

učenje statističnih modelov za avtomatsko označevanje

Page 8: Jezikovne tehnologije in  nove metode

Jezikovne tehnologije in nove metode, 6. 2. 2009

8

Leksikon SSJ

samostalnik

izpeljani svojilni pridevnik (-ov/-ev, -in)

pri glagolnikih (-ev, -nje) izvorni glagol

pri občnih prekrivno lastno ime

pri lastnih prekrivno občno ime

pri izpeljanih na –ost izvorni pridevnik

<WordForm> <feat att="zapisOblike" val="izdelat"/> <feat att="oblika" val="namenilnik"/></WordForm> <WordForm> <feat att="zapisOblike" val="izdelal"/> <feat att="oblika" val="deležnik"/> <feat att="spol" val="moški"/> <feat att="število" val="ednina"/></WordForm>

<WordForm> <feat att="zapisOblike" val="izdelat"/> <feat att="oblika" val="namenilnik"/></WordForm> <WordForm> <feat att="zapisOblike" val="izdelal"/> <feat att="oblika" val="deležnik"/> <feat att="spol" val="moški"/> <feat att="število" val="ednina"/></WordForm>

Page 9: Jezikovne tehnologije in  nove metode

Jezikovne tehnologije in nove metode, 6. 2. 2009

9

Leksikon SSJ• okrog 100.000 (premišljeno izbranih)

enot• specifikacije z DTD-ji za xml• za različne namene

Vzorec prinaša informacijo o:- zaporednem mestu, na katerem se nahaja posamezna enota pri zapisu večbesedne enote,- ali se enota zapisuje z veliko ali z malo začetnico,- ali se kot del lastnega imena enota pri pregibanju obnaša enako kot njen enobesedni leksikonski referent, - ločilo, ki ločuje enoti ("presledek", "vezaj", "pomišljaj"),- kateri element v vzorcu predstavlja jedro zveze.

Vzorec prinaša informacijo o:- zaporednem mestu, na katerem se nahaja posamezna enota pri zapisu večbesedne enote,- ali se enota zapisuje z veliko ali z malo začetnico,- ali se kot del lastnega imena enota pri pregibanju obnaša enako kot njen enobesedni leksikonski referent, - ločilo, ki ločuje enoti ("presledek", "vezaj", "pomišljaj"),- kateri element v vzorcu predstavlja jedro zveze.

<WordForm> <feat att="število" val="ednina"/> <feat att="sklon" val="rodilnik"/>

<FormRepresentation><feat att="zapisOblike" val=“okvirja"/><feat att="norma" val="variantno"/><feat att="pogostnost" val="3000"/> </FormRepresentation> <FormRepresentation><feat att="zapisOblike" val=“okvira"/><feat att="norma" val="variantno"/><feat att="pogostnost" val="3000"/> </FormRepresentation> </WordForm>

<WordForm> <feat att="število" val="ednina"/> <feat att="sklon" val="rodilnik"/>

<FormRepresentation><feat att="zapisOblike" val=“okvirja"/><feat att="norma" val="variantno"/><feat att="pogostnost" val="3000"/> </FormRepresentation> <FormRepresentation><feat att="zapisOblike" val=“okvira"/><feat att="norma" val="variantno"/><feat att="pogostnost" val="3000"/> </FormRepresentation> </WordForm>

Page 10: Jezikovne tehnologije in  nove metode

Jezikovne tehnologije in nove metode, 6. 2. 2009

10

Hvala za pozornost!