govor - ijsnl.ijs.si/janes/wp-content/uploads/2015/03/janes-govor... · 2020. 7. 17. · 3....

25
Govor in spletna slovenščina Ana Zwitter Vitez FHŠ Univerza na Primorskem, FF Univerza v Ljubljani Špela Arhar Holdt FF Univerza v Ljubljani, ZUS Trojina Ljubljana, 27. 8. 2015

Upload: others

Post on 15-Dec-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Govor

in spletna slovenščina

Ana Zwitter VitezFHŠ Univerza na Primorskem FF Univerza v Ljubljani

Špela Arhar HoldtFF Univerza v Ljubljani ZUS Trojina

Ljubljana 27 8 2015

O čem bomo govorili

bull specifike govorjenega jezika

bull odnos med govorom pisno in spletno slovenščino

bull kaj lahko besedilo pove o značilnostih avtorja

Od jutra do večera hellip

1 stereotip pišemo standardno govorimo nestandardno

-obsegmilijon besed (112 ur posnetkov)

-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah

-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki

ma tu si lohko duol čez rit

potjegneš

a velikokrat ne ostane le pri tem

kar smo se lahko prepričali tudi

med našim snemanjem

Antigona se je kljub temu odločila da

Polinejka pokoplje

Pišemo standardno govorimo pa nestandardno

Pa vendar specifike govora

Sprotno tvorjenje besedil

eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu

Izgovorjava

tu je blo ko truebla brez konca

Interakcija s sogovorcem

ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 2: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

O čem bomo govorili

bull specifike govorjenega jezika

bull odnos med govorom pisno in spletno slovenščino

bull kaj lahko besedilo pove o značilnostih avtorja

Od jutra do večera hellip

1 stereotip pišemo standardno govorimo nestandardno

-obsegmilijon besed (112 ur posnetkov)

-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah

-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki

ma tu si lohko duol čez rit

potjegneš

a velikokrat ne ostane le pri tem

kar smo se lahko prepričali tudi

med našim snemanjem

Antigona se je kljub temu odločila da

Polinejka pokoplje

Pišemo standardno govorimo pa nestandardno

Pa vendar specifike govora

Sprotno tvorjenje besedil

eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu

Izgovorjava

tu je blo ko truebla brez konca

Interakcija s sogovorcem

ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 3: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Od jutra do večera hellip

1 stereotip pišemo standardno govorimo nestandardno

-obsegmilijon besed (112 ur posnetkov)

-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah

-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki

ma tu si lohko duol čez rit

potjegneš

a velikokrat ne ostane le pri tem

kar smo se lahko prepričali tudi

med našim snemanjem

Antigona se je kljub temu odločila da

Polinejka pokoplje

Pišemo standardno govorimo pa nestandardno

Pa vendar specifike govora

Sprotno tvorjenje besedil

eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu

Izgovorjava

tu je blo ko truebla brez konca

Interakcija s sogovorcem

ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 4: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

1 stereotip pišemo standardno govorimo nestandardno

-obsegmilijon besed (112 ur posnetkov)

-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah

-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki

ma tu si lohko duol čez rit

potjegneš

a velikokrat ne ostane le pri tem

kar smo se lahko prepričali tudi

med našim snemanjem

Antigona se je kljub temu odločila da

Polinejka pokoplje

Pišemo standardno govorimo pa nestandardno

Pa vendar specifike govora

Sprotno tvorjenje besedil

eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu

Izgovorjava

tu je blo ko truebla brez konca

Interakcija s sogovorcem

ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 5: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

-obsegmilijon besed (112 ur posnetkov)

-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah

-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki

ma tu si lohko duol čez rit

potjegneš

a velikokrat ne ostane le pri tem

kar smo se lahko prepričali tudi

med našim snemanjem

Antigona se je kljub temu odločila da

Polinejka pokoplje

Pišemo standardno govorimo pa nestandardno

Pa vendar specifike govora

Sprotno tvorjenje besedil

eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu

Izgovorjava

tu je blo ko truebla brez konca

Interakcija s sogovorcem

ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 6: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

ma tu si lohko duol čez rit

potjegneš

a velikokrat ne ostane le pri tem

kar smo se lahko prepričali tudi

med našim snemanjem

Antigona se je kljub temu odločila da

Polinejka pokoplje

Pišemo standardno govorimo pa nestandardno

Pa vendar specifike govora

Sprotno tvorjenje besedil

eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu

Izgovorjava

tu je blo ko truebla brez konca

Interakcija s sogovorcem

ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 7: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Pišemo standardno govorimo pa nestandardno

Pa vendar specifike govora

Sprotno tvorjenje besedil

eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu

Izgovorjava

tu je blo ko truebla brez konca

Interakcija s sogovorcem

ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 8: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Pa vendar specifike govora

Sprotno tvorjenje besedil

eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu

Izgovorjava

tu je blo ko truebla brez konca

Interakcija s sogovorcem

ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 9: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

2 stereotip na spletu pišemo kot govorimo

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 10: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Preseganje stereotipov empirične raziskave

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 11: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Preseganje stereotipov empirične raziskave

Korpus Gos

Korpus Kres

Korpus Janes

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 12: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Kako primerjamo korpuse med seboj

gtgt najbolj tipične

besede enega

korpusa

Ključne besede

- v opazovanem

korpusu so pogoste

- v primerjanem

korpusu ni veliko

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 13: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Metapodatki v korpusu Gos

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 14: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

3 stereotip uporabnost jezikoslovnih raziskav

plagiatorstvo

K T Guttenberg K Markež

anonimne grožnje

G Bush K Kresal Z Jelinčič J in U Janša

literarne vede

Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)

kadrovanje

ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)

profiliranje strank in njihovih kupnih navad

strategije ponudbe in oglaševanja (Shaw idr 2001)

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 15: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo

uradna spletna stran parlamentarne stranke

psevdonim

vznemirjena javnost

1 ldquovolivci s tujim naglasomrdquo

2 ldquovolivci v športnih oblačilih (trenirkah)

3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 16: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Hipoteza in zajem besedil

Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom

Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila

Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 17: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Priprava besedil

pretvorba v format txt

anonimizacija besedil in tvorjenje glav dokumentov

oblikoslovno označevanje (Grčar idr 2012)

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 18: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Izračun značilk

Leksikalne značilke

- raznolikost besedišča (lexical density)

- Brunetova formula (Brunet 1988)

- hapax legomena (Holmes 1992)

- Honoreacutejeva statistika (Honoreacute 1979)

Berljivostne značilke

- Flesh-Kincaid

- Coleman-Liau

- Automated Readability Index

- Gunning Fog

httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 19: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Rezultati analize

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 20: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Razlikovalna moč značilk

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 21: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Podobnost avtorjev z anonimnim besedilom

0

5

10

15

20

25

30

G A H O D

Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 22: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Omejitve raziskave

križno preverjanjeprisotnost dejanskega avtorja besedila

Odprta vprašanja

dolžnosti raziskovalcadružbene posledice

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 23: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Prihodnost jezikovnih tehnologij

Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si

Povej mi kar koli in povem ti kdo si

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila

Page 24: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež

Kaj bomo delali

Kako govorimo

Ali na spletu pišemo kot govorimo

Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila