peter grzybek ( graz ) wortlängen(häufigkeiten) in texten slawischer sprachen fwf-projekt #15485...
TRANSCRIPT
![Page 1: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/1.jpg)
![Page 2: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/2.jpg)
Peter Grzybek
( Graz )
Wortlängen(häufigkeiten) in Texten slawischer Sprachen
FWF-Projekt #15485
(2002-2005)
![Page 3: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/3.jpg)
Korpus-Analyse vs. Text-Analyse
„Text-Mischung“
Vermeintliche (Re-)Konstruktion
• einer Norm • eines Standards
TextText
alsals
homogene Einheithomogene Einheit
Text-Ausschnitt vs. Vollständiger Text
(„Quasi-Text“)Selbstregulierendes System
![Page 4: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/4.jpg)
Aus der Geschichte der Wortlängen-Forschung
(Anfänge)
![Page 5: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/5.jpg)
Augustus de Morgan (1806-1871)
Professor für Mathematik am University College (London)
1851:
Erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge
zu identifizieren
![Page 6: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/6.jpg)
Mittelwert als Maß der zentralen Tendenz
![Page 7: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/7.jpg)
Das arithmetische Mittel ( ) :
n
xxxx
nx
n
in
1
21 )...(1
![Page 8: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/8.jpg)
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
= 3.00
![Page 9: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/9.jpg)
Mittelwert: 1 = 2.10 2 = 2.12Mittelwert: 1 = 2.10 2 = 2.12
Streuung (Varianz): s² = 1.29 s² = 1.52Streuung (Varianz): s² = 1.29 s² = 1.52
0 1 2 3 4 5 6 7
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Bednaja LizaVystrel
)²...()²()²( 21 xxxxxxSAQ n n
xxs
2)(
²
![Page 10: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/10.jpg)
Mittelwert als Maß der zentralen Tendenz
Varianz als Maß der Streuung um den Mittelwert
![Page 11: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/11.jpg)
Ivan Cankar: “Hiša Marije Pomočnice“
Mittlere Wortlänge: Einzelkapitel vs. Gesamtext
1 2 3 4 GM 5 6 7 8 91,5
1,6
1,7
1,8
1,9
2
Mitt
lere
Wo r
t läng
e in
Sil b
e n
Einzelkapitel Gesamtmittelwert
![Page 12: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/12.jpg)
Thomas Corwin Mendenhall (1841-1924)
Professor für Physik (Ohio, Tokio)
Fortführen der Ideen von de Morgan
Mittelwert, Häufigkeitsverteilung (= graphische Repräsentation, mathematische Interpretation)
1887/1901:
„[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their
occurrence.“
„the normal curve of a writer”
![Page 13: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/13.jpg)
![Page 14: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/14.jpg)
![Page 15: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/15.jpg)
Sergej Grigor'evič Čebanov (1897-1966)
Russischer Armee-Arzt aus Petersburg
Mathematische Interpretation der Häufigkeitsverteilung
("Čebanov-Fucks-Verteilung")
Wilhelm Fucks (*1902)
Professor für Physik (TH Aachen)
,...3,2,1)!1(
1
xx
aeP
xa
x,...2,1,0!
xx
aeP
xa
x
Fucks (1955):
„[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“
![Page 16: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/16.jpg)
![Page 17: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/17.jpg)
![Page 18: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/18.jpg)
NormalverteilungNormalverteilung
nach C.F. Gaussnach C.F. Gauss
![Page 19: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/19.jpg)
Gustav Herdan
The Advanced Theory of Language as Choice and Chance (1966)
Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit
![Page 20: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/20.jpg)
Px = g(x)
bx
axg )(
Px-1
( )a
g xx
( )( )
a cxg x
x
!
a x
x
e aP
x
1
n x n xx
x n
p qP
q
( ) bg x a x
Conway-Maxwell-Poisson-Verteilung
Poisson-
Verteilung
Pos. Binomial-
Verteilung
( )( )
a cxg x
x
1k x k x
x xP p q Neg. Binomial-
Verteilung
![Page 21: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/21.jpg)
1 2 3 4 5 6 7 8 9
Wortlänge (in Silben)
0
20
40
60
80
100Häufigkeit (in Tausend)
beobachtet
theoretisch
Wortlängenhäufigkeiten in Durch die Wüste von Karl May
1k x k xx xP p q
Theoretisches Modell:
Neg. Binomial-Verteilung
(C = 0.002)
![Page 22: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/22.jpg)
11
xn
xnx
x Pq
qpx
n
P
1
1
xn
xnx
x Pq
qpx
n
P
Εrweiterte positive Εrweiterte positive BinomialverteilungBinomialverteilung
n = 4p = 0.37α = 0.97
n = 14p = 0.13α = 0.96
n = 6p = 0.25α = 0.98
Èapek: Noviny a vìda (1917)
0 1 2 3 4 5 6 7
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Erben: Lilie (1861)
0 1 2 3 4
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Rekord (1928)
0 1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Èapek: Rekord (1928)
0 1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
![Page 23: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/23.jpg)
m1 () m2 (s2) m3
Arme Liza
2,10 1,29 0,88
Vystrel 2,12 1,52 1,17
1x
N 21
( )x xN
31( )x x
N
![Page 24: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/24.jpg)
11. m
22. m
2
1
m
m
3
2
m
m
Die Lokalisierung im
xy-Koordinatensystem
33. m
y-Achse
x-Achse
0
x = M2 / M1
0
y = M3 / M2
Mittelwert
2. Zentralmoment
3.Zentralmoment
![Page 25: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/25.jpg)
“Bednaja Liza”
61.01
2 M
M68.0
2
3 M
MM1 = 2.10
M2 = 1.29
M3 = 0.88
“Vystrel”
72.01
2 M
M
77.02
3 M
M
![Page 26: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/26.jpg)
I = M2 / M1
1,51,0,50,0
S =
M3
/ M
2
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
TYP
Poesie
journ. Prosa
lit. Prosa
y = 2.08 - 0.44x
![Page 27: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/27.jpg)
I
1,00,500,00
S
1,5
1,0
,5
0,0
TYP
Poesie
Journalistik
Prosa
![Page 28: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/28.jpg)
I
1,41,21,0,8,6,4,20,0
S
2,5
2,0
1,5
1,0
,5
0,0
-,5
Textkategorie
Briefe Charms
Briefe Puskin
Gedichte Charms
Gedichte Puskin
![Page 29: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/29.jpg)
Pilotstudie zum Pilotstudie zum SlowenischenSlowenischenKorpus: N = 153Korpus: N = 153
Prosan1 = 102
Poesie n2 = 51
n1.2. = 50Journalistik
n1.1.= 52liter. Prosa
![Page 30: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/30.jpg)
1-Silber
2-Silber
3-Silber
4-Silber
5-Silber
Texttyp
journal. Prosa
Poesie
literar. Prosa
![Page 31: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/31.jpg)
-6 -4 -2 0 2 4
1015
2025
6
-6 -4 -2 0 2 4
1015
2025
6
-6 -4 -2 0 2 4
1015
2025
6
-6 -4 -2 0 2 4
dim2
1015
2025
dim
1
1
11 1
1
111 1
1 111 1111 1
111
111
1
1 1 11
11
111
111 11
11 1 1
1
11 111 11 1
3
3
3
33
3
3
33
33
33 3 33
33
3
33
3
33
33
3
33
33
3
33
3
3
3
33
33 3
33
3
3
3
3
3
33
2 22
2
2
2
2
2
2
2 22
2
222
2
2
2 2
2
2
2
22
2
22
2
22
2
2
2
2
2
2
2
2
2
2
2
22 22
2
22
2
-6 -4 -2 0 2 4
1015
2025
-6 -4 -2 0 2 4
1015
2025
-6 -4 -2 0 2 4
1015
2025
![Page 32: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/32.jpg)
Scatterplot der Diskriminanzvariablen
![Page 33: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/33.jpg)
TEXTSORTE Prosa journalistisch Zeitung 1 Rubrik 1Autor 1 30 Autor 2 30 Rubrik 2Autor 1 30 Autor 2 30 Zeitung 2 Rubrik 1Autor 1 30 Autor 2 30 Rubrik 2Autor 1 30 Autor 2 30 240 literarisch Erzählungen 19. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 20. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 Romane 19. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 20. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 360 wissenschaftl. geisteswiss.-philos. 30 naturwiss. 30 60 Brief 19. Jhd. Autor 1 30 Autor 2 30 20. Jhd. Autor 1 30 Autor 2 30 120Poesie versgebunden 19. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 20. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 180 freier Vers 20. Jhd. Autor 1 30 Autor 2 30 60 gesamt 1020
![Page 34: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)](https://reader036.vdocuments.site/reader036/viewer/2022062512/55204d7549795902118ca8fc/html5/thumbnails/34.jpg)