Peter Grzybek
( Graz )
Wortlängen(häufigkeiten) in Texten slawischer Sprachen
FWF-Projekt #15485
(2002-2005)
Korpus-Analyse vs. Text-Analyse
„Text-Mischung“
Vermeintliche (Re-)Konstruktion
• einer Norm • eines Standards
TextText
alsals
homogene Einheithomogene Einheit
Text-Ausschnitt vs. Vollständiger Text
(„Quasi-Text“)Selbstregulierendes System
Aus der Geschichte der Wortlängen-Forschung
(Anfänge)
Augustus de Morgan (1806-1871)
Professor für Mathematik am University College (London)
1851:
Erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge
zu identifizieren
Mittelwert als Maß der zentralen Tendenz
Das arithmetische Mittel ( ) :
n
xxxx
nx
n
in
1
21 )...(1
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
1 2 3 4 50
1
2
3
4
5
6
7
8
9
10Stichprobe rot Stichprobe blau
= 3.00
Mittelwert: 1 = 2.10 2 = 2.12Mittelwert: 1 = 2.10 2 = 2.12
Streuung (Varianz): s² = 1.29 s² = 1.52Streuung (Varianz): s² = 1.29 s² = 1.52
0 1 2 3 4 5 6 7
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Bednaja LizaVystrel
)²...()²()²( 21 xxxxxxSAQ n n
xxs
2)(
²
Mittelwert als Maß der zentralen Tendenz
Varianz als Maß der Streuung um den Mittelwert
Ivan Cankar: “Hiša Marije Pomočnice“
Mittlere Wortlänge: Einzelkapitel vs. Gesamtext
1 2 3 4 GM 5 6 7 8 91,5
1,6
1,7
1,8
1,9
2
Mitt
lere
Wo r
t läng
e in
Sil b
e n
Einzelkapitel Gesamtmittelwert
Thomas Corwin Mendenhall (1841-1924)
Professor für Physik (Ohio, Tokio)
Fortführen der Ideen von de Morgan
Mittelwert, Häufigkeitsverteilung (= graphische Repräsentation, mathematische Interpretation)
1887/1901:
„[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their
occurrence.“
„the normal curve of a writer”
Sergej Grigor'evič Čebanov (1897-1966)
Russischer Armee-Arzt aus Petersburg
Mathematische Interpretation der Häufigkeitsverteilung
("Čebanov-Fucks-Verteilung")
Wilhelm Fucks (*1902)
Professor für Physik (TH Aachen)
,...3,2,1)!1(
1
xx
aeP
xa
x,...2,1,0!
xx
aeP
xa
x
Fucks (1955):
„[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“
NormalverteilungNormalverteilung
nach C.F. Gaussnach C.F. Gauss
Gustav Herdan
The Advanced Theory of Language as Choice and Chance (1966)
Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit
Px = g(x)
bx
axg )(
Px-1
( )a
g xx
( )( )
a cxg x
x
!
a x
x
e aP
x
1
n x n xx
x n
p qP
q
( ) bg x a x
Conway-Maxwell-Poisson-Verteilung
Poisson-
Verteilung
Pos. Binomial-
Verteilung
( )( )
a cxg x
x
1k x k x
x xP p q Neg. Binomial-
Verteilung
1 2 3 4 5 6 7 8 9
Wortlänge (in Silben)
0
20
40
60
80
100Häufigkeit (in Tausend)
beobachtet
theoretisch
Wortlängenhäufigkeiten in Durch die Wüste von Karl May
1k x k xx xP p q
Theoretisches Modell:
Neg. Binomial-Verteilung
(C = 0.002)
11
xn
xnx
x Pq
qpx
n
P
1
1
xn
xnx
x Pq
qpx
n
P
Εrweiterte positive Εrweiterte positive BinomialverteilungBinomialverteilung
n = 4p = 0.37α = 0.97
n = 14p = 0.13α = 0.96
n = 6p = 0.25α = 0.98
Èapek: Noviny a vìda (1917)
0 1 2 3 4 5 6 7
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Erben: Lilie (1861)
0 1 2 3 4
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Rekord (1928)
0 1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Èapek: Rekord (1928)
0 1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
m1 () m2 (s2) m3
Arme Liza
2,10 1,29 0,88
Vystrel 2,12 1,52 1,17
1x
N 21
( )x xN
31( )x x
N
11. m
22. m
2
1
m
m
3
2
m
m
Die Lokalisierung im
xy-Koordinatensystem
33. m
y-Achse
x-Achse
0
x = M2 / M1
0
y = M3 / M2
Mittelwert
2. Zentralmoment
3.Zentralmoment
“Bednaja Liza”
61.01
2 M
M68.0
2
3 M
MM1 = 2.10
M2 = 1.29
M3 = 0.88
“Vystrel”
72.01
2 M
M
77.02
3 M
M
I = M2 / M1
1,51,0,50,0
S =
M3
/ M
2
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
TYP
Poesie
journ. Prosa
lit. Prosa
y = 2.08 - 0.44x
I
1,00,500,00
S
1,5
1,0
,5
0,0
TYP
Poesie
Journalistik
Prosa
I
1,41,21,0,8,6,4,20,0
S
2,5
2,0
1,5
1,0
,5
0,0
-,5
Textkategorie
Briefe Charms
Briefe Puskin
Gedichte Charms
Gedichte Puskin
Pilotstudie zum Pilotstudie zum SlowenischenSlowenischenKorpus: N = 153Korpus: N = 153
Prosan1 = 102
Poesie n2 = 51
n1.2. = 50Journalistik
n1.1.= 52liter. Prosa
1-Silber
2-Silber
3-Silber
4-Silber
5-Silber
Texttyp
journal. Prosa
Poesie
literar. Prosa
-6 -4 -2 0 2 4
1015
2025
6
-6 -4 -2 0 2 4
1015
2025
6
-6 -4 -2 0 2 4
1015
2025
6
-6 -4 -2 0 2 4
dim2
1015
2025
dim
1
1
11 1
1
111 1
1 111 1111 1
111
111
1
1 1 11
11
111
111 11
11 1 1
1
11 111 11 1
3
3
3
33
3
3
33
33
33 3 33
33
3
33
3
33
33
3
33
33
3
33
3
3
3
33
33 3
33
3
3
3
3
3
33
2 22
2
2
2
2
2
2
2 22
2
222
2
2
2 2
2
2
2
22
2
22
2
22
2
2
2
2
2
2
2
2
2
2
2
22 22
2
22
2
-6 -4 -2 0 2 4
1015
2025
-6 -4 -2 0 2 4
1015
2025
-6 -4 -2 0 2 4
1015
2025
Scatterplot der Diskriminanzvariablen
TEXTSORTE Prosa journalistisch Zeitung 1 Rubrik 1Autor 1 30 Autor 2 30 Rubrik 2Autor 1 30 Autor 2 30 Zeitung 2 Rubrik 1Autor 1 30 Autor 2 30 Rubrik 2Autor 1 30 Autor 2 30 240 literarisch Erzählungen 19. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 20. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 Romane 19. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 20. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 360 wissenschaftl. geisteswiss.-philos. 30 naturwiss. 30 60 Brief 19. Jhd. Autor 1 30 Autor 2 30 20. Jhd. Autor 1 30 Autor 2 30 120Poesie versgebunden 19. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 20. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 180 freier Vers 20. Jhd. Autor 1 30 Autor 2 30 60 gesamt 1020