estadística i homogeneïtat d’estil en el tirant lo...
TRANSCRIPT
1
Estadística i Homogeneïtat d’estil en el Tirant lo Blanc
Autors: Alexandre Riba i Civil,
Josep Ginebra Molins
UAB, 21 de Febrer de 2003
2Homogeneïtat d’estil en el Tirant lo Blanc
Índex
1. Motivació i Objectius
2. La qüestió de l’autoria del Tirant
3. Estilometria
4. Quantificació de l’estil
5. Anàlisi Descriptiva de les Dades
6. Punt de canvi
7. Anàlisi Cluster
8. Assignació de capítols a autors
9. Conclusions
10. Problemes pendents
2
3Homogeneïtat d’estil en el Tirant lo Blanc
1.1 Motivació i objectius
• Neix de l’aplicació a un problema real
• Originalitat del problema
• Treball amb dades categòriques
• Tirant: obra mestra de la literatura medieval catalana
• Existeixen diverses teories sobre la seva autoria
• Excel·lent banc de proves
4Homogeneïtat d’estil en el Tirant lo Blanc
2.1 La qüestió de l’autoria del Tirant: un autor
Arguments a favor de l’autoria única
• La dedicatòria
• Al llarg de tot el llibre hi ha accions anunciades a la dedicatòria
• Coherència de l’esperit de croada
• Ús de la intertextualitat
Vaeth (1916), Givanel (1918), Marinesco (1978), Riquer (1990),Hauf (1993), Chiner (1991,93), Casanova (1994), Badia (1993)
3
5Homogeneïtat d’estil en el Tirant lo Blanc
2.1 La qüestió de l’autoria del Tirant: un autor
Dedicatòria:
“E perquè en la present obra altre no puixa ésser increpat si
defalliment algú trobat hi serà, jo, Joanot Martorell, cavaller,
sols vull portar lo càrrec, e no altri ab mi; com per mi sols sia
estada ventilada ...”
6Homogeneïtat d’estil en el Tirant lo Blanc
2.2 La qüestió de l’autoria del Tirant: dos autors
Arguments a favor de l’autoria compartida
• El colofó
• Episodis no indispensables en l’acció
• Diferències estilístiques i ús de la Valenciana Prosa
• Estudis morfològics i de lèxic
Martínez y Martínez (1916), Entwistle (1927), Moll (1933), Menéndez y Pelayo (1934), Riquer (1947), Coromines (1956), Nicolau d’Olwer (1961), Goerz (1967), Ferrando (1987,95), Rubiera (1990,92), Wittlin (1990,93)
4
7Homogeneïtat d’estil en el Tirant lo Blanc
2.2 La qüestió de l’autoria del Tirant: dos autors
Colofó:
“Aquí feneix lo llibre del valerós e estrenu cavaller Tirant lo Blanc, ..., lo qual fon traduït d’anglès en llengua portuguesa, e aprés en vulgar llengua valenciana, per lo magnífic e virtuós cavaller Mossèn Joanot Martorell lo qual, per mort sua, no en pogué acabar de traduir sinó les tres parts. La quarta part, queés la fi del llibre, és estada traduïda, ...., per lo magnífic cavaller Mossèn Martí Joan de Galba; e si defalt hi serà trobat, vol sia atribuït a la sua ignorància; ....”.
8Homogeneïtat d’estil en el Tirant lo Blanc
2.3 La qüestió de l’autoria del Tirant: altres teories
• Existència de plagis de Corella (Guia, 1995, 96)
5
9Homogeneïtat d’estil en el Tirant lo Blanc
2.4 la qüestió de l’autoria del tirant
Objectiu: Estudiar l’homogeneïtat d’estil en el Tirant
1. Detectar l’existència d’un o més d’un autors
2. En cas de més d’un autor:
a) Determinar les fronteres d’estil
b) Determinar què caracteritza cada estil
10Homogeneïtat d’estil en el Tirant lo Blanc
3.1 Estilometria
Estilometria: estudi de característiques quantificables en texts
– rellevants, estructurals, freqüents, fàcilment quantificables
– inmunes al control conscient de l’autor
– pròpies de l’autor, no del gènere, de l’època o de l’editor
Holmes (1985)
6
11Homogeneïtat d’estil en el Tirant lo Blanc
3.2 Estilometria: tipus de problema
1. Dos o més candidats amb texts reconeguts de tots ellscomparables amb el text en estudi
(Mosteller i Wallace, 1964,84; Kjetsaa, 1979)
2. Un candidat amb texts comparables al text en estudi, i altrescandidats dels que no es disposa de texts
(Mendelhall, 1887; Brinegar, 1963; Guia, 1995,96)
3. Estudi de l’homogeneïtat d’estil d’un text
(Adams i Rencher, 1973; Morton, 1978; Ginebra i Cabos, 1998)
12Homogeneïtat d’estil en el Tirant lo Blanc
3.3 Estilometria: quantificació d’estil
Nivells de quantificació de l’estil del nostre estudi
• Llargades de paraula, frase, capítol
• Freqüència d’ús d’unitats simples (lletres, paraules)
• Riquesa de vocabulari
7
13Homogeneïtat d’estil en el Tirant lo Blanc
Índex
1. Motivació i Objectius2. La qüestió de l’autoria del Tirant3. Estilometria
4. Quantificació de l’estil1. Unitats analitzades2. Diversitat de vocabulari3. Base de dades4. Criteris per a la quantificació de l’estil
5. Anàlisi Descriptiva de les Dades
6. Punt de canvi
7. Anàlisi Cluster
8. Assignació de capítols a autors
9. Conclusions
10. Problemes pendents
14Homogeneïtat d’estil en el Tirant lo Blanc
4.1 unitats analitzades
• Llargada de paraula (nº de lletres)
• Llargada de frase i capítol (nº de paraules)
• Ús de lletres
• Ús de les 12 i de les 25 paraules més freqüents
• Diversitat de Vocabulari
8
15Homogeneïtat d’estil en el Tirant lo Blanc
Long 1 2 3 4 5 6 7 8 9 10 + Ni Cap 1 21 59 44 19 33 20 16 17 9 17 255 4,47
2 53 113 80 49 52 33 28 36 16 16 476 4,15 3 109 274 239 128 112 110 76 51 43 32 1174 4,06 4 69 150 126 71 60 71 47 32 23 21 670 4,14 5 119 207 231 123 128 102 61 55 29 34 1089 4,09 6 69 136 126 69 60 61 37 27 15 15 615 3,96 7 32 63 51 18 29 28 15 15 19 13 283 4,34 8 26 52 41 19 27 29 11 16 5 11 237 4,25 ... ... ... ... ... ... ... ... ... ... ... ... ...
480 78 123 150 57 54 65 42 25 34 13 641 4,05 481 159 282 262 137 124 122 63 71 56 46 1322 4,08 482 50 47 61 18 32 47 23 32 14 11 335 4,50 483 158 220 207 80 120 93 65 54 62 50 1109 4,21 484 59 67 68 37 26 32 15 14 17 6 341 3,82 485 96 174 106 57 77 86 42 54 24 25 741 4,18 486 45 88 91 46 40 28 13 30 11 10 402 3,94 487 48 49 62 53 41 36 21 9 16 13 348 4,20
Long.: llargada de paraula, en nombre de lletres
yji: nombre de paraules de j lletres en el capítol i
ill
4.1 Unitats analitzades: llargada de Paraula
16Homogeneïtat d’estil en el Tirant lo Blanc
Par. e de la que lo en a per no l los com Ni Cap 1 12 15 9 8 10 6 1 4 1 7 5 2 255
2 26 28 19 9 10 12 11 8 3 2 1 3 476 3 66 46 48 53 26 20 22 20 19 9 13 11 1174 4 33 29 34 13 9 21 13 11 5 7 3 4 670 5 63 46 42 34 33 17 16 21 8 12 20 16 1089 6 35 15 27 23 27 16 13 11 7 10 6 3 615 7 20 20 10 16 3 6 4 5 5 5 0 2 283 8 13 9 13 6 1 9 6 6 4 5 1 4 237 ... ... ... ... ... ... ... ... ... ... ... ... ... ...
480 45 32 15 33 19 9 9 19 3 12 11 2 641 481 82 54 42 40 43 26 32 37 12 28 12 7 1322 482 31 8 11 14 1 3 9 7 5 7 1 3 335 483 85 59 39 36 24 12 23 16 14 25 16 9 1109 484 31 19 13 12 10 7 15 3 2 7 4 0 341 485 59 66 28 14 12 21 7 8 2 15 7 1 741 486 28 29 14 10 14 13 4 14 1 8 5 3 402 487 29 13 8 10 8 4 4 4 2 10 4 3 348
4.1 Unitats analitzades: ús de paraules freq.
Par.: paraulayji: nombre de vegades que trobem la paraula j en el capítol i
9
17Homogeneïtat d’estil en el Tirant lo Blanc
d Vd 1 107 2 16 3 6 4 2 5 2 6 2 7 2 8 1 9 1
10 1 12 1 15 1
Distribució de vocabulari, útil per calcular índexs de diversitat
4.1 Unitats analitzades: distrib. vocabulari
Capítol 1
V: nombre de paraules diferents
Vd: nombre de paraules que surten d vegades en el text
: proporció de paraulesque surten d vegades
=ˆ dd
Vp
V
= =∑ 142ddV V
18Homogeneïtat d’estil en el Tirant lo Blanc
4.2 Unitats analitzades: Diversitat
Donat un text de llargada N, com més gran el nombre de paraules diferents, V, més ric i divers és el vocabulari.
Donat un text amb N i V donades, com més uniforme , més divers és el vocabulari.
ˆdp
10
19Homogeneïtat d’estil en el Tirant lo Blanc
4.2 Diversitat de vocabulari
Alguns índexs de diversitat
• V (nombre de paraules diferents)
• V1 (hapax legomena), V2 (hapax dislegomena)
• D (índex de Simpson)
• H (Entropia)
20Homogeneïtat d’estil en el Tirant lo Blanc
ddd d 1 V
DN N 1
−=
−∑ ( )
( )
V2j
j 1E D
=
= π∑( )
4.2 Diversitat de vocabulari
Índex de Simpson (D)
on πj és la probabilitat d’aparició de la paraula j.
Virtut: E(D) no depèn de N
11
21Homogeneïtat d’estil en el Tirant lo Blanc
4.3 Base de dades
Base de dades
3 Conjunts de dades
– Unitats analitzades
– Distribució de vocabulari
– Freqüència d’ús de totes les paraules
22Homogeneïtat d’estil en el Tirant lo Blanc
d 1 2 3 4 5 6 7 8 9 10 11 12 ... Ni Cap 1 107 16 6 2 2 2 2 1 1 1 0 1 ... 255
2 172 26 19 7 2 2 2 2 1 1 1 1 ... 476 3 299 70 32 16 10 5 4 2 5 1 2 0 ... 1174 4 205 52 20 7 10 3 2 2 1 0 1 1 ... 670 5 302 54 27 18 7 4 4 1 1 1 1 2 ... 1089 6 238 37 18 6 2 2 1 1 0 1 2 0 ... 615 7 123 20 7 3 3 1 0 0 0 1 0 0 ... 283 8 97 11 9 4 1 3 0 1 2 0 0 0 ... 237 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
480 154 45 17 19 5 2 1 0 2 0 3 1 ... 641 481 299 63 37 17 18 5 7 2 3 1 0 3 ... 1322 482 116 24 10 7 2 0 2 1 1 0 1 0 ... 335 483 284 59 36 13 6 6 1 5 3 1 1 1 ... 1109 484 106 25 10 7 0 1 3 0 0 1 0 1 ... 341 485 213 49 14 6 5 4 4 2 0 3 1 1 ... 741 486 108 25 10 13 2 2 0 1 0 2 0 0 ... 402 487 129 29 10 6 1 1 0 2 2 2 0 0 ... 348
4.3 Base de dades
Distribucions de vocabulari
yij: nombre de paraules que surten d vegades en el text
12
23Homogeneïtat d’estil en el Tirant lo Blanc
4.4 Criteris de quantificació de l’estil
• No lematitzem
• Tot el que va separat per guions o apòstrofs són formes diferents
• Hem considerat frase tot el que acaba en punt, signe d’interrogació o signe d’exclamació
• Hem eliminat les paraules en cursiva (Edició MOLC)
24Homogeneïtat d’estil en el Tirant lo Blanc
Índex
1. Motivació i Objectius2. La qüestió de l’autoria del Tirant3. Estilometria4. Quantificació de l’estil
5. Anàlisi Descriptiva de les Dades 1. Llargada de paraula2. Ús de paraules3. Diversitat
6. Punt de canvi
7. Anàlisi Cluster
8. Assignació de capítols a autors
9. Conclusions
10. Problemes pendents
13
25Homogeneïtat d’estil en el Tirant lo Blanc
0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0
4 ,0
4 ,5
5 ,0
C a p i to l
Llar
gada
Mitj
ana
5.1 A.D.D.: llargada de paraula
0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0
0 ,0 0
0 ,0 1
0 ,0 2
0 ,0 3
0 ,0 4
0 ,0 5
0 ,0 6
0 ,0 7
0 ,0 8
C a p i to l
Y10+
i/Ni
5 0 04 0 03 0 02 0 01 0 00
5 , 0
4 , 5
4 , 0
C a p i to l
Llar
gMitj
a
26Homogeneïtat d’estil en el Tirant lo Blanc
70006000500040003000200010000
0,15
0,10
0,05
Ni
Y1i/N
i
5.1 A.D.D.: llargada de paraula
70006000500040003000200010000
5,0
4,5
4,0
Ni
Llar
gada
Mitj
ana
14
27Homogeneïtat d’estil en el Tirant lo Blanc
-0,2 -0,1 0,0 0,1
-0,2
-0,1
0,0
0,1
Component 1
Com
pone
nt 2
1
2
3
45
6
7
8
9
10
Column Plot
0,20,10,0-0,1-0,2-0,3-0,4-0,5
0,3
0,2
0,1
0,0
-0,1
-0,2
Component 1
Com
pone
nt 2
Row Plot
5.1 A.D.D.: llargada de paraula
Anàlisi de correspondències
28Homogeneïtat d’estil en el Tirant lo Blanc
5.1 A.D.D.: llargada de paraula
0 100 200 300 400 500
-0,5
-0,4
-0,3
-0,2
-0,1
0,0
0,1
0,2
Capitol
Com
pone
nt 1
15
29Homogeneïtat d’estil en el Tirant lo Blanc
5.2 A.D.D.: ús de paraules
0 100 200 300 400 500
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
Capítol
e/N
i
0 100 200 300 400 500
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
Capítol
de/N
i
0 100 200 300 400 500
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
Capítol
la/N
i
0 100 200 300 400 500
0,00
0,01
0,02
0,03
0,04
Capítol
per/N
i
30Homogeneïtat d’estil en el Tirant lo Blanc
5004003002001000
0,35
0,30
0,25
0,20
Capítol
12i/N
i
0101
5004003002001000
150
100
50
0
Capítol
Chi
Sq 1
2
5004003002001000
0,5
0,0
-0,5
Capítol
1a C
ompo
nent
(12
Para
ules
ein
a)
0101
5004003002001000
0,4
0,3
0,2
0,1
0,0
-0,1
-0,2
-0,3
-0,4
-0,5
Capítol
Com
pone
nt 2
(12
Para
ules
ein
a)
5.2 A.D.D.: ús de paraules
16
31Homogeneïtat d’estil en el Tirant lo Blanc
70006000500040003000200010000
0,020
0,015
0,010
Ni
D
0 100 200 300 400 500
0,010
0,015
0,020
Capitol
D
5.3 A.D.D.: diversitat
70006000500040003000200010000
90
80
70
Ni
H
70006000500040003000200010000
1400
1200
1000
800
600
400
200
0
Ni
V
32Homogeneïtat d’estil en el Tirant lo Blanc
Índex
1. Motivació i Objectius2. La qüestió de l’autoria del Tirant3. Estilometria4. Quantificació de l’estil5. Anàlisi Descriptiva de les Dades
6. Punt de canvi1. El problema2. Aportacions3. Aplicació
7. Anàlisi Cluster
8. Assignació de capítols a autors
9. Conclusions
10. Problemes pendents
17
33Homogeneïtat d’estil en el Tirant lo Blanc
6. El problema del punt de canvi
La seqüència y1, y2,..., yn té punt de canvi a r ∈ {1,2,...,n} si
• yi per i ∈ {1,2,...,r} té F. de Distribució Fa(y, θa)
• yi per i ∈ {r+1,r+2,...,n} té F. de Distribució Fd(y ,θd)
Amb θa, θd i r desconeguts
Objectiu: estimar r
34Homogeneïtat d’estil en el Tirant lo Blanc
1 1
( , , ) ( ) ( )= = +
θ θ α∏ ∏r n
a d a i d ii i r
l r f y f y
1 1( , , ) ( ) ( )
= = +
θ θ α +∑ ∑r n
a d a i d ii i r
L r f y f y
r̂
6.1 El problema del punt de canvi
Estimació màxim versemblant
Siguin fa(y) i fd(y) les PDF abans i després de r
MV és l’enter positiu que maximitza L(r,θa ,θd)
18
35Homogeneïtat d’estil en el Tirant lo Blanc
6.1 El problema del punt de canvi
Estimació del punt de canvi (r)
Normals: r que fa màxima la diferència de mitjanes de les dues subseqüènciesSen i Srivastava (1975 a,b,c)
Binomials: r que fa màxima la diferència de proporcions de les dues subseqüènciesHinkley i Hinkley (1970), Smith (1980)
Multinomials: reducció al cas univariantWolfe i Chen (1990)
36Homogeneïtat d’estil en el Tirant lo Blanc
6.2 punt de canvi: aportacions
Per tots els possibles punts de canvi, r, comparem les mitjanes de les dues subseqüències definides per r.
Ens quedem amb la r per la que la és més significativa la diferència de mitjanes.
Seqüència de Normals
19
37Homogeneïtat d’estil en el Tirant lo Blanc
0 100 200 300 400 500
4,0
4,5
5,0
Capitol
Llar
gada
Mitj
ana
0 100 200 300 400 500
4,0
4,5
5,0
Capitol
Llar
gada
Mitj
ana
6.2 punt de canvi: aportacions
r
Seqüència de Normals
38Homogeneïtat d’estil en el Tirant lo Blanc
( )( ) ( ) ( ) 20 1 1 ,r r r
i i i iy N Indµ β β σ∼ = +
)(
1riInd
6.2 punt de canvi: aportacions
Seqüència de Normals
Estimar r ajustant n-1 de models de regressió lineal simple:
= 0 per i = 1,2,...,r
= 1 per i = r+1,...,n
on:
{ }1 1ˆ ˆ: maxN r j n j NMVr r F F r≤ ≤ −= = =
Estimem r com:
20
39Homogeneïtat d’estil en el Tirant lo Blanc
0 100 200 300 400 500
0
50
100
150
Capitol
F(lla
rgm
itja)
0 100 200 300 400 500
0
50
100
150
C a pito l
F(lla
rgm
itja)
6.2 punt de canvi: aportacions
0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0
4 , 0
4 , 5
5 , 0
C a p i t o l
Llar
gada
Mitj
ana
40Homogeneïtat d’estil en el Tirant lo Blanc
6.2 punt de canvi: aportacions
Gràfic de Fr vs. r
0 100 200 300 400 500
0
50
100
150
Capitol (r)
Fr(ll
i)
Cap. 345-346 Cap. 371-372
21
41Homogeneïtat d’estil en el Tirant lo Blanc
( )( )
++
+=∼ )(
1)(
1)(
0
)(1
)(1
)(0
exp1exp, r
irr
ri
rr
iii IndIndNBinomialy
ββββπ
6.2 punt de canvi: aportacions
Seqüència de Binomials
Estimar r ajustant de n-1 models logístics
( ) ( ){ }( ) ( )1 1
ˆ ˆˆ ˆ: , max ,r jL j n BMVr r L r L j rβ β≤ ≤ −= = =
Estimem r com:
( ) ( ) ( )0 1 1( ) log
1r r ri
i ii
g Indππ β βπ
= = +−
42Homogeneïtat d’estil en el Tirant lo Blanc
6.2 punt de canvi: aportacions
Gràfic de Lr vs. r
5004003002001000
-46350
-46400
-46450
-46500
Capitol (r)
L10+
(Bet
a)
Cap. 345
22
43Homogeneïtat d’estil en el Tirant lo Blanc
)(1
)(1
)(0
1
log)( ri
rj
rj
i
jiij Indg ββ
ππ
π +==
6.2 punt de canvi: aportacions
Seqüència de Multinomials
yi = (y1i, y2i,..., yli ) ~ Mult(Ni, πi =(π1i, π2i,..., πli))
Proposem estimar r via l’ajust de models per dades politòmiques:
g(πi)= (g2(πi), g3(πi),....,gl(πi))
on:
per j = 1,2,...l
( ) ( ){ }( ) ( )1 1
ˆ ˆˆ ˆ: , max ,r jM j n MMVr r L r L j rβ β≤ ≤ −= = =
Estimem r com:
44Homogeneïtat d’estil en el Tirant lo Blanc
6.2 punt de canvi: aportacions
Gràfic de Lr vs. r
0 100 200 300 400 500
-828200
-828100
-828000
-827900
Capítol (r) Cap. 345 Cap. 371
L(r,Beta(r))
23
45Homogeneïtat d’estil en el Tirant lo Blanc
( )( )( ) ( ) ( ) ( ) ( ) 20 1 1 1 1... ,r r r r r
i i i p i iy N E y Ind Indβ β β σ−∼ = + + +
6.2 punt de canvi: aportacions
Més d’un punt de canvi
Aplicació a seqüència de Normals
Hi ha p-1 punts de canvi a r = (r1,r2,..., rp-1)
Proposem estimar r via l’ajust de models de regressió lineal:
{ }ˆ : maxNp r j jr r F F= =
Estimem r com:
46Homogeneïtat d’estil en el Tirant lo Blanc
6.2 punt de canvi: aportacions
Gràfic de Fr vs. rAplicació a dos punts de canvi
50 70 90
60 70 80 90 100 110 120 130
300
310
320
330
340
350
360
r1
r2
Contour Plot of F(Simpson -D)
24
47Homogeneïtat d’estil en el Tirant lo Blanc
Quadre Resum de les estimacions del punt de canviUnitat Model Pt. canvi
Llargada mitjana Normal 345(371) Ús paraules 1 lletra Binomial 387 Ús paraules 2 lletres Binomial 327 Ús paraules 9 lletres Binomial 371 Ús paraules 10+ lletres Binomial 345
Llargada de paraula
Distribució Llargada Multinomial 371(345) Llargada mitjana Normal 263 Llargada de
frase Distribució Llargada Multinomial 269
6.3 punt de canvi: aplicació
Ús d’e (més freqüent) Binomial 382 Ús de de (2a més freq.) Binomial 381 Ús de la (3a més freq) Binomial 356 12 més freqüents Multinomial 382
Ús de Paraules
25 més freqüents Multinomial 382 24 Lletres Multinomial 300 5 Vocals Multinomial 371 36 Lletres Multinomial 299 (369)
Ús de Lletres
14 Vocals Multinomial 368(383)
48Homogeneïtat d’estil en el Tirant lo Blanc
2
0 1 1 3 13 1~ ln( ) ln( ),i i i i ii
y N Ind N Ind NNσβ β β β
+ + + ⋅
98765
7
6
5
ln(N)
ln(V
)
98765
4,5
4,4
4,3
4,2
ln(N)
ln(H
)
Diversitat
6.3 punt de canvi: aplicació
Unitat Model Pt. canvi Índex Simpson, D Normal 382 Nombre de tipus, V Normal 382
Diversitat
Entropia, Hs Normal 382
25
49Homogeneïtat d’estil en el Tirant lo Blanc
+= ===
===
+
+
)382ˆ(1
)382ˆ(
1
)382ˆ(
0
)382ˆ(1
)382ˆ(
1
)382ˆ(
0
1,~ r
irr
ri
rr
Ind
Ind
ijiij eeNBinomialy ββ
ββ
π
3)(1
1 >=bsbLogitZ
= )382ˆ(
1riInd
6.3 punt de canvi: aplicació
Paraules Discriminants
Ajustem per les 100 paraules més freqüents (excepte les sensibles al context) el model:
on: = 0 per i = 1,2,...,382
= 1 per i = 383,...,n
Considerem discriminants aquelles que tenen
50Homogeneïtat d’estil en el Tirant lo Blanc
6.3 punt de canvi: aplicació
Llista de Paraules Discriminants
Més abundants en els primers 382 capítols:
e (9.79), de (9.91), la (8.69), l (5,82), del (4,13), molt (8,05), era (4,17)féu (4,04), sua (5,43), molta (4,19), foren (7,57), qual (3,73).
Més abundants en els capítols 383-final:
no (10,01), com (4,85), és (7,27), jo (10,01), si (8,48), dix (7,76), un (4,26), hi (6,28), aquell (4,98), bé (4,67), ho (7,09), ni (3,84), tal (4,26), o (5,72), sinó (4,55), dir (4,30)
26
51Homogeneïtat d’estil en el Tirant lo Blanc
Índex
1. Motivació i Objectius2. La qüestió de l’autoria del Tirant3. Estilometria4. Quantificació de l’estil5. Anàlisi Descriptiva de les Dades 6. Punt de canvi
7. Anàlisi Cluster
8. Assignació de capítols a autors1. Resum Anàlisi Cluster anteriors2. Anàlisi Cluster fixant grandària
9. Conclusions
10. Problemes pendents
52Homogeneïtat d’estil en el Tirant lo Blanc
7. Anàlisi Cluster
)(1
)(1
)(0
1
log)( ci
cj
cj
i
jiij Indg ββ
ππ
π +==
)(
1ciInd
Proposem: un algorisme no jeràrquic basat en l’ajust de models per a dades politòmiques:
g(πi)= (g2(πi), g3(πi),....,gl(πi))
on:
per j = 1,2,...l= 0 per i ∈ Cluster 0
= 1 per i ∈ Cluster 1
Cluster de les files d’una Taula de Contingència
Motivació: Alguns capítols queden mal classificats pel punt de canvi
27
53Homogeneïtat d’estil en el Tirant lo Blanc
7. Anàlisi Cluster
Algorisme
1. S’assignen les n files a un dels m=2 grups
Procés Iteratiu
2. S’ajusten els n models en els que una fila canvia d’assignació i les altres n-1 no
3. Es consolida el canvi pel que es màxim l’augment en
1. la versemblança del model
2. la distància χ2 entre els dos clusters
4. Es torna a 2.
54Homogeneïtat d’estil en el Tirant lo Blanc
-0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2
-0,2
-0,1
0,0
0,1
0,2
0,3
1a Component
2a C
ompo
nent
7. Anàlisi Cluster
Discussió de Resultats
• Resultats molt semblants en els dos casos
• Separació en funció de la 1a Component d’A.C.
28
55Homogeneïtat d’estil en el Tirant lo Blanc
7. Anàlisi Cluster
Unitats analitzades
• Llargada de paraula
• Llargada de frase
• 5, 14 vocals
• 24, 36 lletres
• 12 paraules més freqüents
• 25 paraules més freqüents
• Paraules discriminants
• Diversitat
56Homogeneïtat d’estil en el Tirant lo Blanc
8. Assignació de capítols a autors
• Resum Anàlisi Cluster anteriors
• Anàlisi Cluster fixant grandària
29
57Homogeneïtat d’estil en el Tirant lo Blanc
• 7 unitats
• Codifiquem
• Sumem Cu per u=1,2,...,7
8.1 Resum Anàlisi Cluster anteriors
= 0 per i ∈ Cluster 0
= 1 per i ∈ Cluster 1uC
58Homogeneïtat d’estil en el Tirant lo Blanc
Ll.Par 36Llet 5Voc 12Par 25Par Par.disc Diver S7 S3
Cap 1 1 1 1 1 0 0 0 4 1 2 1 0 0 0 1 1 0 3 2 3 0 0 1 0 0 0 0 1 0 4 1 0 0 0 1 1 0 3 2 5 0 1 1 1 1 1 0 5 1 6 0 0 0 1 1 1 0 3 1 7 1 0 1 0 0 1 1 4 3 8 1 0 0 0 0 0 0 1 1 ... ... ... ... ... ... ... ... ... ...
480 1 0 1 1 1 1 1 6 3 481 1 0 1 1 1 1 1 6 3 482 1 0 0 0 0 1 1 3 3 483 1 1 1 1 1 1 1 7 3 484 0 1 1 1 1 1 1 6 2 485 1 1 1 1 1 1 1 7 3 486 0 1 1 1 1 1 1 6 2 487 1 0 1 1 1 1 1 6 3
8.1 Resum Anàlisi Cluster anteriors
Resultats de l’anàlisi cluster per les 7 unitats analitzades
30
59Homogeneïtat d’estil en el Tirant lo Blanc
8.1 Resum Anàlisi Cluster anteriors
0 100 200 300 400 500
0
1
2
3
4
5
6
7
Capitol
S7
60Homogeneïtat d’estil en el Tirant lo Blanc
0 100 200 300 400 500
0
1
2
3
Capitol
S3
3 unitats– llargada de paraula
– ús de les paraules discriminants
– diversitat de vocabulari
8.1 Resum Anàlisi Cluster anteriors
31
61Homogeneïtat d’estil en el Tirant lo Blanc
Anàlisi Cluster fixant grandària
• Fixem gràndaria del cluster del final en 100 capítols
• 7 (3) unitats
• Codifiquem
• Sumem Cu per u=1,2,...,7
8.2 Anàlisi Cluster fixant grandària
= 0 per i ∈ Cluster 0
= 1 per i ∈ Cluster 1uC
62Homogeneïtat d’estil en el Tirant lo Blanc
5004003002001000
3
2
1
0
Capitol
S3
8.2 Anàlisi Cluster fixant grandària
3 unitats– llargada de paraula
– ús de les paraules discriminants
– diversitat de vocabulari
32
63Homogeneïtat d’estil en el Tirant lo Blanc
8.3 Assignació de capítols a autors
Resum capítols clarament mal classificats
Anteriors al 382:
– 44, 52, 80
Posteriors al 382:
– 403, 411, 412, 424, 432, 433, 434, 435, 436, 437, 438, 439, 460. 472, 473, 474, 475
64Homogeneïtat d’estil en el Tirant lo Blanc
1. Hem adaptat tècniques d’anàlisi descriptiva de dades, proposat un mètode per a l’estimació del punt de canvi i hem fet servir un mètode cluster per les files d’una taula de contingència
2. Gairebé totes les unitats estilomètriques coincideixen: llargada de paraula, ús de paraules freqüents i índexs de diversitat. L’ús de lletres reforça els resultats.
3. La llargada de frase i de capítol donen resultats diferents
4. Hi ha canvi d’estil entre els capítols 371 i 382
5. Després del punt de canvi conviuen capítols amb els dos estils
9. Conclusions
33
65Homogeneïtat d’estil en el Tirant lo Blanc
• Ajust de distribucions de vocabulari– Llei de Zipf– Distribució de Waring Herdan– Distribució de Sichel
• Agrupació de distribucions de vocabulari
10. Problemes pendents
• Data mining amb freqüència d’ús de totes les paraules
• Modelar la dependència de llenguatge (Hidden Markov Chains)
66Homogeneïtat d’estil en el Tirant lo Blanc
Par. Freq. Cp1 Cp2 Cp3 Cp4 Cp5 Cp6 Cp7 Cp8 Cp9 Cp10 e 22114 12 26 66 33 63 35 20 13 12 44 de 14890 15 28 46 29 46 15 20 9 9 27 la 14202 9 19 48 34 42 27 10 13 9 29 que 13556 8 9 53 13 34 23 16 6 7 21 lo 9413 10 10 26 9 33 27 3 1 6 16 en 7765 6 12 20 21 17 16 6 9 4 14 a 7528 1 11 22 13 16 13 4 6 4 19 per 6871 4 8 20 11 21 11 5 6 7 18 no 5849 1 3 19 5 8 7 5 4 3 11 l 5169 7 2 9 7 12 10 5 5 4 15 los 4666 5 1 13 3 20 6 0 1 4 6 com 4379 2 3 11 4 16 3 2 4 0 10 ab 4342 1 7 8 12 12 2 0 0 1 19 les 3813 3 6 15 5 7 1 3 3 2 13 d 3702 0 3 6 6 16 5 2 1 2 5 tirant 2913 0 0 0 0 0 0 0 0 0 0 li 2680 1 3 4 5 3 8 0 0 0 1 qui 2615 1 1 11 2 11 3 2 2 1 7 del 2430 3 1 3 3 5 4 1 0 1 6 se 2409 1 4 3 5 7 3 0 0 0 2
10. Problemes pendents: Data mining
Taula de 13.828 formes * 487 capítolsyji: nombre de vegades que trobem la paraula j en el capítol i