análisis de la varianza de un factor test t de 2 muestras se aplica...

46
Análisis de la varianza de un factor El test t de 2 muestras se aplica cuando se quieren comparar las medias de dos poblaciones con distribuciones normales con varianzas iguales y se observan muestras independientes para cada población. Ahora consideraremos una generalización para el caso en que se quieren comparar tres o más medias. Ejemplo: En la tabla siguiente se muestran los resultados obtenidos en una investigación acerca de la estabilidad de un reactivo fluorescente en diferentes condiciones de almacenamiento. Se conservaron tres muestras en cada una de 4 condiciones. Supongamos (porque a veces puede ocurrir) que para una de las condiciones, la medición no pudo realizarse o se detectó una falla y fue eliminada. Los datos observados son:

Upload: others

Post on 02-Apr-2020

21 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Análisis de la varianza de un factor

El test t de 2 muestras se aplica cuando se quieren comparar las medias de dos poblaciones con distribuciones normales con varianzas iguales y se observan muestras independientes para cada población. Ahora consideraremos una generalización para el caso en que se quieren comparar tres o más medias. Ejemplo: En la tabla siguiente se muestran los resultados obtenidos en una investigación acerca de la estabilidad de un reactivo fluorescente en diferentes condiciones de almacenamiento. Se conservaron tres muestras en cada una de 4 condiciones. Supongamos (porque a veces puede ocurrir) que para una de las condiciones, la medición no pudo realizarse o se detectó una falla y fue eliminada. Los datos observados son:

Page 2: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Condiciones Mediciones

observadas (señales de

fluorescencia)

Media Muestral

Recientemente preparada

102 100 101 101

Una hora en la oscuridad

101 101 104 102

Una hora con luz tenue

97 95 99 97

Una hora con luz brillante

92 94 93

Mirando los promedios muestrales se ven diferencias y nos preguntamos si las condiciones de almacenamiento no influyeron sobre la fluorescencia de las muestras (ésta será nuestra H0), ¿cuál es la probabilidad de que por simple azar se observen diferencias entre las medias muestrales de esta magnitud? Para generalizar podemos pensar que observamos k muestras (en el ejemplo k=4). Suponemos el siguiente modelo:

Page 3: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Modelo de k muestras normales independientes con varianzas iguales. Muestra 1: X11, X12, ..., X1 n1 v. a. i.i.d N(1, 2) ....... Muestra i: Xi1, Xi2, ..., Xi ni v. a. i.i.d N(i, 2) ....... Muestra k: Xk1, Xk2, ..., Xk nk v. a. i.i.d N(k, 2) y asumimos que las v. a. de una muestra son independientes de las v. a. de otra muestra. Llamaremos iX y si

2 a la media y la varianza muestrales de la muestra i = 1,2, ...,k. Vamos a estudiar la hipótesis nula:

H0: 1 = 2 = ...= k

Page 4: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El
Page 5: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El
Page 6: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Parece natural proponer un estimador de 2 basado en un promedio ponderado de las varianzas de cada muestra si

2 , tal como se hacemos con el sP2 cuando comparamos dos muestras. Se

puede demostrar que el mejor estimador insesgado de 2 bajo el modelo anterior es:

knSS

kn

s)n

knnsns)ns W

k

iii

k

kkp

1

2

1

22112

*1(

...*)1(...*1(

(1)

En la última expresión hemos llamado

k

iinn

1

al número total de observaciones. Vamos a estudiar la hipótesis nula:

H0: 1 = 2 = ...= k La hipótesis alternativa es H1: no es cierta H0

Page 7: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Llamemos

n

X

n

XnX

k

i

n

jij

k

iii

i

1 11

a la media general de todas las observaciones El estadístico para el test óptimo para este problema, tiene al estimador de la varianza (dado por (1)) en el denominador y una medida de las diferencias (similar a la variancia) entre las medias de las distintas muestras en el numerador. Esta medida es:

11

)(1

2

kSS

k

XXnB

k

iii

(2)

Page 8: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

El estadístico del test se obtiene dividiendo (2) sobre (1):

knSSkSS

s

kXXnF

W

B

p

k

iii

/1/

)1(/)(

21

2

(3)

Si H0 fuera cierta, entonces el denominador y el numerador serían parecidos, por lo tanto el cociente sería cercano a 1. Si las medias poblacionales no son todas iguales, el numerador tiende a ser mayor que el denominador y por lo tanto, el cociente será mayor a 1.

Page 9: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Test F: 1er. paso: Calculo el estadístico F dado por (3) Nota: Si H0: 1 = 2 = ...= k es cierta, este estadístico tiene distribución F con k-1 grados de libertad en el numerador y n-k g.l. en el denominador. ¿De dónde surgen los grados de libertad? Se puede demostrar, que si se satisfacen los supuestos del análisis de varianza que hemos visto, entonces:

Bajo H0: 2

122

2 ~ii) ~ i) kB

knW SSSS

independientes. 2do. paso: Si F > F k-1,n-k; rechazamos H0 .

Page 10: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Usualmente los resultados del Análisis de Varianza se presentan una tabla como la que sigue:

Análisis de Varianza Fuente SS gl MS F Prob > F

Between SSB k-1 MSB = SSB/k-1

MSB/MSW Within SSW n-k MSW = SSW/n-k

Total SST n-1 MST = SST/n-1

Page 11: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Comentarios sobre la “tabla del análisis de la varianza”. Se puede demostrar que vale la siguiente igualdad:

k

iiij

n

j

k

iii

k

iij

n

jXXXXnXX

ii

1

2

11

2

1

2

1)()()(

En la expresión anterior aparecen tres “sumas de cuadrados”: “suma de cuadrados entre grupos” (SSB: Between ) “suma de cuadrados dentro de grupos” (SSW: Within) “suma de cuadrados total” (SST: Total)

Page 12: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Veamos como quedaría en nuestro ejemplo:

Fuente gl SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 3 122.182 40.7273 15.84 0.0017 WITHIN 7 18.000 2.57143 TOTAL 10 140.182

Rechazamos la hipótesis H0: 1 = 2 = 3 = 4 al nivel 0.01, es decir las medias de la fluorescencia difieren significativamente a este nive. O dicho de otro modo: concluimos que la media de la fluorescencia depende de las condiciones de almacenamiento.

La pregunta ahora es: ¿cuáles son las que difieren?

Page 13: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Comparación de pares de medias

CONDICION Media ni si --------- ---------- ------ ---------- 1 101.00 3 1.0000 2 102.00 3 1.7321 3 97.00 3 2.0000 4 93.00 2 1.4142 TOTAL 98.73 11 1.6036

Supongamos que hemos aplicado el test F y hemos rechazado la H0. ¿Qué quiere decir la alternativa? Que no todas la medias son iguales pero, ¿cuáles son diferentes? Cuando no se puede rechazar H0 generalmente el análisis termina ahí, pero cuando se rechaza generalmente el experimentador no se conforma con esa respuesta, sino que desea comparar las medias, frecuentemente (no siempre) de a pares, como para identificar cuáles son las que difieren. Para ello deberíamos usar un método de comparaciones múltiples.

Page 14: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Intervalo de confianza para la diferencia de dos medias. Queremos comparar las medias de los grupos i y j. Empecemos por construir un IC para i - j

El estimador puntual es ji XX

¿Cuál es su varianza? ¿Como se estima? Puede demostrarse que

]11;11[ 22/,

22/,

jipknji

jipknji

nnstXX

nnstXX (4)

es un Intervalo de Confianza con nivel 1- . Si en vez de intervalo queremos estudiar la H0: i = j también es fácil deducir un test bilateral por la relación entre ambos.

Page 15: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

¿Se pueden calcular muchos IC o aplicar muchos tests? ¿Cuál es la crítica que se suele hacer a los IC “usando la distribución t” (de la forma (4)) y a los tests deducidos de estos intervalos? Si hiciéramos unos pocos intervalos elegidos a priori (antes de observar los datos) la probabilidad de equivocarnos será >5%, pero no sería tan alta... Si por ejemplo tuviéramos 6 tratamientos y quisiéramos todas las comparaciones de a pares, el número de intervalos de confianza sería 15, si tuviéramos 4 tratamientos como en nuestro caso, sería 6 y si fueran 10, deberíamos realizar 45 comparaciones!! ¿Cuál será la probabilidad de que alguno no contenga al verdadero valor del parámetro? Aunque no la podamos calcular exactamente, es evidente que esta probabilidad es mucho > que 0.05. Por eso cuando uno planea de antemano hacer uno o muy pocos intervalos o tests puede usar (4), pero en caso contrario conviene utilizar un método de intervalos de confianza simultáneos.

Page 16: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Intervalos de confianza simultáneos (concepto general, no sólo para el análisis de varianza de un factor) ¿Cuál es la definición de IC para un parámetro ?

Recordemos que si X=(X1,X2,...,Xn) es la muestra observada, un intervalo [a(X),b(X)] es un IC para con nivel 1- si

P( a(X) b(X) ) = 1- Ahora deseamos calcular IC para cada uno de los parámetros j (digamos j=1...,m). Se dice que el intervalo [aj(X),bj(Y)] es un IC para j calculado por un método simultáneo si

1)]()([

1m

jjjj XbXaP (5)

o sea que la probabilidad de que todos los IC sean correctos (contengan al verdadero valor del parámetro) es 1-. La probabilidad de que alguno sea incorrecto es .

Page 17: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Método de Bonferroni.

Un método muy general (para cualquier modelo) para obtener intervalos de confianza simultáneos es calcular cada uno de ellos con nivel 1-/m, donde m es el número de IC que se desea calcular.

Este método tiene la ventaja de ser muy simple y muy general, pero sólo se usa en la práctica si m es pequeño, porque para valores moderados de m da IC de gran longitud. Para el caso particular del análisis de la varianza de un factor, basta usar (4), pero reemplazando tn-k,/2 por tn-k,/2m donde m es el número de IC que se desea calcular:

]11;11[ 22/,

22/,

jipmknji

jipmknj

nnstXX

nnstXiX

Page 18: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

)11(2,,2

1

jipknkji nn

SqXX

)11(

)(max

2

jip

jiji

nnS

XXQ

Método de Tukey. Los intervalos de Tukey son similares a los dados, pero reemplazando tn-k,/2 por el valor qk,n-k, / 2, resultando donde los valores "q" están tabulados y corresponden a la distribución estudiada por Tukey, llamada distribución del "rango studentizado" de k variables normales independientes. El 2 que aparece se debe simplemente a como se construyó la tabla. Se basa en la distribución de

Page 19: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

FLUOR.tuk<-TukeyHSD(salida,"luz.f",ordered=FALSE,conf.level=0.95) plot(FLUOR.tuk)

Page 20: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Para el caso originalmente pensado por Tukey en el que los tamaños de muestras son iguales (n1=n2=...=nI), este método hace que se cumpla el = en vez del en (5) cuando se realizan todas los comparaciones de a pares. El método de Tukey es óptimo (da IC de la menor longitud posible) cuando se desea calcular IC para todos los pares posibles y los nj’s son iguales. Para el caso en que los tamaños de muestras no son iguales, se demostró que sigue valiendo (5) pero con “>”. En este caso el método se conoce también como “método de Tukey-Kramer”. Tests simultáneos: son los derivados de IC simultáneos. Tienen la propiedad de que la probabilidad de cometer algún error tipo I es menor o igual que .

Page 21: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Comparación de los métodos considerados

Si se desea calcular un IC o aplicar un test para una sola diferencia de medias elegidas a priori, evidentemente el método de elección es el basado en la distribución t. Si son unos pocos, elegidos a priori conviene usar Bonferroni. Si se hacen muchas comparaciones de a pares (o algunas elegidas a posteriori, que es “igual que hacer muchas”) conviene usar Tukey pues da intervalos de menor longitud que Bonferroni. Para elegir entre Bonferroni y Tukey, no es "trampa" elegir el método que da IC de menor longitud. No se necesita hacer las cuentas del IC para elegir el método: basta comparar quien es menor entre los valores de la tabla de "t" y de la tabla de "q", es decir entre tn-k,/2m y qk,n-k, /2 .

Page 22: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Tabla de ANOVA fluo<-read.table("C:\\Users\\Ana\\estadisticaQ\\2012\\ejemplo_anova.txt",header=T) fluo attach(fluo) luz.f<- factor(LUZ) ¿qúe quiere decir esta instrucción? salida<- aov(FLUOR~luz.f) anova(salida) Analysis of Variance Table Response: FLUOR Df Sum Sq Mean Sq F value Pr(>F) luz.f 3 122.18 40.727 15.838 0.001676 ** Residuals 7 18.00 2.571 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 names(salida) [1] "coefficients" "residuals" "effects" "rank" "fitted.values" [6] "assign" "qr" "df.residual" "contrasts" "xlevels" [11] "call" "terms" "model"

Page 23: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Suposiciones del modelo. Diagnóstico. El test F ha sido deducido bajo el supuesto de que las k muestras son normales, independientes y con igual varianza. Cuando el tamaño de la muestra de cada grupo es grande, el test F es válido en forma aproximada (el valor p calculado es aproximado) aunque la variable no tenga distribución normal. En la práctica no es esperable que el modelo se cumpla exactamente, pero sí en forma aproximada. Al igual que con el test t, hay que analizar los datos para detectar si el modelo es aproximadamente cierto o si en cambio es falso.

Page 24: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

ijiji XXr

Boxplots Paralelos Cuando hay una cantidad suficiente de observaciones se pueden realizar boxplots paralelos de las observaciones originales por tratamiento. En el presente ejemplo, hay solo 3 y hasta 2 observaciones por casilla, con lo cual no parece muy razonable este gráfico. En su lugar podemos realizar un boxplot de los residuos todos juntos. Para cada observación, el residuos rij se calcula como:

Page 25: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

El siguiente gráfico muestra el boxplot correspondiente a los residuos del ejemplo de fluorescencia: boxplot(salida$res) Los residuos parecen tener una distribución simétrica y no se observan datos atípicos, por lo que no parece haber importantes apartamientos de la normalidad.

Page 26: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Tests para estudiar si las varianzas son iguales Para estudiar la suposición de igualdad de varianzas podemos graficar y también se pueden realizar algunos tests. Respecto del gráfico podemos considerar un scatter-plot o diagrama de dispersión de los promedios muestrales versus los residuos. En el ejemplo de Fluorescencia resultaría: Se observan algunas diferencias en la dispersión de los residuos, pero no parece haber grandes apartamientos del supuesto de homocedasticidad en este caso. Sin embargo, deberíamos aplicar un test para chequear este supuesto. Respecto de tests existen algunas alternativas.

Page 27: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Consideremos el modelo

Xij N(i,i2) (i=1,...,k; j=1,...,ni ) independientes

y la hipótesis a testear será

H0: 22

22

1 ... k . Hay varios tests. El más antiguo es el test de Bartlett. Se basa en un estadístico que tiene distribución aproximadamente 2

k-1 bajo H0.

Page 28: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El
Page 29: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

bartlett.test(FLUOR,luz.f) Bartlett test of homogeneity of variances data: FLUOR and luz.f Bartlett's K-squared = 0.7515, df = 3, p-value = 0.861 En nuestro ejemplo el estadístico del test de Bartlett es 0.7515 con un p-valor de 0.861, por lo tanto no rechazamos el supuesto de homogeneidad de varianzas Sin embargo, este test tiene una alta sensibilidad a la falta de normalidad. Por esta razón, es necesario disponer de alguna alternativa más resistente a la falta de normalidad.

Page 30: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Un test que es poco sensible a la falta de normalidad es el test de Modificado de Levene. Para aplicarlo, primero se calculan

|~| iijij XXd

donde iX~ denota la mediana del tratamiento i . Luego se calcula el estadístico F del análisis de un factor a los dij.

Si la hipótesis H: 22

22

1 ... k es cierta y los ni “no son muy pequeños”, el estadístico tiene distribución aproximadamente F con k-1 y n-k grados de libertad. Esto permite aplicar un test aproximado de la hipótesis de igualdad de varianzas. Rechazamos la igualdad de varianzas si el estadístico toma un valor muy grande. medians<-tapply(FLUOR,luz.f,median) abs.dif<- abs(FLUOR-medians[luz.f]) summary(aov(abs.dif~luz.f)) Df Sum Sq Mean Sq F value Pr(>F) luz.f 3 0.667 0.2222 0.167 0.916 Residuals 7 9.333 1.3333 Como el p-valor = 0.916 > 0.20, no rechazamos el supuesto de homoscedasticidad.

Page 31: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Normalidad A menos que hubiera una gran cantidad de datos para cada nivel del factor, lo aconsejable es estudiar los residuos obtenidos a partir de la predicción que obtenemos prediciendo la media de cada nivel por el promedio muestral en cada casilla. Bajo los supuestos del modelo, es esperable que estos residuos sean aproximadamente normales y podríamos realizar un boxplot o un histograma para tener una idea de cómo se distribuyen. QQ-plot

0.5

0.6

0.7

0.8

0.9

A s im e tr ic a a izq u ie rd a

-0.5

0.0

0.5

1.0

C o la s L iv ia n a s

-2-1

01

2

N o rm a l

-50

5

C o la s P e s a d a s

0.0

0.1

0.2

0.3

A s im e tric a a d e re c h a

0 .5 0 .6 0 .7 0 .8 0 .9 1 .0

01

23

4

-1 .0 -0 .5 0 .0 0 .5 1 .0

0.0

0.2

0.4

0.6

0.8

-2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-5 0 5

0.00

0.05

0.10

0.15

0.20

0 .0 0 .1 0 .2 0 .3 0 .4

01

23

45

6

Roj

o=M

edia

na, N

egro

=Med

ia

0.6

0.7

0.8

0.9

-0.5

0.0

0.5

1.0

-10

12

-50

5

0.1

0.2

0.3

Page 32: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Test de Sahpiro-Wilk Con el estadístico de test de Shapiro-Wilk y su correspondiente p-valor podemos chequear la hipótesis de normalidad y podemos rechazar el supuesto de normalidad si el p-valor que nos brinda es muy pequeño. En general, convenimos tomar como cota un p-valor superior a 0.20. Esencialmente, lo que hace este test es medir cuán cerca de una recta esta la curva que describen los puntos graficados en el QQ-plot.

Page 33: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

QQ-plot y Test de Shapiso-Wilk en nuestro ejemplo qqnorm(salida$res) qqline(salida$res)

Page 34: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

shapiro.test(salida$res) Shapiro-Wilk normality test data: salida$res W = 0.9081, p-value = 0.2315 En nuestro ejemplo el estadístico del test de Shapiro-Wilk es 0.9081 y el p-valor correspondiente es de 0.2315, con lo cual no rechazamos el supuesto de normalidad.

Page 35: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Test no paramétrico para comparar 3 o más muestras: test de Kruskal-Wallis. Este test es una generalización del test de Wilcoxon- Mann Whitney al caso de más de 2 muestras. Igual que el test de Mann Whitney no requiere que los datos sean normales, y el estadístico de este test no se calcula con los datos originales, sino con los rangos de los datos. Los supuestos en que se basa el test son: Los datos son por lo menos ordinales, es decir los datos pueden ordenarse en forma creciente. Además de la independencia entre las observaciones de una misma muestra, suponemos

independencia entre las observaciones de las distintas muestras. De cada una de las k poblaciones tenemos una muestra aleatoria de tamaño ni, es decir:

Page 36: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Muestra de la población i Tamaño de muestra

Y11, Y12,........., Y1n1 n1 Y21, Y22,........., Y2n2 n2 ................................. ..... ................................. ..... ................................. ..... Yk1, Yk2,........., Yknk nk Total de observaciones n = n1+ n2+.... nk

Page 37: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

La hipótesis nula a testear es

Ho: todas las poblaciones tienen la misma distribución Bajo Ho, todas las observaciones provienen de poblaciones idénticas. Si hacemos un pool con todas las n observaciones Yij y las ordenamos de menor a mayor, obtendremos los rangos

Rij

Si Ho es cierta , las observaciones Yij provienen de una misma distribución y por lo tanto, todas las asignaciones de los rangos a las k muestras tienen la misma chance de ocurrir. Si Ho es falsa, algunas muestras tenderán a tomar los rangos más pequeños, mientras que otras tenderán a tomar los rangos más grandes. El estadístico GKW test de Kruskal-Wallis mide la discrepancia entre los promedios observados de los rangos para cada tratamiento iR y el valor que esperaríamos si Ho fuera cierta. En este test rechazamos la hipótesis nula de igualdad de medias si GKW es grande.

Page 38: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

El estadístico puede calcularse como

1

nSSTSSBGKW

donde SSB y SST son, respectivamente, la suma de cuadrados between y la suma de cuadrados total para la tabla de análisis de la varianza correspondiente a los rangos de las observaciones.

R da el p-valor usando la aproximación por una distribución: 2

1k

Esta aproximación es válida cuando:

k=3 ni 6 para las k muestras o bien

k>3 ni 5 para las k muestras Para el caso en que k=3 y los ni 5 se debe usar la tabla con los percentiles de la distribución exacta. Veamos un nuevo ejemplo.

Page 39: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Ejemplo:

FEV1 FEV2 FEV3 3.12 3.17 3.53 3.56 3.22 2.79 1.85 2.88 3.22 2.26 1.5 2.25 3.00 2.92 2.98 1.68 3.77 2.47 2.39 3.29 2.77 2.50 3.39 2.95 3.85 3.86 3.56 3.34 2.94 2.88 2.55 2.61 2.63 2.54 2.71 3.38 1.97 3.41 3.07 2.56 2.89 2.81 2.07 2.59 3.17 2.46 3.39 2.23

FEV1 FEV2 FEV32.46 2.19 2.73 4.56 2.87 1.98 2.59 2.81 2.44 2.85 2.22 3.19

FEV1 FEV2 FEV3 N 23 21 16 MEAN 2.6178 2.9967 2.9181 SD 0.5386 0.6650 0.4031 MINIMUM 1.6800 1.5000 2.2300 MEDIAN 2.5400 2.9200 2.9150 MAXIMUM 3.8500 4.5600 3.5600 MAD 0.3200 0.3300 0.2700

Page 40: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Veamos los boxplots paralelos. fev<-read.table("C:\\Users\\Ana\\estadisticaQ\\2012\\fev_claseANOVA.txt",header=T) fev attach(fev) trat.f<- factor(TRAT) plot(trat.f,FEV)

En este caso, como tenemos suficientes observaciones por casilla, podemos graficar boxplots paralelos para cada centro. Observamos algunos valores atípicos.

Page 41: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

¿Qué resultados obtendríamos si aplicásemos el test de F a estos datos? salida<- aov(FEV~trat.f) anova(salida) Analysis of Variance Table Response: FEV Df Sum Sq Mean Sq F value Pr(>F) trat.f 2 1.8422 0.92112 2.9724 0.05917 Diferencias no significativas al 5%! Residuals 57 17.6639 0.30989 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Analizamos los residuos: plot(salida$fit,salida$res) abline(h=0,col="red") qqnorm(salida$res) qqline(salida$res)

Page 42: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

-2 -1 0 1 2

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 43: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Tests para chequear Normalidad e Igualdad de Varianzas bartlett.test(FEV,trat.f) Bartlett test of homogeneity of variances data: FEV and trat.f Bartlett's K-squared = 3.931, df = 2, p-value = 0.1401 medians<-tapply(FEV,trat.f,median) abs.dif<- abs(FEV-medians[trat.f]) summary(aov(abs.dif~trat.f)) Df Sum Sq Mean Sq F value Pr(>F) trat.f 2 0.238 0.1192 0.847 0.434 Residuals 57 8.016 0.1406 shapiro.test(salida$res) Shapiro-Wilk normality test data: salida$res W = 0.9842, p-value = 0.6307

Page 44: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

¿Qué resultados obtendríamos si aplicásemos el test de Kruskal-Wallis a estos datos? kruskal.test(FEV,trat.f) Kruskal-Wallis rank sum test data: FEV and trat.f Kruskal-Wallis chi-squared = 6.9068, df = 2, p-value = 0.03164 Diferencias significativas al 5%!

Page 45: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Como vemos, a partir del test de Kruskal-Wallis rechazaríamos la hipótesis H0 de igualdad de las distribuciones con un nivel de significación de 0.05. Como en el caso del test de F, si rechazamos la hipótesis de igualdad seguramente vamos a desear identificar cuáles son las poblaciones que tiene distribución diferente. Si el número de comparaciones es moderado podemos utilizar el método de Bonferroni. Si deseamos comparar m distribuciones podríamos calcular los intervalos de confianza para los promedios de los rangos que están dados por

Page 46: Análisis de la varianza de un factor test t de 2 muestras se aplica …cms.dm.uba.ar/academico/materias/2docuat2014/... · 2014-11-13 · Análisis de la varianza de un factor El

Volviendo al ejemplo de FEV obtendríamos: library(pgirmess) kruskalmc(FEV,trat.f,probs=0.05) Multiple comparison test after Kruskal-Wallis p.value: 0.05 Comparisons obs.dif critical.dif difference 1-2 12.908903 12.61895 TRUE 1-3 11.019022 13.61065 FALSE 2-3 1.889881 13.87400 FALSE ¿Qué significa esto? MEAN HOMOGENEOUS TRAT RANK GROUPS --------- ---------- ----------- 2 35.929 I 3 34.031 I I 1 23.087 .. I

Concluiríamos que los valores de FEV en el centro 2 difieren de los del centro 1 al nivel 5%.