(600907861) 4. pruebas de bondad de ajuste y pruebas no parametricas

64
UNIDAD IV PREUBAS CHI-CUADRADA Y ESTADISTICA NO PARAMETRICA Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre concuerdan exactamente con los resultados teóricos esperados, según las reglas de probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 caras y 50 cruces cuando se lanza 100 veces una moneda bien hecha, es raro que se obtengan exactamente estos resultados. Supóngase que en una determinada muestra se observan una serie de posibles sucesos E 1 , E 2 , E 3 , . . . , E K , que ocurren con frecuencias o 1 , o 2 , o 3 , . . ., o K , llamadas frecuencias observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias e 1 , e 2 , e 3 , . . . ,e K llamadas frecuencias teóricas o esperadas. A menudo se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E 1 y E 2 como, por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con los métodos de las unidades anteriores. En esta unidad se considera el problema general. Definición de X 2 Una medida de la discrepancia existente entre las frecuencias observadas y esperadas es suministrada por el estadístico X 2 , dado por: o e 2 o e 2 o e K o e 2 X 2 1 1 e 1 2 2 e 2 . . . k K e K j j j 1 e j donde si el total de frecuencias es N, o j e j N Si X 2 = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si X 2 >0, no coinciden exactamente. A valores mayores de X 2 , mayores son las discrepancias entre las frecuencias observadas y esperadas. Si las frecuencias esperadas son al menos iguales a 5, la aproximación mejora para valores superiores.

Upload: juancaloshos

Post on 16-Dec-2015

75 views

Category:

Documents


6 download

DESCRIPTION

pruebas de bondad y ajuste

TRANSCRIPT

UNIDAD IVPREUBAS CHI-CUADRADA Y ESTADISTICA NO PARAMETRICA

Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre concuerdan exactamente con los resultados tericos esperados, segn las reglas de probabilidad. Por ejemplo, aunque consideraciones tericas conduzcan a esperar 50 caras y 50 cruces cuando se lanza 100 veces una moneda bien hecha, es raro que se obtengan exactamente estos resultados.

Supngase que en una determinada muestra se observan una serie de posibles sucesos E1, E2, E3, . . . , EK, que ocurren con frecuencias o1 , o2, o3, . . ., oK, llamadas frecuencias observadas y que, segn las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3 , . . . ,eK llamadas frecuencias tericas o esperadas.

A menudo se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E1 y E2 como, por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con los mtodos de las unidades anteriores. En esta unidad se considera el problema general.

Definicin de X2Una medida de la discrepancia existente entre las frecuencias observadas y esperadas es suministrada por el estadstico X2, dado por:o e 2

o e 2

o e K o e 2X 2 1 1 e1

2 2 e2

...

k K eK

j j j 1 e j

donde si el total de frecuencias es N,o j

e j NSi X2 = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si X2>0, no coinciden exactamente. A valores mayores de X2, mayores son las discrepancias entre las frecuencias observadas y esperadas.Si las frecuencias esperadas son al menos iguales a 5, la aproximacin mejora para valores superiores.

El nmero de grados de libertad est dado por:= k 1 men donde:K = nmero de clasificaciones en el problema.m = nmero de parmetros estimados a partir de los datos muestrales para obtener los valores esperados.

Ensayo de HiptesisEn la prctica, las frecuencias esperadas se calculan de acuerdo con la hiptesis Ho. Si bajo esta hiptesis el valor calculado de X2 dado es mayor que algn valor crtico, se deduce que las frecuencias observadas difieren significativamente de las esperadas y se rechaza Ho al nivel de significacin correspondiente. En caso contrario, no se rechazar. Este procedimiento se llama ensayo o prueba de chi-cuadrado de la hiptesis.

Debe advertirse que en aquellas circunstancias en que X2 est muy prxima a cero debe mirarse con cierto recelo, puesto que es raro que las frecuencias observadas concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se puede determinar si el valor calculado de X2 es menor que las X2 crticas o de tabla (ensayo unilateral izquierdo), en cuyos casos se decide que la concordancia es bastante buena.

Ejemplos:1. La siguiente tabla muestra las frecuencias observadas al lanzar un dado 120veces. Ensayar la hiptesis de que el dado est bien hecho al nivel de significacin del 0.05.Cara123456

Frecuencia Observada251715232416

Solucin:Ensayo de Hiptesis:Ho; Las frecuencias observadas y esperadas son significativamente iguales(dado bien hecho)H1; Las frecuencias observadas y esperadas son diferentes (dado cargado).

Primero se procede a calcular los valores esperados. Como es bien sabido por todos la probabilidad de que caiga cualquier nmero en un dado no cargado es de 1/6. Como la suma de los valores observados es de 120, se multiplica este valor por 1/6 dando un resultado de 20 para cada clasificacin.

Cara123456Total

Frecuencia Observada251715232416120

Frecuencia esperada202020202020

Grados de libertad = k-1-m = 6-1-0 = 5No se tuvo que calcular ningn parmetro para obtener las frecuenciasesperadas. HoH1

Regin de rechazo

Ro

Regla de decisin:

Regin de aceptacin2Si X2

11.1 no se rechaza H . X

j j K o e 2X 2j 1 e j

25 20 220

17 20 220

15 20 220

23 20 220

24 20 220

16 20 25

Si X2 >11.1 se rechaza H .RoClculos:20

Justificacin y decisin:Como 5 es menor a 11.1 no se rechaza Ho y se concluye con una significacin de 0.05 que el dado est bien hecho.

2. En los experimentos de Mendel con guisantes, observ 315 lisos y amarillos,108 lisos y verdes, 101 rugosos y amarillos y 32 rugosos y verdes. De acuerdo con su teora, estos nmeros deberan presentarse en la proporcin9:3:3:1. Hay alguna evidencia que permita dudar de su teora al nivel designificacin del 0.01?

Solucin:Ensayo de Hiptesis:Ho; La teora de Mendel es acertada.H1; La teora de Mendel no es correcta.

El nmero total de guisantes es 315+108+101+32=556. Puesto que los nmeros esperados estn el la proporcin 9:3:3:1 (9+3+3+1=16), se esperara: 9 16 3 16 3 16

556

556

556

312.75

104.25

104.25

lisos y amarillos lisos y verdesrugosos y amarillos 1 55616

34.75

rugosos y verdes

Grados de libertad = k-1-m = 4-1-0 = 3No se tuvo que calcular ningn parmetro para obtener las frecuenciasesperadas. HoH1

Regin de rechazo

Regin de aceptacinX2

Regla de decisin:Si X2

11.3 no se rechaza H .

Si X2 >11.3 se rechaza H .RoClculos:

K o e 2

315

312.75 2

108

104.25 2

101

104.25 2

32 34.75 2X 2 j j

0.470j 1 e j

312.75

104.25

104.25

34.75

Justificacin y decisin:Como 0.470 es menor que 11.3 no se rechaza Ho y se concluye con un nivel de significacin de 0.01 que la teora de Mendel es correcta.Como el valor de 0.470 est cercano a cero, se procede a hacer un ensayounilateral izquierdo:

Ensayo de Hiptesis:Ho; La teora de Mendel es acertada.H1; La teora de Mendel es muy acertada.

HoH1

Regla de decisin:

Regin de rechazo

a=0.01

X2

Regin de aceptacin

RSi X2

RSi X2

0.115 no se rechaza Ho .< 0.115 se rechaza Ho.

Como el valor de 0.470 no es menor a 0.115 se concluye que el experimento o la teora de Mendel solo es buena.

3. Una encuesta sobre 320 familias con 5 nios dio la distribucin que aparece en la siguiente tabla. Es el resultado consistente con la hiptesis de que el nacimiento de varn y hembra son igualmente posibles? Use = 0.05.

Nmero de niosNmero de nias504132231405

Nmero de familias185611088408

Solucin:Ensayo de hiptesis:H0; El nacimiento de nios y nias es igualmente probable.H1; El nacimiento de nios y nias no es igualmente probable.

Este experimento tiene un comportamiento binomial, puesto que se tienen dos posibles resultados y la probabilidad de xito se mantiene constante en todo el experimento.Se le llamar xito al nacimiento de un varn o nio. Por lo que la variable aleatoria x tomar valores desde 0 hasta 5.Como se quiere ver si es igualmente probable el nacimiento de nios y nias, laprobabilidad de xito ser de 0.5.Utilizando la frmula de la distribucin binomial se calcularn las probabilidades, que multiplicadas por el nmero total de familias nos darn los valoresesperados en cada clasificacin.

Recordando la frmula de la distribucin binomial:

n Cx p

x q ( n x )en donde n = 5 y x es el nmero de nios .

Probabilidad de 5 nios y 0 nias =

5 C5

(0.5) 5 (0.5) (5 5 )

1 32

Probabilidad de 4 nios y 1 nia =

5 C 4

(0.5) 4 (0.5) ( 5 4 )

5 32

Probabilidad de 3 nios y 2 nias =

Probabilidad de 2 nios y 3 nias =

5 C 3

5 C 2

( 0.5) 3 (0.5) (5 3 ) 1032(0.5) 2 (0.5) ( 5 2 ) 1032

Probabilidad de 1 nio y 4 nias =

Probabilidad de 0 nios y 5 nias =

5 C1

5 C 0

(0.5) 1 (0.5) (5 1)

(0.5) 0 (0.5) (5 0 )

5 32 1 32Si cada una de estas probabilidades se multiplican por 320 se obtienen los valores esperados:

Nmero de niosNmero de nias504132231405Total

Nmero de familias185611088408320

Frecuencias esperadas10501001005010

Grados de libertad: k-1-m = 6-1-0 = 5

HoH1

Regin de rechazo

Regin de aceptacinX2

Regla de decisin:

RSi X2

11.1 no se rechaza Ho .

RSi X2

>11.1 se rechaza Ho .

Clculos:K 2 2 2

2 2 2 22 o j e j Xj 1 e j

18 10 10

56 50 50

110 100 100

88 100 100

40 50 50

8 10 1210

Justificacin y decisin:Como el 12 es mayor a 11.1, se rechaza H0 y se concluye con un = 0.05 que elnacimiento de hombres y mujeres no es igualmente probable.

4. Una urna contiene 6 bolas rojas y 3 blancas. Se extraen al azar dos bolas de la urna, se anota su color y se vuelven a la urna. Este proceso se repite un total de 120 veces y los resultados obtenidos se muestran en la siguiente tabla. Determinar al nivel de significacin del 0.05 si los resultados obtenidos son consistentes con los esperados.

0

1

2

Bolas blancas210

Nmero de extracciones65361

Solucin:Este experimento tiene las caractersticas de una distribucin hipergeomtrica,por lo cual se calcularn los valores esperados con el razonamiento de esta distribucin.Se llamara x a la variable aleatoria de inters que en este caso sern las bolasrojas. Por lo tanto x puede tomar valores desde 0 hasta 2.

La frmula de la distribucin hipergeomtrica es:a C x .( N

a) C ( n x )

Se tiene:

N =9

N Cn

a = 6 Rojas

N-a = 3 Blancas

n = 2

x

n-x

Probabilidad de extraer 0 rojas y 2 blancas:

P( x 0)

(6 C0 )( 3 C2 )9 C 2

3

36

Probabilidad de extraer 1 roja y 1 blanca:

P( x 1)

(6 C1 )( 3 C1 ) 189 C2 36Probabilidad de extraer 2 rojas y 0 blancas:

P( x 2)

(6 C2 )( 3 C 0 ) 159 C2 36Con las probabilidades anteriores se obtendrn los valores esperados multiplicando por 120.

0

1

2

Bolas blancas210

Nmero de extracciones65361

Frecuencias esperadas106050

Grados de libertad: k-1-m = 3-1-0 = 2

HoH1

Regin de rechazo

Regin de aceptacinX2

Regla de decisin:

RSi X2

5.991 no se rechaza Ho .

RSi X2

>5.991 se rechaza Ho .

Clculos:K 2 2 2 2 o j e j X 2j 1 e j

6 10 10

53 60 60

61 50 50

4.83

Justificacin y decisin:Como el 4.83 no es mayor a 5.991, no se rechaza H0 y se concluye con un= 0.05 que los resultados son los mismos que los esperados.

PRUEBA CHI-CUADRADA PARA LA BONDAD DEL AJUSTE

A lo largo de este curso nos ocupamos de la prueba de hiptesis estadsticas acerca de parmetros de una poblacin como y P. Ahora se considera unaprueba para determinar si una poblacin tiene una distribucin terica especfica. La prueba se basa en qu tan buen ajuste se tiene entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribucin hipottica.

La formula que se utilizar para calcular el valor de chi-cuadrada es igual a la de la seccin anterior, con el mismo concepto de grados de libertad.

Ejemplo:1. Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y seobserv el nmero de caras de cada serie. El nmero de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.

Nmero de carasNmero de series(frecuencia observada)

038

1144

2342

3287

4164

525

Total1000

Ajustar una distribucin binomial a los datos con un = 0.05.

Solucin:H0; Los datos se ajustan a una distribucin binomial.H1; Los datos no se ajustan a una distribucin binomial.

Para obtener los valores esperados se tiene que utilizar la formula de la

distribucin binomial:

n Cx p

x q ( n

x ), donde n en este ejercicio vale 5, p y q sonlas probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. Para calcular el valor de p, se sabe que =np en una distribucin binomial, por lo que = 5p.Para la distribucin de frecuencias observada, la media del nmero de caras es: fxmf

38 0 144 1 342 2 287 3 164 4 25 5 1000

24701000

2.47Por lo tanto p m5

2.475

0.494 . As pues, la distribucin binomial ajustada

viene dada por p(x) =

5 C x

0.494 x

0.506 (5 x ) .Al seguir esta frmula se calcula la probabilidad de obtener caras, segn el valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dar el valor esperado. Se resumen los resultados en la tabla siguiente:

Nmero de caras(x)P(x caras)FrecuenciaesperadaFrecuenciaobservada

00.033233.238

10.1619161.9144

20.3162316.2342

30.3087308.7287

40.1507150.7164

50.029429.425

Para los grados de libertad el valor de m ser uno, ya que se tuvo que estimar la media de la poblacin para poder obtener el valor de p y as poder calcular los valores esperados.

Grados de libertad: k-1-m = 6-1-1 = 4

HoH1

Regin de rechazo

Regin de aceptacinX2

Regla de decisin:

RSi X2

9.49 no se rechaza Ho .

RSi X2

>9.49 se rechaza Ho .

K o e 2 38 33.2 2 144 161.9 2342 316.2 2287 308.7 2 164 150.7 2 25 29.4 2j 1e j33.2161.9316.2308.7 150.7 29.4Clculos:

X2 j j

7.54

Justificacin y decisin:Como el 7.54 no es mayor a 9.49, no se rechaza H0 y se concluye con un= 0.05 que el ajuste de los datos a una distribucin binomial es bueno.

2. Se propone que el nmero de defectos en las tarjetas de circuito impreso sigue una distribucin Poisson. Se rene una muestra aleatoria de 60 tarjetas

Nmero de defectosFrecuencia observada032115293 ms4de circuito impreso y se observa el nmero de defectos. Los resultados obtenidos son los siguientes:

Muestran estos datos suficiente evidencia para decir que provienen de una distribucin Poisson?. Haga la prueba de la bondad del ajuste con un = 0.05.

Solucin:H0; La forma de la distribucin de los defectos es Poisson.H1; La forma de la distribucin de los defectos no es Poisson.

La media de la distribucin Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra.

m l 32 0 15 1 9 2 4 3 60

0.75A partir de la distribucin Poisson con parmetro 0.75, pueden calcularse las probabilidades asociadas con el valor de x. Esto es la frmula de la Poisson es:

l x 0.75 x

P( x)

e l x!

e 0.75 x!Con esta frmula se calculan las probabilidades, mismas que se multiplican por 60 para obtener los valores esperados.

Nmero de defectosProbabilidadFrecuencia esperadaFrecuencia observada

00.47228.3232

10.35421.2415

20.1337.989

3 ms0.0412.464

Puesto que la frecuencia esperada en la ltima celda es menor que 5, se combinan las dos ltimas celdas.Nmero dedefectosFrecuenciaesperadaFrecuenciaobservada

028.3232

121.2415

2 ms10.4413

Los grados de libertad seran 3-1-1=1, debido a que la media de la distribucinPoisson fue estimada a partir de los datos.

HoH1

Regin de rechazo

Regin de aceptacinX2

Regla de decisin:

RSi X2

3.84 no se rechaza Ho .

RSi X2

>3.84 se rechaza Ho .

Clculos:

X 2

j j K o e 2j 1 e j

32 28.32 228.32

15 21.24 221.24

13 10.44 210.44

2.94

Justificacin y decisin:Como el 2.94 no es mayor a 3.84, no se rechaza H0 y se concluye con un= 0.05 que la distribucin de defectos en las tarjetas de circuito impreso esPoisson.

3. Pruebe la hiptesis de que la distribucin de frecuencia de las duraciones de bateras dadas en la siguiente tabla, se puede aproximar mediante una distribucin normal con media = 3.5 y desviacin estndar =0.7. Utilice un= 0.05.

Lmites de claseFrecuencias observadas

1.45 1.952

1.95 2.451

2.45 2.954

2.95 3.4515

3.45 3.9510

3.95 4.455

4.45 4.953

Solucin:Se procede a elaborar el histograma, para visualizar los datos:

Histograma

1614

Frecuencia1086

201

Lmites de clase

1.45 1.951.95 2.452.45 2.952.95 3.453.45 3.953.95 4.454.45 4.95

Como se puede observar el histograma tiene una forma que aparenta ser normal, se probar esta hiptesis.

H0; Los datos provienen de una distribucin normal.H1; Los datos no provienen de una distribucin normal.

En este ejercicio en particular se cuenta con la media y desviacin estndar de la poblacin, por lo que no se tiene que estimar. En caso de que no se tuviera, se estimaran a partir de los datos agrupados con las frmulas que se vieron en la Unidad III del curso de probabilidad y estadstica, tomando en cuenta que para los grados de libertad el valor de m sera 2, ya que se estimara la media y la desviacin estndar.Se proceder a calcular los valores de z para encontrar las probabilidades en la

tabla. Recordando que z

x m , se sustituye el valor de x por los lmites desclase comenzando con el lmite de 1.95

Lmite realx 3.5z0.7P(x)

1.95-2.21P(x 1.95) = 0.01355

2.45-1.50P(x 2.45) = 0.06680

2.95-0.79P(x 2.95) = 0.21476

3.45-0.07P(x 3.45) = 0.47210

3.950.64P(x 3.95) = 0.26109

4.451.36P(x 4.45) = 0.08691

La razn por la cual se comienza con el lmite de 1.95 y se termina con el lmite de 4.45, es porque la suma de todas las probabilidades debe ser 1, bajo la curva normal.A continuacin se muestra la curva normal con sus respectivas probabilidades, segn los limites reales. Las probabilidades que no semuestran en la tabla anterior y estn en la curva se calcularon por diferencias.

0.26681

0.0279

0.23891

0.05325

0.01355

0.14795

0.25734

0.17417

0.08691

x 1.95 2.45 2.95 3.45 3.95 4.45Z -2.21 -1.50 -0.79 -0.07 0.64 1.36

m = 3.5

P(1.95P(2.45x x2.45) = 0.0668-0.013553 = 0.0532542.95) = 0.21476-0.0668 = 0.147953

P(2.95x3.45) = 0.4721-0.21476 = 0.25734

P(3.45P(3.50xx3.50) = 0.50-0.4721 = 0.02793.95) = 0.50-0.26109= 0.23891

P(3.95x4.45) = 0.26109-0.086915 = 0.17417

Con estas probabilidades se calcularn los valores esperados, multiplicando cada probabilidad por 40.

8.5905

Lmites de claseFrecuencias observadasProbabilidadFrecuencia esperada1.45 1.9520.013550.542121.95 2.457 10.053252.130162.45 2.9540.147955.918122.95 3.45150.2573410.293603.45 3.95100.2668110.672403.95 4.458 50.174176.966804.45 4.9530.086913.4766010.4434

Grados de libertad: k-1-m = 4-1-0 = 3

HoH1

Regin de rechazo

Regin de aceptacinX2

Regla de decisin:

RSi X2

7.815 no se rechaza Ho .

RSi X2

>7.815 se rechaza Ho .

Clculos:K o e 2

7 8.5904 2

15 10.2936 2

10 10.6724 2

8 10.4434 2X 2 j j

3.06j 1 e j

8.5904

10.2936

10.6724

10.4434

Justificacin y decisin:Como el 3.06 no es mayor de 7.815, no se rechaza H0 y se concluye con un= 0.05 que el ajuste de los datos a una distribucin normal es bueno.

TABLAS DE CONTINGENCIA

En muchas ocasiones, los n elementos de una muestra tomada de una poblacin pueden clasificarse con dos criterios diferentes. Por tanto, es interesante saber si los dos mtodos de clasificacin son estadsticamente independientes. Supngase que el primer mtodo de clasificacin tiene r niveles, y que el segundo tiene c niveles. O sea Oij la frecuencia observada para el nivel i del primer mtodo de clasificacin y el nivel j del segndo mtodo de clasificacin. En general, los datos aparecern como se muestra en la siguiente tabla. Una tabla de este tipo usualmente se conoce como tabla de contingencia r x c.

Columnas

Renglones12. . .c

1O11O12. . .O1c

2O21O22. . .O2c

...............

rOr1Or2. . .Orc

El inters recae en probar la hiptesis de que los dos mtodos de clasificacin rengln-columna son independientes. Si se rechaza esta hiptesis, entonces se concluye que existe alguna interaccin entre los dos criterios de clasificacin. Los procedimientos de prueba exactos son difciles de obtener, pero puede obtenerse un estadstico de prueba aproximado vlido para n grande.

Sea pij la probabilidad de que un elemento seleccionado al azar caiga el laij-sima celda, dado que las dos clasificaciones son independientes. Entonces,pij=uivj, donde ui es la probabilidad de que un elemento seleccionado al azar pertenezca al rengln de la clase i, y vj es la probabilidad de que un elemento seleccionado pertenezca a la columna de la clase j. Ahora bien, si se supone independencia, los estimadores de ui y vj son:

ui

1 cn j 11 r

Oijv j Oijn i 1Por lo tanto, la frecuencia esperada de la celda es:

Eij

nui v j

1 cn j 1

rOiji 1

OijEntonces, para n grande, el estadsticor c O E 2X 2i 1 j 1

ij ij Eijtiene una distribucin aproximada ji-cuadrada con (r-1)(c-1) grados de libertad si la hiptesis nula es verdadera. Por consiguiente, la hiptesis de independencia debe rechazarse si el valor del estadstico de prueba X2 calculado es mayor que X2 crtico o de tabla.

Ejemplos:1. Una asociacin de profesores universitarios quiere determinar si lasatisfaccin en el trabajo es independiente del rango acadmico. Para ello realiz un estudio nacional entre los acadmicos universitarios y encontr los resultados mostrados son la tabla siguiente. Con =0.05, haga una prueba para saber si son dependientes la satisfaccin en el trabajo y el rango.

InstructorProfes orasistenteProfesor asociadoProfesorMucha Regular Poca407857608763528266638864Rango

Satisfaccin en el trabajo

Solucin:Ho; La satisfaccin en el trabajo y el rango son independientes. H1; La satisfaccin en el trabajo y el rango son dependientes.

Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6

HoH1

Regin de rechazo

Regin de aceptacinX2

Regla de decisin:

RSi X2

12.592 no se rechaza Ho .

RSi X2

> 12.592 se rechaza Ho .

Se proceder a calcular los valores esperados de cada celda. Como los grados de libertad son 6, esto quiere decir que necesitamos calcular nicamente 6 frecuencias esperadas, y las faltantes se encuentran por diferencia.Se calcularn los valores esperados E11, E12, E13, E21, E22 y E23.Como se necesitan los totales de rengln y columna se mostrarn en la tabla:

InstructorProfe sorasistenteProfesor asociadoProfesorTotalMucha Regular Poca407857608763528266638864215335250Total175210200215800Rango

Satisfaccin en el trabajo

Eij

nui v j

1 cn j 1

Oij

rOiji 1

E11

215 175 800

47.03

E12

215 210 800

56.44

E13

215 200 800

53.75

E21

335 175 800

73.28

E22

335 210 800

87.94

E23

335 200 800

83.75

RangoSatisfaccinInstructorProfesorasistenteProfesor asociadoProfesorTotal

Mucha

Regular

Poca40 (47.03)78(73.28)57 (54.69)60 (56.44)87(87.94)63 (65.62)52 (53.75)82(83.75)66 (62.50)63 (57.78)88(90.03)64 (67.19)215

335

250

Total175210200215800

Los valores entre parntesis son los esperados, los que no se calcularon por frmula se obtuvieron por diferencia con respecto a los totales.

r cX 2i 1 j 1

2

O Eij ij Eij

40 47.03 247 .03

60 56 .44 256 .44

52 53.75 253.75

...

64 67.19 267.19

2.75

Decisin y justificacin:Como el valor de 2.75 es menor que el de tabla 12.592, por lo tanto no se rechaza Ho y se concluye con un =0.05 que la satisfaccin en el trabajo y elrango son independientes.

2. En un estudio de un taller, se rene un conjunto de datos para determinar si la proporcin de defectuosos producida por los trabajadores es la misma para el turno matutino, vespertino o nocturno. Se reunieron los siguientes datos:TurnoMatutinoVespertinoNocturno

Defectuoso s455570

No defectuosos905890870

Utilice un nivel de significancia de 0.025 para determinar si la proporcin de defectuosos es la misma para los tres turnos.

Solucin:Ho; La proporcin de artculos defectuosos es la misma para los tres turnos.H1; La proporcin de artculos defectuosos no es la misma para los tres turnos.

Grados de libertad: (r-1)(c-1) = (2-1)(3-1)=(1)(2) = 2

HoH1

Regin de rechazo

Regin de aceptacinX2

Regla de decisin:

RSi X2

RSi X2

7.378 no se rechaza Ho .> 7.378 se rechaza Ho.

Se proceder a calcular los valores esperados de cada celda. Como los grados de libertad son 2, esto quiere decir que necesitamos calcular nicamente 2 frecuencias esperadas, y las faltantes se encuentran por diferencia.Se calcularn los valores esperados E11, y E22.Como se necesitan los totales de rengln y columna se mostrarn en la tabla:

MatutinoVespertinoNocturnoTotal

Defectuosos455570170

No defectuosos9058908702665

Total9509459402835

Eij

nui v j

1 cn j 1

Oij

rOiji 1

E11

170 950 572835

E22

2665 945 2835

888.33

MatutinoVespertinoNocturnoTotal

Defectuosos45 (57.0)55 (56.7)70 (56.3)170

No defectuosos905 (893.0)890 (888.3)870 (883.7)2665

Total9509459402835

r cX 2i 1 j 1

2

O Eij ij Eij

45 57.0 257.0

55 56.7 256.7

70 56.3 256.3

...

870 883.7 2883 .7

6 .29Decisin:Si se busca este valor dentro de la tabla de ji-cuadrada con 2 grados de libertad nos dar un valor de P aproximado a 0.04. Si se observa el valor de la ji- cuadrada calculada de 6.29 con el valor de tabla de 7.378, se llega a la decisin de no rechazar Ho. Sin embargo sera riesgoso concluir que la proporcin de defectuosos producidos es la misma para todos los turnos por tener un valor de P de 0.04.

Tablas de Contingencia para probar HomogeneidadEl uso de la tabla de contingencia de dos clasificaciones para probar independencia entre dos variables de clasificacin en una muestra tomada deuna poblacin de inters, es slo una de las aplicaciones de los mtodos de tablas de contingencia. Otra situacin comn se presenta cuando existen r poblaciones de inters y cada una de ellas est dividida en las mismas c categoras. Luego se toma una muestra de la i-sima poblacin, y los conteos se introducen en las columnas apropiadas del i-simo rengln. En esta situacin se desea investigar si las proporciones son o no las mimas en las c categoras de todas las poblaciones. La hiptesis nula de este problema establece que las poblaciones son homogneas con respecto a las categoras (como el ejemplo pasado de los diferentes turnos), entonces la prueba de homogeneidad es en realidad una prueba sobre la igualdad de r parmetros binomiales. El clculo de las frecuencias esperadas, la determinacin de los grados de libertad y el clculo de la estadstica ji-cuadrada para la pruebe de homogeneidad son idnticos a los de la prueba de independencia.

ESTADISTICA NO PARAMETRICA

La mayor parte de los procedimientos de prueba de hiptesis que se presentan en las unidades anteriores se basan en la suposicin de que las muestras aleatorias se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de estas pruebas an son confiables cuando experimentamos ligeras desviaciones de la normalidad, en particular cuando el tamao de la muestra es grande. Tradicionalmente, estos procedimientos de prueba se denominan mtodos paramtricos. En esta seccin se consideran varios procedimientos de prueba alternativos, llamados no paramtricos mtodos de distribucin libre, que a menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales, excepto que stas son continuas.

Los procedimientos no paramtricos o de distribucin libre se usan con mayor frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y la ingeniera donde los datos se reportan no como valores de un continuo sino mas bien en una escala ordinal tal que es bastante natural asignar rangos a los datos.

Un ejemplo donde se aplica una prueba no paramtrica es el siguiente, dos jueces deben clasificar cinco marcas de cerveza de mucha demanda mediante la asignacin de un grado de 1 a la marca que se considera que tiene la mejor calidad global, un grado 2 a la segunda mejor, etctera. Se puede utilizar entonces una prueba no paramtrica para determinar donde existe algn acuerdo entre los dos jueces.

Se debe sealar que hay varias desventajas asociadas con las pruebas no paramtricas. En primer lugar, no utilizan la informacin que proporciona la muestra, y por ello una prueba no paramtrica ser menos eficiente que el procedimiento paramtrico correspondiente, cuando se pueden aplicar ambos mtodos. En consecuencia, para lograr la misma potencia, una prueba no paramtrica requerir la correspondiente prueba no paramtrica.

Como se indic antes, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas paramtricas estndar. Esto es cierto en particular para la prueba t y la prueba F . En el caso de la prueba t y la prueba F, el valor P citado puede ser ligeramente errneo si existe una violacin moderada de la suposicin de normalidad.

En resumen, si se puede aplicar una prueba paramtrica y una no paramtrica al mismo conjunto de datos, debemos aplicar la tcnica paramtrica ms eficiente. Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar, y que no siempre se tienen mediciones cuantitativas.

PRUEBA DEL SIGNO

La prueba del signo se utiliza para probar la hiptesis sobre la mediana m~ de una distribucin continua. La mediana de una distribucin es un valor de lavariable aleatoria X tal que la probabilidad de que un valor observado de X sea

menor o igual, o mayor o igual, que la mediana es 0.5. Esto es,

P X m~

P X m~

0.5 .

Puesto que la distribucin normal es simtrica, la media de una distribucin normal es igual a la mediana. Por consiguiente, la prueba del signo puede emplearse para probar hiptesis sobre la media de una poblacin normal.

Suponga que las hiptesis son:

mH 0 ; m~ ~o

mH1 ; m~ ~oSupngase que X1, X2, . . . , Xn es una muestra aleatoria tomada de la poblacin de inters. Frmense las diferenciasX iAhora bien si la hiptesis nula

m~ , i

oH 0 ; m~

1,2,...n

om~ es verdadera, cualquier diferencia

oiX m~ tiene la misma probabilidad de ser negativa o positiva. Un estadstico deprueba apropiado es el nmero de estas diferencias que son positivas, por ejemplo R+. Por consiguiente, la prueba de la hiptesis nula es en realidad una prueba de que el nmero de signos positivos es un valor de una variable aleatoria binomial con parmetro P = . Puede calcularse un valor P para el nmero observado de signos positivos r+ directamente de la distribucin binomial. Al probar la hiptesis que se muestra al principio, se rechaza H0 en favor de H1 slo si la proporcin de signos positivos es suficientemente menor que ( o de manera equivalente, cada vez que el nmero observado de signos positivos r+ es muy pequeo). Por tanto, si el valor P calculadoP = P(R+ r+ cuando p = 1/2)es menor o igual que algn nivel de significancia seleccionado previamente, entonces se rechaza H0 y se concluye que H1 es verdadera.

Para probar la otra hiptesis unilateral

mH 0 ; m~ ~o

mH1 ; m~ ~ose rechaza H0 en favor de H1 slo si el nmero observado de signos ms, r+, es grande o, de manera equivalente, cada vez que la fraccin observada de signos positivos es significativamente mayor que . En consecuencia, si el valor P calculado P = P(R+ r+ cuando p = 1/2) es menor que , entonces H0 se rechazay se concluye que H1 es verdadera.

Tambin puede probarse la alternativa bilateral. Si las hiptesis son:

mH 0 ; m~ ~o

mH1 ; m~ ~ose rechaza H0 si la proporcin de signos positivos difiere de manera significativa de (ya se por encima o por debajo). Esto es equivalente a que el nmero observado de signos r+ sea suficientemente grande o suficientemente pequeo. Por tanto, si r+ >n/2 el valor P es

P=2P(R+ r+ cuando p = )

Y si r+ >n/2 el valor P es

P=2P(R+ r+ cuando p = )Si el valor P es menor que algn nivel preseleccionado , entonces se rechazaH0 y se concluye que H1 es verdadera.

Ejemplos:1. Un artculo informa cerca de un estudio en el que se modela el motor de un cohete reuniendo el combustible y la mezcla de encendido dentro de un contenedor metlico. Una caracterstica importante es la resistencia al esfuerzo cortante de la unin entre los dos tipos de sustancias. En la siguiente tabla se muestran los resultados obtenidos al probar 20 motores seleccionados al azar. Se desea probar la hiptesis de que la mediana de la resistencia al esfuerzo cortante es 2000 psi, utilizando = 0.05.

Solucin:Se mostrar la tabla del ejercicio y es funcin del investigador poner los signos con respecto a la mediana.

H 0 ; mH1 ; m

2000 psi2000 psi

ObservacinResistencia al esfuerzo cortantexiSigno de la diferencia xi-2000

ObservacinResistencia al esfuerzo cortantexiSigno de la diferencia xi-2000

12158.70+112165.20+

21678.15-122399.55+

32316.00+131779.80-

42061.30+142336.75+

52207.50+151765.30-

61708.30-162053.50+

71784.70-172414.40+

82575.10+182200.50+

92357.90+192654.20+

102256.70+201753.70-

De la tabla se puede observar que el estadstico de prueba r+ = 14. Regla de decisin:Si el valor de P correspondiente a r+=14 es menor o igual que =0.05 se rechaza H0.

Clculos:Puesto que r+=14 es mayor que n/2=20/2=10, el valor de P se calcula deP=2P(R+ 14 cuando p = )La P se calcula con la frmula de la distribucin binomial:

20

Conclusin:

P 2r 14

20 Cr

0.5 r

0.5 20 r

0.1153Como P=0.1153 no es menor que =0.05, no es posible rechazar la hiptesisnula de que la mediana de la resistencia al esfuerzo constante es 2000 psi.

Otra manera de resolver el problema es con Aproximacin normal:Cuando p=0.5, la distribucin binomial esta bien aproximada por la distribucin normal cuando n es al menos 10. Por tanto, dado que la media de la distribucin binomial es np y la varianza es npq, la distribucin de R+ es aproximadamente normal con media 0.5n y varianza 0.25n, cada vez que n es moderadamente grande. Por consiguiente las hiptesis pueden probarse con el estadstico:Z r 0.5n0.5 nLas reglas de decisin se establecern como cualquier ensayo en una distribucin muestral en donde se utiliza la distribucin normal.

Para resolver el problema anterior:H 0 ; mH1 ; m

2000 psi2000 psi

Como la es mayor que 10 se utilizar la aproximacin normal.

Ho

H1H1

Regin de rechazo

Regin deRechazo

/2 = 0.025

/2 = 0.025

Regin de aceptacin

Regla de Decisin:

ZL= -1.96 = 2000

ZL= 1.96Si 1.96 ZR 1.96 No se rechaza HoSi ZR < -1.96 si ZR > 1.96 Se rechaza Ho

Clculos:Z r 0.5n

14 0.5 20

1.789

Decisin y Conclusin:

0.5 n

0.5 20Como 1.789 esta entre 1.96 y 1.96, no se rechaza H0 y se concluye con un=0.05 que la mediana es de 2000 psi.

Prueba del Signo para Muestras PareadasTambin se puede utilizar la prueba de signo para probar la hiptesis nula

mmd~ ~1 2 0

para observaciones pareadas. Aqu se reemplaza cada diferencia,di, con un signo ms o menos dependiendo si la diferencia ajustada, di-d0, es positiva o negativa. A lo largo de esta seccin suponemos que las poblaciones son simtricas. Sin embargo, aun si las poblaciones son asimtricas se puede llevar a cabo el mismo procedimiento de prueba, pero las hiptesis se refieren a las medianas poblacionales en lugar de las medias.

Ejemplo:1. Una compaa de taxis trata de decidir si el uso de llantas radiales en lugarde llantas regulares con cinturn mejora la economa de combustible. Se equipan 16 automviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores, se equipan los mismos autos con llantas regulares con cinturn y se manejan una vez ms por el recorrido de prueba. Se registra el consumo de gasolina, en kilmetros por litro, de la siguiente manera:AutomvilLlantas radialesLlantas con cinturn

14.24.1

24.74.9

36.66.2

47.06.9

56.76.8

64.54.4

75.75.7

86.05.8

97.46.9

104.94.9

116.16.0

125.24.9

135.75.3

146.96.5

156.87.1

164.94.8

Se puede concluir en el nivel de significancia de 0.05 que los autos equipados con llantas radiales obtienen mejores economas de combustible que los equipados con llantas regulares con cinturn?

Solucin:

0RH ; m~

m~C 0

1RH ; m~

m~C 0

H1Ho Regin derechazo

= 0.05

Regin de aceptacin

ZL = 1.645

Regla de decisin:Si zR 1.645 no se rechaza Ho.Si zR> 1.645 se rechaza Ho.

Se procede ha realizar las diferencias entre de los kilmetros por litro entre llantas radiales y con cinturn:AutomvilLlantas radialesLlantas con cinturnd

14.24.1+

24.74.9-

36.66.2+

47.06.9+

56.76.8-

64.54.4+

75.75.70

86.05.8+

97.46.9+

104.94.90

116.16.0+

125.24.9+

135.75.3+

146.96.5+

156.87.1-

164.94.8+

Al observar las diferencias se ve que slo existe una n=14, ya que se descartan los valores de cero. Se tiene r+ = 11Z r 0.5n

11 0.5 14

2.14

Decisin y conclusin:

0.5 n

0.5 14Como 2.14 es mayor a 1.645 se rechaza H0 y se concluye con un = 0.05 quelas llantas radiales mejoran la economa de combustible.

PRUEBA DE RANGO CON SIGNO DE WILCOXONSe puede notar que la prueba de signo utiliza slo los signos ms y menos de las diferencias entre las observaciones y 0 en el caso de una muestra, o los signos ms y menos de las diferencias entro los pares de observaciones en el caso de la muestra pareada, pero no toma en consideracin la magnitud de estas diferencias. Una prueba que utiliza direccin y magnitud, propuesta en1945 por Frank Wilcoxon, se llama ahora comnmente prueba de rango con signo de Wilcoxon. Esta prueba se aplica en el caso de una distribucin continua simtrica. Bajo esta condicin se puede probar la hiptesis nula 0. Primero se resta de cada valor muestral y se descarta todas las diferencias iguales a cero. Se asigna un rango de 1 a la diferencia absoluta ms pequea, un rango de 2 a la siguiente ms pequea, y as sucesivamente. Cuando el valor absoluto de dos o ms diferencias es el mismo, se asigna a cada uno el promedio de los rangos que se asignaran si las diferencias se distinguieran. Por ejemplo, si la quinta y sexta diferencia son iguales en valor absoluto, a cada una se le asignara un rango de 5.5. Si la hiptesis 0 es verdadera, el total de los rangos que corresponden a las diferencias positivas debe ser casi igual al total de los rangos que corresponden a las diferencias negativas. Se representan esos totales como w+ y w- , respectivamente. Se designa el menor de w+ y w- con w.

Al seleccionar muestras repetidas esperaramos que variaran w+ y w-, y por tanto w. De esta manera se puede considerar a w+ y w-, y w como valores de las correspondiente variables aleatorias W+, W-, y W. La hiptesis nula 0 se puede rechazar a favor de la alternativa 0 slo si w+ es pequea y w- es grande. Del mismo modo, la alternativa 0 se puede aceptar slo si w+ es grande y w- es pequea. Para una alternativa bilateral se puede rechazar H0 afavor de H1 si w+ o w- y por tanto w son suficientemente pequeas. No importacul hiptesis alternativa puede ser, rechazar la hiptesis nula cuando el valorde la estadstica apropiada W+, W-, o W es suficientemente pequeo.

Dos Muestras con Observaciones Pareadas

Para probar la hiptesis nula de que se muestrean dos poblaciones simtricas continuas con para el caso de una muestra pareada, se clasifican las diferencias de las observaciones paradas sin importar el signo y se procede como en el caso de una muestra. Los diversos procedimientos de prueba para los casos de una sola muestra y de una muestra pareada se resumen en la siguiente tabla:

Para probar H0 Contra H1 Calcular w+ w- w

w+ w- w

No es difcil mostrar que siempre que n 15.086, X2 = 4.47 por lo tanto no rechazar H0, el dado est balanceado.2. Regin crtica X2 > 7.815, X2 = 10.14, rechazar H0 . Las nueces no estnmezcladas en la proporcin 5:2:2:1.3. Regin crtica X2 > 5.991, X2 = 1.67, no rechazar H0. Los datos se ajustan a una distribucin hipergeomtrica.4. Regin crtica X2 > 11.07, X2 = 2.57, no rechazar H0. Los datos se ajustan a una distribucin geomtrica.5. Regin crtica X2 > 12.592, X2 = 12.78, rechazar H0 . Los datos no se ajustan a una distribucin normal.6. Regin crtica X2 > 5.991, X2 = 14.6, rechazar H0. La presencia oausencia de hipertensin y hbitos de fumar no son independientes.7. Regin crtica X2 > 9.488, X2 = 7.54, no rechazar H0. El tamao de la familia es independiente del nivel se educacin del padre.8. Regin crtica 1.96 z 1.96, z= 2.67, rechazar H0 .9. Regin crtica w- 11 para una n=10, w- = 12.5, no rechazar H0.10. Regin crtica w+ 1 para n = 5, w+ = 3.5, no rechazar H0.11. Regin crtica z>2.575. z= 2.80, rechazar H0, la farmacia A surte ms recetas que la farmacia B.12. Regin crtica w+ 11 para una n = 10. w+ = 17.5, no rechazar H0.

13. 2P(R+ 8 / p = 0.5) = 0.109 , como no es menor a 0.05, no se rechaza H0.

14. H0; m~

2.5

H1; m~

2.5 P(R+ 2/ p = 0.5) = 0.0002, se rechaza H0.Bibliografa

Devore, J.L. (2000). Probabilidad y Estadstica para Ingeniera y Ciencias, Quinta Edicin, Thomson Learning.

Mendenhall, W. (1998). Estadstica para Administradores, Segunda Edicin, Grupo Editorial Iberoamrica.

Montgomery, D.C. y Runger G.C. (1996). Probabilidad y Estadstica Aplicadas a la Ingeniera , Primera Edicin, Mc Graw Hill.

Sheaffer, R. L. y McClave, J.T. (1990). Probabilidad y Estadstica paraIngeniera , Primera Edicin, Grupo Editorial Iberoamrica.

Spiegel, M.R. (1970). Estadstica, Primera Edicin, Serie Schaum, Mc Graw Hill.

Walpole, R. E., Myers, R.H., y Myers, S.L. (1998). Probabilidad y Estadstica para Ingenieros, Sexta Edicin, Prentice Hall.

Weimer, R.C. (1996). Estadstica, Segunda Edicin, CECSA.