1. chi cuadrada - campus.i.edu.mx leccion 2/2. ji... · la regla de decisión (rd) establece que ho...

15
1 INTRODUCCION El término estadística no paramétrica se refiere a un conjunto de método, inferenciales válidos para formas muy diversas de distribución de la población La aplicación de estos métodos no requiere modelo de población, en el sentido de un parámetro específico relacionado con la forma de la curva que representa a la población en estudio, como sí es necesario, por ejemplo, en el caso de la distribución normal. En el contraste de hipótesis, las pruebas estadísticas no paramétricas usualmente emplean algunos datos más simples de la muestra, como los signos de las mediciones, las relaciones de orden o las categorías de las frecuencias. Estos rasgos generales no requieren escalas de medición numéricas significativas. Por otra parte, aún más importante es que a estos métodos no los afecta el alargamiento o estrechamiento de la escala. Una aclaración tina, indispensable es que los términos distribución libre y estadística no paramétrica no son sinónimos, aunque en este texto se usarán indistintamente. A estos procedimientos se les llama de distribución libre, por no considerar la forma como se distribuye la población. Tienen ventajas sobre las pruebas paramétricas, algunas de ellas son: 1) implican menos requisitos de uso, 2) son más sencillas de entender y de aplicar, y 3) los procedimientos de cálculo resultan menos laboriosos. Por otra parte, los métodos no paramétricos tienen ciertas desventajas: a) se pierde información, b) la potencia de estas pruebas es menor que la de las pruebas paramétricas, y c) tienden a ser "conservadoras»; es decir, orientan hacia la aceptación de la hipótesis nula con más frecuencia de lo que deberían. En estas circunstancias, las pruebas estadísticas paramétricas son preferibles a las no paramétricas, pero si la población no está normalmente distribuida o las varianzas poblacionales no son homogéneas o iguales, entonces puede utilizarse una prueba de distribución libre o no paramétrica como un buen sustituto de su análoga paramétrica, sobre todo cuando la muestra en estudio es pequeña.

Upload: others

Post on 16-Sep-2019

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

1

INTRODUCCION

El término estadística no paramétrica se refiere a un conjunto de método,

inferenciales válidos para formas muy diversas de distribución de la población La

aplicación de estos métodos no requiere modelo de población, en el sentido de un

parámetro específico relacionado con la forma de la curva que representa a la población en

estudio, como sí es necesario, por ejemplo, en el caso de la distribución normal. En el

contraste de hipótesis, las pruebas estadísticas no paramétricas usualmente emplean algunos

datos más simples de la muestra, como los signos de las mediciones, las relaciones de orden

o las categorías de las frecuencias. Estos rasgos generales no requieren escalas de medición

numéricas significativas. Por otra parte, aún más importante es que a estos métodos no los

afecta el alargamiento o estrechamiento de la escala. Una aclaración tina, indispensable es

que los términos distribución libre y estadística no paramétrica no son sinónimos, aunque

en este texto se usarán indistintamente.

A estos procedimientos se les llama de distribución libre, por no considerar la forma

como se distribuye la población. Tienen ventajas sobre las pruebas paramétricas, algunas de

ellas son: 1) implican menos requisitos de uso, 2) son más sencillas de entender y de

aplicar, y 3) los procedimientos de cálculo resultan menos laboriosos. Por otra parte, los

métodos no paramétricos tienen ciertas desventajas: a) se pierde información, b) la potencia

de estas pruebas es menor que la de las pruebas paramétricas, y c) tienden a ser

"conservadoras»; es decir, orientan hacia la aceptación de la hipótesis nula con más

frecuencia de lo que deberían.

En estas circunstancias, las pruebas estadísticas paramétricas son preferibles a las no

paramétricas, pero si la población no está normalmente distribuida o las varianzas

poblacionales no son homogéneas o iguales, entonces puede utilizarse una prueba de

distribución libre o no paramétrica como un buen sustituto de su análoga paramétrica, sobre

todo cuando la muestra en estudio es pequeña.

Page 2: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

2

Se discutirán métodos que únicamente requieren mediciones nomínales, comparando

distribuciones enteras. También se considerarán las técnicas que requieren datos ordinales.

Cuando los datos son categóricos se hará un análisis estadístico, utilizando el modelo de la

X2 (ji cuadrada), que si bien algunos autores la consideran no paramétrica, se ha creído

oportuno que forme parte de este capítulo en sus aplicaciones más relevantes, como:

a) Independencia

b) Homogeneidad o proporción

c) Mediana.

Para la prueba de bondad de ajuste se emplearán dos técnicas:

1) La X2 (ji cuadrada) y

2) La Kolmogorov-Smirnov.

Para el análisis de varianza se utilizarán dos modelos:

a) La prueba de Kruskal-Wallis, para muestras independientes.

b) La prueba de Friedman, para una sola muestra medida más de dos ocasiones, por último

se encuentran los coeficientes de asociación, también llamados de correlación.

PRUEBA DE BODAD DE AJUSTE

En esta sección se describirán dos modelos para establecer si una variable, aleatoria

determinada se ajusta a una distribución de probabilidad específica, es decir, para saber si la

muestra obtenida en forma aleatoria se distribuye como normal, binomial, Poisson u otra.

Dichas pruebas son las siguientes:

1) X2 (jí cuadrada). Esta prueba es clásica y se emplea tanto para variables continuas

como discretas.

2) K-S (Kolmogorov-Smirnov, para una muestra. Esta prueba se considera como no

paramétrica; se utiliza cuando la muestra es pequeña y la variable de interés

continua.

Page 3: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

3

(X2) (jí cuadrada)

Este modelo, obtenido por K. Pearson en 1900, mide la discrepancia entre la frecuencia

observada y la esperada teóricamente, con base en una distribución hipotética.

La prueba de bondad de ajuste ayuda a decidir si los resultados de un experimento

concuerdan con los esperados de acuerdo con alguna ley, modelo o teoría científica.

Esto se lleva a cabo de la siguiente manera:

1) Se obtienen las frecuencias observadas y se ubican en un cuadro de contingencias

(también llamada tabla de doble entrada)

2. Se construye un cuadro de frecuencias esperadas que concuerden con la distribución

teórica o el modelo científico.

3. Según el número de variables de criterio que se consideren, será el cuadro de

contingencia (l x c) o (r x 1): la prueba de bondad de ajuste se empleará para una muestra y

una o más variables de criterio.

Existe una familia de curvas X 2, derivadas de una variable normalmente distribuida, cuya

forma depende del tamaño de la muestra. Para muestras pequeñas (que tienen pocos grados

de libertad), esta distribución se halla fuertemente sesgada en dirección positiva (todos sus

valores son positivos y varían de cero a infinito). Cuando la muestra es grande (n→ ∞ ), la

X 2 se aproxima a la distribución normal.

El modelo que se utilizará en esta sección es el siguiente:

Donde: X 2

= Ʃ (fo-fe)2

fe

Page 4: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

4

fo = frecuencia observada

fe = frecuencia esperada.

Para cada clase o categoría se obtiene el cuadrado de la diferencia entre la frecuencia

observada y la esperada, y este resultado se divide por la misma frecuencia esperada de

dicha categoría. La suma total de cada categoría proporciona el valor de X 2.

A continuación se enumeran los requisitos de uso de la prueba de X 2para bondad de ajuste:

1. Se requiere un mínimo de 50 observaciones (mediciones) para que la distribución X2

sea una aproximación razonable de la distribución muestral esperada.

2. La frecuencia esperada para cada categoría debe ser por lo menos de 5; a fin de

cumplir este requisito, combinar las categorías.

3. En el caso de la bondad de ajuste para la distribución normal, deben conocerse µ y

σx o sus estimadas X y s, a fin de poder calcular las frecuencias esperadas.

Procedimiento

Paso 1. Identifique la variable de interés.

Paso 2. Establezca las hipótesis estadísticas.

Ho: las observaciones muestrales han sido extraídas de una distribución normal,

o bien

Ho: fo = fe o (fo - fe = 0). No existe diferencia entre la frecuencia esperada y la observada.

HI: fo # fe o (fo -fe o).

Page 5: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

5

Paso 3. Proponga el valor de a.

Paso 4. Determine el modelo estadístico que se utilizará. En este caso

Paso 5. Obtenga mediante la tabla de X2 (ji cuadrada) del Anexo el valor crítico de X 2 (σ,

gl) y ubique la región de rechazo en una gráfica.

Paso 6. Especifique la regla de decisión (RD) para rechazar Ho.

X 2 = Ʃ (fo-fe)

2

fe

Page 6: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

6

Paso 7. Calcule X2 , por medio de X2 = Ʃ (fo-fe)2

habiendo calculando previamente fe,

Fe= np

Donde

n= tamaño de la muestra

p= probabilidad de ocurrencia en cada categoría.

Paso 8. Obtenga las conclusiones considerando el rechazo de Ho o de H1. (La distribución

muestral se ajusta a la distribución normal o no se ajusta a ella)

Una variable de criterio. Cuando las categorías de la distribución de frecuencias se basan

en una sola variable, constituyen un análisis de frecuencias de una variable de criterio, no

obstante que existan varios resultados: lanzar una moneda (cara, cruz), tirar un dado (1, 2,

3, 4, 5 o 6).

Ejemplo Si se lanza una moneda al aire, únicamente caerá cara o cruz-, pero si se lanzan

1000 monedas, la única variable que se tomará en cuenta será la cara de la moneda que

aparecerá, pero se contarán cuántas caras y cruces caerán.

Después de determinar el muestreo, las 1 000 monedas se lanzan al aire y se registra la

frecuencia de caras y cruces en un cuadro de frecuencias observadas. A continuación, se

construye el cuadro de frecuencias esperadas, previstas por los resultados más simples de

probabilidad elemental. Para una muestra de 1 000 monedas, la hipótesis nula (H0 implica

que deben obtenerse 500 caras y 500 cruces. En este caso, la prueba de ji cuadrada ayudará

a decidir si la discrepancia entre los resultados observados y los esperados corresponde

simplemente a la fluctuación del muestreo o indica el sesgo de la población.

Page 7: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

7

Frecuencias observadas Frecuencias esperadas

Cara Cruz Total Cara Cruz Total

530 470 1000 500 500 1000

(a) (b) (a) (b)

Paso 1. Como la variable de criterio es la posición de la cara de la moneda al caer, entonces

se establece la hipótesis nula y la alternativa de la siguiente manera:

Ho: cara y cruz ocurren con igual frecuencia.

HI: cara y cruz no ocurren con igual frecuencia.

Paso 2. Como g1 = 1 y a = 0.01 = 1%, entonces:

X2 crítica = X2 (1, 0.01) = 6.64

donde fo1 es la frecuencia observada i, i = 1, 2…..n

y fe1 es la frecuencia esperada i, i = 1, 2, ..., n

Paso 3. Se define la población de estudio como: todas las monedas de cierto valor y con

características determinadas.

Page 8: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

8

Paso 4. La muestra n son 1 000 monedas seleccionadas al azar de la población anterior.

Paso 5. El modelo estadístico por aplicar es:

Paso 6. Al sustituir los datos concentrados en los cuadros anteriores y efectuar las

operaciones resulta:

Paso 7. Regla de decisión (RD): si X 2 ≥ X 2σ gl 2 , se rechaza Ho. Como 3.60 < 6..64,

entonces no se rechaza Ho.

Paso 8. Conclusión Los resultados no son significativos. En este estudio de las monedas no

se encontró indicación alguna de sesgo, debido a que no se predice respuesta (salida)

específica alguna; por ejemplo, las caras ocurrirán con mayor frecuencia. Por ello, el nivel

de significancia se establece relativamente bajo (0.01) por dos razones: 1) el tamaño de la

muestra es grande y se minimiza β (error tipo II) y 2) el error más grave sería decidir que

las monedas tienen un sesgo, cuando en realidad no es así.

X 2 = Ʃ (fo-fe)

2

fe

Page 9: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

9

La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que

el valor crítico de 6.64 (los procedimientos para determinar los valores críticos se

estudiarán después).

Pudo cometerse un error del tipo II; sin embargo, el interés en un posible sesgo de las

monedas disminuye en gran escala, si no es que desaparece por completo.

DOS VARIABLES DE CRITERIO. En algunos problemas de bondad de ajuste se

obtienen medidas de dos o más variables no controladas. Las frecuencias esperadas en cada

combinación de categorías se generan a partir de algunas distribuciones teóricas; para evitar

confusiones en este tipo de estudios es recomendable colocar los datos en una tabla de

contingencia de doble entrada.

Ejemplo: Aplicación de una prueba de bondad de ajuste para una sola muestra y dos

variables de criterio.

Un genetista efectúa la cruza de una muestra de chícharos con las siguientes variables de

criterio: color (verde o amarillo) y textura (liso o rugoso). Existen cuatro combinaciones

posibles como resultados de las cruzas: amarillo-liso (AL), amarillo-rugoso (AR), verde-

Page 10: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

10

liso (VL) y verde-rugoso (VR); de acuerdo con las leyes de Mendel, la combinación AL

deberá ocurrir nueve veces más, frecuentemente que la VR, mientras que las mezclas AR y

VL ocurrirán tres veces, con mayor frecuencia que la VR. Esta distribución teórica se

utiliza para construir una tabla de frecuencias esperadas de (2 x 2).

Debido a que en nuestro ejemplo la muestra consta de 960 elementos (chicharos), el

investigador podrá esperar que las combinaciones posibles ocurrirán, aproximadamente con

las siguientes frecuencias:

VR= 60

VL= 180

AR= 180

AL = 540

Las frecuencias observadas son las siguientes: VR 50

VL= 200

AR = 160

AL = 550

Por tanto, las frecuencias observadas y esperadas se mostrarán en las siguientes tablas de

contingencia:

Page 11: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

11

Los grados de libertad para estas tablas de contingencia son:

g1 = (r - 1) (c - 1)

donde: r = número de renglones.

e = número de columnas.

o sea gl = (2 - 1) (2 - 1) = 1

Aplicando el modelo:

Se tiene:

También puede utilizarse la formula siguiente:

X 2 = Ʃ (fo-fe)

2

fe

Page 12: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

12

Supóngase que el genetista decide tomar un nivel de confianza de 10%, o sea, a = (0.10), y

el valor crítico de X 2, determinado en la tabla X 2, es de 2.706. En ese caso la hipótesis nula

de la distribución observada, al igual que la distribución esperada por la ley de Mendel, se

rechazaría, ya que la X 2 = 6.30 es mayor 2 que el valor crítico de x 0 = 2.706. Sin embargo,

considérese que las probabilidades de cometer un error del tipo I son de 1 en 10, por el

nivel de confianza a = 0.10. Las conclusiones se dejan al lector.

Ejemplo 1 Se realiza una investigación con el fin de producir un nuevo tipo de insulina, la

hormona que se utiliza para controlar enfermos de diabetes mellitus.

Los siguientes criterios de inclusión se consideran en la muestra de estudio:

• n = 400 pacientes del mismo sexo.

• Mismo grado de evolución de la enfermedad.

• Dieta controlada.

• Supervisión médica.

En este experimento se medirá la respuesta de los pacientes a la insulina convencional, así

como el porcentaje de ellos en cada una de las siguientes categorías estandarizadas:

Categoría 1. Decremento intenso en la glucosa.

Categoría 2. Decremento moderado en la glucosa.

Categoría 3. Decremento ligero en la glucosa.

Page 13: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

13

Categoría 4. Decremento nulo o ligero incremento en la glucosa.

Con base en un estudio de nivel nacional, se determinó que los porcentajes por

categoría son, respectivamente: 50%, 25%, 15% y 10%. Por otra parte, los resultados de las

pruebas clínicas con el nuevo tipo de insulina aplicadas en 400 pacientes son: 240, 120, 30

y 10.

Paso 1. La variable de interés es la respuesta a cada categoría.

Paso 2.

Ho: P1 = 50%, P2 = 25%, P3 = 15%, P4 = 10%.

H1: al menos una probabilidad de una categoría es diferente del valor esperado.

Paso 3.

α = 0.005

Paso 4.

Paso 5. Obtener gl.

Como Ʃ fo = Ʃ fe (o su equivalente n es la única restricción).

Entonces g1= k- 1= 4- 1= 3

gl = 3

X 2 = Ʃ (fo-fe)

2

fe

Page 14: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

14

Paso 6.

Paso 7. Para emplear

Se calcula primero fe para cada una de las cuatro categorías. Al utilizar fe = np.

X 2 = Ʃ (fo-fe)

2

fe

Page 15: 1. Chi cuadrada - campus.i.edu.mx leccion 2/2. JI... · La regla de decisión (RD) establece que Ho se rechazará si la ji cuadrada (X 2 es mayor que el valor crítico de 6.64 (los

15

Paso 8.

Conclusiones La proporción es la misma tanto para pacientes en la fe (usuarios del nuevo

tipo de insulina) en las categorías 3 y 4, 50 y 75%, respectivamente como en las fo,

(usuarios de insulina convencional). Por consiguiente la nueva insulina no es más efectiva

que la convencional.