1. distribución chi cuadrado
TRANSCRIPT
-
8/18/2019 1. Distribución Chi Cuadrado
1/43
1
Diseño Experimental
TEMA 1:
Aplicaciones de la prueba Chi-Cuadrado
Prof. Bernardo Céspedes Panduro
-
8/18/2019 1. Distribución Chi Cuadrado
2/43
-
8/18/2019 1. Distribución Chi Cuadrado
3/43
3
CONTRASTES DE HIPÓTESIS NO PARAMÉTRICAS
1. Contrastes de Bondad de Ajuste
2. Contraste de Independencia3. Contraste de Homogeneidad de Poblaciones
-
8/18/2019 1. Distribución Chi Cuadrado
4/43
4
-
8/18/2019 1. Distribución Chi Cuadrado
5/43
-
8/18/2019 1. Distribución Chi Cuadrado
6/43
0 0
1 0
H : F(x) F (x)
H : F(x) F (x)
El objetivo es contrastar si los datos de la muestra proceden
de una distribución particular (Poisson, Binomial). Es un
contraste para la distribución de probabilidad de la
población. Las hipótesis a contrastar son:
0 0
0 0
H simple: F (x) especifica el valor de sus parámetros
H compuesta: F (x) no especifica el valor de sus parámetros
-
8/18/2019 1. Distribución Chi Cuadrado
7/43
El test X2 para bondad de ajuste, comparavalores observados y esperados.
H0 : La muestra ha sido seleccionado de una
población que tiene una distribución específica.
H1 : La muestra no ha sido seleccionada de una
población que tiene la distribución específica.
-
8/18/2019 1. Distribución Chi Cuadrado
8/43
r
1i1)-(r 2
-1X2Xsi
0Hrechazary
ijE
2ij
Eij
O2X
α
Cuando H0 es verdadera, los ejemplos se obtienen por :
Donde :
Luego :
pi·n
r = nº de categorías.
Ej =
-
8/18/2019 1. Distribución Chi Cuadrado
9/43
Procedimiento para realizar la prueba
-
8/18/2019 1. Distribución Chi Cuadrado
10/43
Procedimiento para realizar la prueba
-
8/18/2019 1. Distribución Chi Cuadrado
11/43
Procedimiento para realizar la prueba
-
8/18/2019 1. Distribución Chi Cuadrado
12/43
Ejemplo 1: Distribución Binomial
2
-
8/18/2019 1. Distribución Chi Cuadrado
13/43
-
8/18/2019 1. Distribución Chi Cuadrado
14/43
-
8/18/2019 1. Distribución Chi Cuadrado
15/43
-
8/18/2019 1. Distribución Chi Cuadrado
16/43
-
8/18/2019 1. Distribución Chi Cuadrado
17/43
-
8/18/2019 1. Distribución Chi Cuadrado
18/43
-
8/18/2019 1. Distribución Chi Cuadrado
19/43
-
8/18/2019 1. Distribución Chi Cuadrado
20/43
Ejemplo 2: Distribución Poisson
El número de defectos por unidad observada en una muestra de 100 radios
dio la siguiente distribución de frecuencias:
Número de defectos 0 1 2 3 4 5 6 7
Número de radios 28 32 15 10 6 4 3 2
Verificar si la distribución de estos datos se aproxima a la distribución
Poisson con un nivel de significancia de 5%
-
8/18/2019 1. Distribución Chi Cuadrado
21/43
SOLUCIÓN:
1. Ho: La distribución de los datos es Poisson.
2. H1: La distribución de los datos no es Poisson.3. Nivel de significancia: α = 0.05 4. Estadístico de prueba:
Donde: Los esperados iij nP E
5. Regla de decisión: Rechazar H0 si: X2 > X2 k-p-1, α
Cálculos:
Valor crítico: K = 5, p =1, luego: X2 k-p-1, α = X2 5-1-1, 0.05 = X2 3, 0.05 =
7.815
Estadístico de Prueba:El parámetro de la distribución Poisson es la media, que es desconocida y
debe estimarse a través de los datos: = 1.68
k
i i
ii
E
E O
1
22 )(
TABLA DE PROBABILIDAD DE LA DISTRIBUCIÓN
-
8/18/2019 1. Distribución Chi Cuadrado
22/43
TABLA DE PROBABILIDAD DE LA DISTRIBUCIÓNCHI CUADRADO
Grados deLibertad:gl = 3
Nivel de significancia: = 0.05
χ2 = 7.8147
χ2 = 7.8147
Región de
Rechazo de H0
-
8/18/2019 1. Distribución Chi Cuadrado
23/43
SOLUCIÓN: CONTINUACIÓN …
Número dedefectos: x
pi = P[X = x] Ei = npi Oi
i
ii
E
E O 2)(
0
1234567
0.18637
0.31311
0.26301
0.147290.06186
0.02079 0.08986
0.00582
0.00140
18.6374
31.31083
26.3011
14.72861
8.986175
28
32151064 = 1532
4.703356
0.015169
4.855872
1.518119
4.024636
Total 15.11715
Luego, el valor estadístico es:
X2 = 15.11715
= 7.815 15.117
Conclusión: Se rechaza Ho, es decir, los datos no se ajustan a una distribución
Poisson, con un nivel de significancia del 5%
-
8/18/2019 1. Distribución Chi Cuadrado
24/43
EJEMPLO 3
En una encuesta a una muestra aleatoria de 90 fumadores que
manifestaron su intención de dejar de fumar, se les preguntó por el
número de veces que hasta el momento lo habían intentado. Losresultados fueron los siguientes:
¿Se puede aceptar un modelo Poisson para la variable aleatoria “número
de intentos para dejar de fumar”?
nº de intentos fumadores
0 12
1 272 21
≥3 30
-
8/18/2019 1. Distribución Chi Cuadrado
25/43
2. CONTRASTE DE INDEPENDENCIA
Tabla de Contingencia
A B B1 B2 .... BJ ni.
n11 n12 ... n1j n1.
n21 n22 ... n2J n2. M M nij M M
nI1 nI2 ... nIJ nI.
n.1 n.2 .... n.J nn.
A1
A2 M
AI
Sea una muestra grande de n individuos clasificados respecto a las
categorías de 2 variables categóricas o criterios de clasificación: A y B.
nij frecuencia observada conjunta. Nº de individuos de la muestraque están clasificados simultáneamente en las categorías Ai y Bj.
ni. y n.j frecuencias marginales observadas.
ni.: nº total de individuos clasificados en la categoría Ai
n.j: nº total de individuos clasificados en la categoría Bj
-
8/18/2019 1. Distribución Chi Cuadrado
26/43
-
8/18/2019 1. Distribución Chi Cuadrado
27/43
La Prueba Chi-cuadrado de independencia
Esta prueba se usa cuando el interés es determinar si
dos variables están asociadas.Ejemplo:2764 residentes de Lima Metropolitana fueron clasificadosde acuerdo a sus ingresos y el tiempo transcurrido desde
que ellos consultaron por última vez a un médico.
Ingresos
(en miles)
Tiempo
< 6 meses 7 -12 meses > 12 meses
TOTAL
801
186 38 35
227 54 45219 78 78
355 112 140
653 285 259
259
326375
607
1.197
TOTAL 1.640 567 557 2.764
-
8/18/2019 1. Distribución Chi Cuadrado
28/43
¿Proporcionan estos datos evidencia suficiente paraindicar que existe una asociación entre el ingreso y el
tiempo transcurrido desde la última consulta almédico?.
Dos variables son independientes cuando ladistribución de una de ellas no depende de ladistribución de la otra.
Si no existe asociación entre las dosvariables se dice que son independientes.
Por ejemplo, dos variables son independientessi al conocer el valor de una de ellas para un sujetono ayuda para determinar el valor de la otra variablepara el mismo sujeto.
-
8/18/2019 1. Distribución Chi Cuadrado
29/43
H0 : los dos criterios de clasificación son independientes.
H1 : los dos criterios de clasificación no son independientes.
Es de interés docimar :
Para docimar H0 se comparan las celdas de frecuencias
observadas con las celdas de frecuencias esperadas y se
usa la estadística :
f
li
c
1 j ijE
2
ijE
ijO
2x donde 1c1f 2x2x
y la decisión es rechazar H0 a un nivel de significación
si el valor calculado de la estadística X2 excede el valor
de tabla :
1c1f
2
1
x
-
8/18/2019 1. Distribución Chi Cuadrado
30/43
-
8/18/2019 1. Distribución Chi Cuadrado
31/43
-
8/18/2019 1. Distribución Chi Cuadrado
32/43
-
8/18/2019 1. Distribución Chi Cuadrado
33/43
En el ejemplo:
H0 : el ingreso y el tiempo transcurrido desde la última visita
al médico son independientes.
H1: las dos variables no son independientes.
53,132764
56725912
E 153,68;27641640259
11E
241,222764
557119753
E
celdas lastodas ij
E
2
ijE
ijO
2xde donde
(8)2x13152x2y x47.9
241.22
2241.22259
153.68
2153.68186
15.507(8)
2
0.95X
luego se rechaza H0De la tabla
-
8/18/2019 1. Distribución Chi Cuadrado
34/43
EJEMPLO 2
Una encuesta efectuada a 120 consumidores de un producto,
seleccionados al azar, ha permitido clasificarlos respecto a la
marca que prefieren y respecto a la región en la que residen,obteniéndose la siguiente tabla:
Región
Marca
ACME 35 20 10P2P 30 15 10
1 2 3
A partir de esta información, ¿se puede admitir, para un nivel de
significación del 5%, que la preferencia por una determinada
marca está influida por la región de residencia?Región
Marca ni.
ACME 35 20 10 65
P2P 30 15 10 55
n.j 65 35 20 120 = n
1 2 3
-
8/18/2019 1. Distribución Chi Cuadrado
35/43
EJEMPLO 3
Una encuesta efectuada a 120 consumidores de un producto,
seleccionados al azar, ha permitido clasificarlos respecto a la
marca que prefieren y respecto a la región en la que residen,obteniéndose la siguiente tabla:
Región
Marca
ACME 35 20 10P2P 30 15 10
1 2 3
A partir de esta información, ¿se puede admitir, para un nivel de
significación del 5%, que la preferencia por una determinada
marca está influida por la región de residencia?Región
Marca ni.
ACME 35 / 35,2 20 / 18,95 10 / 10,83 65
P2P 30 / 29,79 15 / 16,04 10 / 9,16 55
n.j 65 35 20 120 = n
1 2 3
-
8/18/2019 1. Distribución Chi Cuadrado
36/43
3. CONTRASTE DE HOMOGENEIDAD DE POBLACIONES
mues
tra
A A1 A2 .... AJ ni.
n11 n12 ... n1j n1.
n21 n22 ... n2J n2.
M
M
nij M
M
nI1 nI2 ... nIJ nI.
n.1 n.2 .... n.J nn. j
1
2
M
I
Sean I muestras grandes independientes de individuos clasificados
respecto a las J categorías de 1 variable categórica: A.
nij frecuencia observada. Nº de individuos de la muestra i que
están clasificados en la categoría Aj.ni.: tamaño muestra i
n.j: nº total de individuos del conjunto de todas las muestras
clasificados en la categoría Aj
n: suma de todos los tamaños muestrales.
-
8/18/2019 1. Distribución Chi Cuadrado
37/43
Pobla
ción
A A1 A2 .... AJ
p11 p12 ... p1j 1
p21 p22 ... p2J 1
M
M
pij M
M
pI1 pI2 ... pIJ 1
1
2
M
I
Podemos suponer que cada muestra proviene de una población con la
siguiente distribución de probabilidad:
pij probabilidad en la población i de estar clasificado en la
categoría AjTodas estas probabilidades son desconocidas y se pueden formular
hipótesis acerca de los valores que pueden tomar.
-
8/18/2019 1. Distribución Chi Cuadrado
38/43
Prueba de homogeneidad
Esta prueba se usa para comparar proporciones
en dos o más muestras.
H0 : las k poblaciones son "homogéneas" conrespecto a la proporción de sujetos queposeen la característica de interés.
En general se selecciona una muestra de
cada población en estudio y los sujetos seclasifican de acuerdo a una característica deinterés.
-
8/18/2019 1. Distribución Chi Cuadrado
39/43
-
8/18/2019 1. Distribución Chi Cuadrado
40/43
La estadística que se usa en esta prueba es
la misma que se usa para la prueba de
independencia :
rechaza sey
)11)(c(r 21
x2 xsiO
H
f lic1 j ij
E
2
ij
E
ij
O
2x
-
8/18/2019 1. Distribución Chi Cuadrado
41/43
Para determinar la conciencia pública y preocupación por
la polución atmosférica, se entrevistó a una muestra de40 residentes en cada una de 3 áreas de Lima
Metropolitana. La pregunta fue :
Ejemplo:
AREA NO SI DUDA NO SABE TOTAL
NORTE 5 31 2 2 40
SUR 10 21 4 5 40
ORIENTE 11 20 7 2 40
TOTAL 26 72 13 9 120
¿es la polución atmosférica un problema en su
vecindario?.
-
8/18/2019 1. Distribución Chi Cuadrado
42/43
H0 : las tres poblaciones de residentes sonhomogéneas con respecto al conocimiento de los
problemas de la polución.
10,391
3
232
8,67
28,67-53
1i
4
1 j ijE
2
ijEijO2X
12,592(16)20.95
X
0.05
ya que :
no hay evidencia para rechazar H0 a un nivel
H1 : las tres poblaciones no son homogéneas..
EJEMPLO 2
-
8/18/2019 1. Distribución Chi Cuadrado
43/43
La Comisión Europea está interesada en conocer el grado de apoyo de
los ciudadanos a la Constitución Europea. Para ello, ha realizado
encuestas en cada uno de los países miembros. En la siguiente tabla se
muestran los resultados de las encuestas de España y de Reino Unido:
EJEMPLO 2
Opinión
Constitución
Europea
A favor En contra No contesta Total
encuestados
España 70 10 20 100Reino Unido 60 70 20 150
A partir de la tabla anterior, ¿puede decirse que la opinión de los
ciudadanos respecto a la Constitución Europea es homogénea en los
dos países o bien cabe hablar de diferencias significativas?
Opinión
Constitución
Europea
A favor En contra No contesta Total
encuestados
ni.
España 70 / 52 10 32 20 / 16 100
Reino Unido 60 / 78 70 / 48 20 / 24 150
/