apuntes de metodos estadisticos unprg 2014 ii
DESCRIPTION
ANAVATRANSCRIPT
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
1
PRUEBA DE HIPOTESIS
HIPTESIS
a
PRUEBA DE HIPTESIS
PROCEDIMIENTO PARA PROBAR UNA HIPTESIS:
1.- Plantear la hiptesis nula y la hiptesis alternativa .
Hiptesis nula .- Hiptesis planteada con el objetivo de ser probada. Podemos
aceptarla o rechazarla. Tal hiptesis es una afirmacin que se aceptar si los datos
muestrales no pueden proporcionar evidencia convincente que es falsa.
Hiptesis alternativa .- Denominada tambin hiptesis de investigacin.
Afirmacin que se aceptar si los datos muestrales proporcionaron amplia
evidencia de que es falsa
2.- Seleccionar el nivel de significancia.- Nivel de significancia es la probabilidad de
rechazar la hiptesis nula cuando es verdadera. Al nivel de significacin se le
denomina , tambin se le conoce con el nombre de nivel de riesgo. Tambin se le
conoce como nivel de significacin.
Generalmente se usa el nivel del 5% para proyectos de investigacin, 1% para el
aseguramiento de calidades y 10% para encuestas polticas.
En el proceso de probar una hiptesis podemos cometer dos tipos de errores: error
del tipo I usualmente denotado por la letra griega alfa () mientras que la
probabilidad de cometer el error tipo II est representada por la letra griega beta (
)
Error tipo I () es rechazar la hiptesis nula ( cuando en realidad es verdadera.
Error tipo II ( es aceptar la hiptesis nula ( cuando en realidad es falsa
Es el enunciado acerca de una poblacin, elaborado con el propsito de ponerlo a aprueba
Procedimiento basado en la evidencia muestral y la teora de probabilidad que se emplea para determinar
si la hiptesis es un enunciado razonable.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
2
Poblacin
es verdadera
rechaza Ho
Ho
es falsa
Ho Muestra Se acepta Decisin Correcta
Error Tipo II
Se rechaza Error Tipo I Decisin correcta
3.-Calcular el valor estadstico de prueba.- Existen muchos valores estadsticos de
prueba: z, t, chi cuadrado, F, etc.
Es el valor obtenido a partir de la informacin muestral que se utiliza para
determinar si se rechaza la hiptesis nula.
Valor estadstico de la prueba.- Valor obtenido a partir de la informacin muestral
que se utiliza para determinar si se rechaza la hiptesis nula. En la prueba de
hiptesis para la media () el valor estadstico de prueba Z t se determinan a
partir de:
Z
o t
4.- Formular la regla de decisin.- Es un enunciado de las condiciones segn las que se
acepta o se rechaza la hiptesis nula.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
3
Valor crtico es el valor que es el punto divisorio entre la regin de aceptacin y la
regin de rechazo de la hiptesis nula
5.-Toma de decisin.- Es aceptar o rechazar la hiptesis nula.
POTENCIA DE UNA PRUEBA.- Es la probabilidad de tomar la decisin acertada de
rechazar cuando esta es falsa o de aceptar cuando esta es verdadera. La
potencia de una prueba se calcula mediante 1 .
PRUEBA PARA LA MEDIA DE LA POBLACIN: MUESTRA GRANDE
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES ( n30) RESPECTO A UNA MEDIA
DE POBLACIN PARA UNA PRUEBA DE DOS COLAS (BILATERAL) DE LA FORMA:
Ho: =
Ha:
Estadstico de prueba: conocida
Z=
Estadstico de prueba: desconocida:
Z
Regla de rechazo a un nivel de significancia :
Rechazar si Z Z Z Z
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
4
Ejemplo
Se desea probar si una nueva tcnica de siembra en vivero produce diferencias en la
longitud de plantines de algarrobo, luego de tres meses de realizada la siembra. Bajo la
tcnica tradicional, las plantas alcanzan una altura promedio de 15 cm, con una
desviacin estndar de 3 cm. El ensayo consisti en evaluar 16 plantines de algarrobo
al cabo de tres meses de sembrado con la nueva tcnica, obtenindose un promedio
de altura de 17 cm. Con =0,05 realizar la prueba de hiptesis correspondiente.
Solucin
Ho: = 15
Ha: 15
El valor estadstico de la prueba es:
Z=
Z=
=
= 2,66
Como el valor de la prueba est en la regin de rechazo, se rechaza y, por lo tanto,
se acepta
Ejemplo
La tasa anual de resurtido de botellas de aspirinas es 6.0 (esto indica que las
existencias del medicamento tienen que renovarse en promedio 6 veces al ao en un
establecimiento). La desviacin estndar es 0,50. Se sospecha que el volumen de
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
5
ventas promedio ha cambiado y no es 0,60. Se utilizar el nivel de significancia de 0.05
para probar esta hiptesis.
a.- Plantee la hiptesis nula y alternativa
b.- Cul es la probabilidad de un error tipo I?
c.- Proporcione la frmula para el valor estadstico de la prueba.
d.- Enuncie la regla de decisin
e.- Se selecciona una muestra aleatoria de 64 frascos de tal producto, con una media
de 5.84, Debe rechazarse la hiptesis de que la media poblacional es 0.60?
Interprete los resultados.
Solucin:
a. Ho: = 6
Ha: 6
b.- = 0,05
c.- El valor estadstico de la prueba es: Z =
d.- El valor crtico de 1.96
Si el valor del estadstico de prueba resulta mayor a 1.96 o menor a -1.96 se rechaza
la hiptesis nula
Z =
2.56
Como el valor de la prueba est en la regin de rechazo, se rechaza y, por lo tanto,
se acepta (la tasa media no es igual a 6).
Ejemplo
El supermercado local gast en una remodelacin miles de nuevos soles durante
muchas semanas. Aunque la interrupcin espant a los clientes temporalmente, el
gerente espera que los clientes vuelvan a disfrutar de las nuevas comodidades. Antes
de remodelar, los recibos de la tienda promediaban $ 32 533 por semana. Ahora que
se ha terminado la remodelacin, el gerente toma una muestra de 36 semanas para
ver si la construccin afect de alguna manera el negocio. Se report una media de
$34 166 y una desviacin estndar de $12 955 Qu puede decir el gerente a un nivel
de significancia del 1%?
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
6
Solucin Ho: = 32 533
Ha:
Rechazar Ho si: Z - 2.576 Z 2.576
El estadstico de la prueba: Z =
0.756
El valor de prueba est dentro de la zona de aceptacin, entonces se acepta Ho Es
decir la media es 32 533
Ejemplo
Una operacin en lnea de montaje automotriz tiene una media del tiempo de
terminacin de 2,2 minutos. Debido al efecto del tiempo de terminacin sobre las
operaciones anteriores y siguientes de ensamblaje, es importante mantener esta
norma de 2,2 minutos. Una muestra aleatoria de 45 tiempos da como resultado una
media del tiempo de 2,39 minutos con una desviacin estndar de 0,20 minutos.
Emplee un nivel de significacin de 0,02 y pruebe si la operacin cumple con la norma
de 2,2 minutos.
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A UNA MEDIA
POBLACIONAL PARA PRUEBAS DE UNA COLA (UNILATERAL) DE LA FORMA
Ho:
Ha: o
Estadstico de prueba: conocida
Z =
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
7
Estadstico de prueba: desconocida:
Z =
Regla de rechazo a un nivel de significacin
Rechazar si Z Z
Ejemplo
La produccin media de trigo por hectrea en una regin es de 2200 Kg con una
desviacin estndar 450Kg Se desea establecer si la aplicacin de fertilizantes
modifica el rendimiento medio de trigo. Para lo cual se elige 20 has (una en cada
chacra de la regin) y se encontr que el rendimiento promedio fue de 2650 Kg .Con
= 0,05 que se puede concluir.
Ho: 2200 Kg
Ha: 2200 Kg
Z =
=
= 4,47
En la tablas el valor de Z= 1,645
Como 4,47 es mayor que 1,645 se rechaza Ho.
Luego se concluye que la produccin media de trigo por Ha con fertilizacin, en la
regin, es significativamente mayor que 2200 Kg.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
8
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A UNA MEDIA
POBLACIONAL PARA PRUEBAS DE UNA COLA (UNILATERAL) DE LA FORMA
H0: o
Ha: o
Estadstico de prueba: conocida
Z =
Estadstico de prueba: desconocida:
Z=
Regla de rechazo a un nivel de significacin
Rechazar si Z - Z
Ejemplo.-
Una encuesta nacional reciente, encontr que estudiantes de la Universidad miraban
un promedio de 6.8 DVD por mes. Una muestra aleatoria de 36 estudiantes
universitarios de la facultad de Agronoma, revel que el nmero medio de DVD
observado el mes pasado fue de 6.2, con una desviacin estndar de 0.5. En el nivel de
significancia de 0.05. Puede concluirse que los estudiantes de la facultad de
Agronoma ven menos DVD al mes que los de la Universidad?
H0: 6.8
Ha: 6.8
Regla de la decisin
Rechazar si Z - 1.645
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
9
Valor de la prueba
Z =
7.2
Como el valor de la prueba est en la zona de rechazo se concluye rechazando la
hiptesis nula, esto es, que los estudiantes de la facultad de Agronoma ven menos
DVD, en promedio, que los estudiantes de la Universidad.
Ejemplo
El gerente de una compaa manufacturera grande estima que la edad media de sus
empleados es 22,8. El tesorero de la firma necesita una cifra de la edad media de los
empleados ms exacta a fin de estimar el costo de una prestacin por antigedad que
se considera para los empleados. El tesorero toma una muestra de 70 trabajadores y
observa que la edad media de los empleados muestreados es 26,2 aos con una
desviacin estndar de 4,6 aos. En el nivel de significacin de 0,01 Qu puede
concluir el tesorero acerca de la exactitud de la estimacin del gerente de produccin?
Ejemplo
La oficina de anlisis econmico, del Departamento de Comercio inform que la media
del ingreso anual de un residente de la ciudad de Piura es de $ 18 688 nuevos soles.
Un investigador de la ciudad de Piura desea probar = $18 688 y $ 18 688,
siendo la media del ingreso anual de un residente de la ciudad de Piura Cul es la
conclusin de la prueba de hiptesis si en una muestra de 400 residentes de la ciudad
de Piura se obtiene una media del ingreso anual de 16 860 nuevos soles y una
desviacin estndar de 14 624 nuevos soles? Emplee un nivel de significacin de 0,05.
PRUEBAS RESPECTO A LA PROPORCIN POBLACIONAL.
La prueba de hiptesis sobre proporciones se usa cuando queremos determinar si la
proporcin de los elementos en una poblacin, que tiene cierta caracterstica, es
mayor, igual o menor que algn valor especifico.
Relacin proporcional:
Es la relacin por cociente, o porcin relativa, que tiene un atributo particular de
inters.
Antes de probar una relacin proporcional debemos considerar algunos supuestos y
cumplirse algunas condiciones:
- Los datos muestrales recopilados son el resultado de conteo
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
10
- El resultado de un experimento se clasifica como xito o fracaso
- La probabilidad de xito se mantiene igual en cada ensayo
- Los ensayos son independientes
- La prueba es adecuada cuando n y n( 1- ) valen al menos 5
El valor estadstico de prueba Z viene dado por:
Z =
Donde:
= Relacin proporcional poblacional
= Relacin proporcional muestral
n = Tamao de muestra
PRUEBA PARA LA PROPORCIN POBLACIONAL
PRUEBA DE HIPTESIS RESPECTO A UNA PROPORCIN POBLACIONAL PARA
PRUEBAS DE UNA COLA (UNILATERAL) DE LA FORMA:
El estadstico de la prueba
Z
Regla de rechazo a un nivel de significacin
Ejemplo
Una investigacin en la Universidad de Toledo indica que el 50% de los estudiantes
cambian su rea principal de especializacin despus del primer ao en el programa de
estudios. Una muestra de 100 alumnos en la escuela de Administracin revel que 48
de ellos cambi de dicha rea despus del lapso mencionado. Ha habido un
decremento significativo en la proporcin de estudiantes que cambian su rea de
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
11
especializacin despus del primer ao en el programa? Realice la prueba al nivel de
significancia de 0.05.
n 100 0.48 0.05
Regla de decisin
Rechazar si Z - 1.645
El estadstico de la prueba
Z
- 0.4
Como Z - 0.4, entonces se acepta , es decir, la proporcin de estudiantes que
cambian de carrera despus del primer ao no ha tenido un decremento significativo.
Ejemplo
El servicio de Inmigracin y Naturalizacin inform que el 79% de los extranjeros que
visitaron los Estados Unidos en el 2005 dijeron que el objetivo principal de su visita era
disfrutar de sus vacaciones. Suponga que, como estudio de seguimiento en el 2012, se
selecciona una muestra de 500 visitantes extranjeros, y que 390 de ellos dijeron que el
motivo principal de su visita a Estados Unidos era disfrutar sus vacaciones. Es menor
la poblacin de visitantes extranjeros en el 2012? Respalde su conclusin con una
prueba estadstica que use el nivel de significacin de 0,05.
PRUEBA DE HIPTESIS RESPECTO A UNA PROPORCIN POBLACIONAL PARA PRUEBA
DE UNA COLA (UNILATERAL) DE LA FORMA:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
12
Estadstico de prueba
Z
Rechazar si Z Z
Ejemplo
Un artculo en la publicacin Piura 21 report que solo hay un empleo disponible para
uno de cada tres egresados de la Universidad. Las principales razones aportadas fueron
que existe una sobrepoblacin de estos ltimos y una economa dbil. Suponga que
una encuesta de 200 egresados recientes de la Universidad de Jan revel que 80
tenan empleo. Al nivel de significancia de 0.02, Se puede concluir que tienen trabajo
una proporcin mayor de egresados de la Universidad de Jan?
n 200 0,02
Regla de la decisin.
Rechazar si Z 2,054
Valor de la prueba:
Z 2
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
13
Se acepta por lo tanto, la proporcin de egresados que tienen trabajo es menor o
igual a
Ejemplo
Un restaurante de comida rpida planea una oferta especial que permita a sus clientes
comprar vasos de diseo especial con conocidos personajes de caricaturas. Si ms del
15% de los clientes compran estos vasos, se implementar la promocin. En una
prueba preliminar en varios locales, 88 de 500 clientes los compraron. Se debe
implantar la promocin especial? Lleve a cabo una prueba de hiptesis que apoye su
decisin. Use un nivel de significacin de 0,01 Cul es su recomendacin?
PRUEBA DE HIPTESIS RESPECTO A UNA POBLACIN POBLACIONAL PARA PRUEBAS
DE DOS COLAS (BILATERAL) DE LA FORMA:
Ho: P = Po
Ha: P Po
Estadstico de prueba
Z =
Regla de rechazo a un nivel de significancia
Rechazar si
Ejemplo
Se establece la siguiente hiptesis:
: P = 0.4
: P
Una muestra de 120 observaciones revel al nivel de significacin de 0.05
Puede rechazarse la hiptesis nula?
a,. Establezca la regla de decisin.
b.- Calcule el valor estadstico de la prueba.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
14
c.- Cul es su decisin respecto a la hiptesis nula?
Solucin
a.- Regla de decisin
Rechazar si Z -1,96 Z 1.96
b.- Valor de prueba
Z = -2.24
c.- Se rechaza , pues el estadstico de prueba cae en la zona de rechazo.
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A DOS MEDIAS
POBLACIONALES
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A DOS MEDIAS
POBLACIONALES PARA UNA PRUEBA DE DOS COLAS (BILATERAL) DE LA FORMA
:
:
Estadstico de prueba
Conocida desconocida
Z=
Z=
Donde:
Tamao de muestra
Media muestral
Variancia poblacional
Poblacin 1
Poblacin 2
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
15
Regla de rechazo a nivel de significancia Z
Z
Ejemplo
Una importante compaa de transporte pblico de Chiclayo debe decidir entre dos
marcas de llantas para su parque automotor, con un nivel de confianza del 95%. Para
tomar una decisin seleccion una muestra aleatoria de 100 llantas de cada marca y
encontr que la marca 1 tiene una vida til de 98 000 Km, en promedio, con una
desviacin estndar de 8 000 Km.
Por otro lado, las estadsticas calculadas para la marca 2 son, en promedio, de 101 000
Km y desviacin estndar de 12 000 Km
Qu marca de llantas debera adquirir la compaa de transporte si la diferencia de
precios es mnima?
Solucin
:
= 98 000 = 8 000 =100
= 101 000 = 12 000 = 100
Regla de decisin
Rechazar si: Z Z
Valor de la prueba
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
16
Z =
=
= - 2.08
Como -2.08 est en la zona de rechazo, se rechaza a un nivel de significancia del
5%. Esto es, existe diferencia significativa entre la vida til promedio de ambas marcas.
Sin embargo, no hemos contestado a nuestra pregunta inicial de qu marca de llantas
se debe adquirir. Realizamos una nueva prueba de hiptesis suponiendo que la vida
til media de la marca 2 es mayor que la de la marca 1. Para lo cual establecemos la
prueba de hiptesis para una cola
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n RESPECTO A DOS MEDIAS
POBLACIONALES PARA UNA PRUEBA DE 1 COLA DE LA FORMA:
Pruebas de hiptesis:
: : 0
: : 0
Estadstico de prueba
Conocida desconocida
Z= -
Z -
Regla de rechazo a un nivel de significancia
Rechazar si Z -
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n RESPECTO A DOS MEDIAS
POBLACIONALES PARA UNA PRUEBA DE 1 COLA DE LA FORMA:
: : 0
: : 0
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
17
Estadstico de prueba
Conocida desconocida
Z
Z
Regla de rechazo a un nivel de significacin
Rechazar si Z
Del ejercicio anterior, para decidir qu marca comprar, realizamos una nueva prueba
de hiptesis suponiendo que la vida til promedio de la llanta de marca 2 es mayor
que la vida til promedio de la marca 1, esto es:
:
:
Usando los mismos datos anteriores tenemos
Con los datos mostrados se calcula Z
Z -
=
= - 2.08
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
18
Como 2.08 est en la zona de rechazo tenemos que la marca 2 tiene mayor vida til
promedio que la marca 1.Por lo tanto, la compaa de transporte debe abastecerse de
la marca 2
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n PARA LA DIFERENCIA
ENTRE DOS PROPORCIONES:
La prueba de hiptesis para la diferencia entre dos proporciones se realiza cuando
queremos determinar si las proporciones de dos poblaciones son o no iguales. La
lgica del procedimiento es idntica para la diferencia de las medias poblacionales.
Tomamos una muestra aleatoria de cada poblacin y calculamos las proporciones
muestrales; si la diferencia entre estas proporciones se puede atribuir al azar,
aceptamos la hiptesis de que las dos poblaciones tienen igual proporciones.
Valor estadstico de prueba.
Z=
Tamao de muestra
Proporcin muestral
Proporcin ponderada
Poblacin 1
Poblacin 2
=
=
Alternativamente
Ejemplo
El departamento de investigacin en la casa Matriz de una compaa aseguradora,
realiza una investigacin acera de las causas de accidentes automovilsticos, las
caractersticas de los conductores, etc. Se seleccion una muestra aleatoria de 400
plizas de seguros expedidas a personas solteras. Se descubri que en el periodo
anterior de tres aos, 120 sufrieron al menos un accidente automovilstico. En forma
semejante, una muestra de 600 plizas expedidas a personas casadas revel que 150
haban tenido al menos un accidente. Al nivel de significancia de 0.05, Hay diferencia
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
19
significativa en las personas solteras y casadas que sufrieron un accidente durante un lapso de
tres aos?
Solucin
400 600
= 0.30
= 0.25
:
:
Regla de decisin
Rechazar si: Z Z
Valor de la prueba
Z=
=
=
= 0.27
Z=
= 1.74
Como 1.74 est en la regin de aceptacin se acepta , no hay
diferencia significativa entre las proporciones de personas solteras y casadas que
sufrieron un accidente durante un lapso de tres aos.
PRUEBA DE HIPTESIS PARA MUESTRAS PEQUEAS
En los casos en los que se desconoce y el nmero de observaciones en la muestra es
menor a 30, se puede utilizar la desviacin estndar muestral, s, como una estimacin
de , pero no puede utilizar la distribucin de Z como valor estadstico de prueba. La t
de Student o distribucin t, sirve como valor estadstico de prueba.
PRUEBA PARA LA MEDIA POBLACIONAL
Se utiliza el mismo procedimiento que en el caso de la muestra grande pero el valor
estadstico de prueba es el siguiente:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
20
=
Ejemplo
Por registros pasados se sabe que la vida til promedio de una pila elctrica que se
utiliza en un reloj digital es de 305 das. La vida til de las pilas se distribuye
normalmente. Tal elemento elctrico fue modificado recientemente para que tenga
mayor duracin. Se prob una muestra de 20 pilas modificadas y se encontr que la
vida media era de 311 das con una desviacin estndar de la muestra de 12 das. Al
nivel de significancia de 0.05. La modificacin increment la duracin promedio de la
pila?
a.- Plantear la hiptesis nula y alternativa.
b.- Ilustrar grficamente la regla de decisin.
c.- Calcular t y llegar a una decisin. Resuma la manera breve el resultado.
Solucin:
Grados de libertad (g.l.): 20 1 = 19
Regla de decisin:
Rechazar si t
Valor de prueba:
t =
= 2.24
Por lo tanto se rechaza porque 2.24 est en la zona de rechazo.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
21
PRUEBA DE DOS MEDIAS POBLACIONALES: MUESTRAS ALEATORIAS
INDEPENDIENTES
Caso I
Cuando y son ambas pequeas y se desconoce las varianza poblacionales se
tiene:
Valor de prueba
t
t con grados de libertad:
Donde:
Grados de libertad: 2
Observacin
Las varianzas son desconocidas, pero iguales:
Donde es un estimador insesgado de
Ejemplo:
Una muestra de calificaciones en un examen presentado en un curso de Estadstica (en
escala 100) es:
Hombres 72 69 98 66 85 76 79 80 77 Mujeres 87 90 78 81 80 76
Al nivel de significancia de 0.01, La calificacin de las mujeres es ms alta que la
calificacin de los hombres?
Solucin:
:
:
Tamao de muestra
Media muestral
Variancia ponderada
Poblacin 1
Poblacin 2
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
22
H M
78 82 S 9,49 5,40
n 9 6
Regla de decisin:
Rechazar si t
Valor de la prueba
t
= 66.6153
t
= 0.10
Se acepta porque 0.42 est en la zona de aceptacin. Por lo tanto, no se puede
afirmar que la calificacin de las mujeres es ms alta que la calificacin de los
hombres.
b.. Caso II:
Cuando
Variancias poblacionales desconocidas pero diferentes
Las hiptesis son las mismas, pero la prueba estadstica ser:
Los grados de libertad se calculan de la siguiente manera:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
23
g.l. [
]
[
]
[
]
Los dems pasos son los mismos
PRUEBA PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES: UNA PRUEBA DE
DIFERENCIA PAREADA
< 30
Variancias poblacionales desconocidas pero iguales
1.-Hiptesis nula: Ho: (12) = d = 0
2.- Hiptesis alternativa:
Prueba de una cola Prueba de dos colas
Ha: d> 0 Ha: d 0
Ha: d < 0 3.- Estadstico de prueba:
t =
=
= 1 2
4.- Regin de rechazo: Rechazar Ho cuando
Prueba de una cola Prueba de dos colas
t > t t> t t
Ejemplo.-
Antes de contratar la instalacin de un sistema que trasmita msica a las oficinas de
una empresa, el gerente selecciona al azar 7 oficinas para instalarles el nuevo sistema.
El tiempo promedio en minutos que pasaban los empleados fuera de esas oficinas, fue
registrado antes y despus de instalarse el sistema de msica, obtenindose los
siguientes resultados
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
24
Sugerira Ud. que el ejecutivo proceda con la instalacin? = 0.05
Solucin
Ho: d = 0
Ha: d > 0
No msica
Con msica
d 8 5 3
9 6 3
5 7 2 6 5 1 5 6 1
10 7 3
7 8 1
=7,14 =6,28 =0,85 =2,6457
t =
=
=
= 1,025
En las tablas 1,943
Conclusin: No hay una evidencia estadstica para afirmar que con la instalacin de la
msica en las oficinas, los empleados pasaran ms tiempo en estas.
PRUEBA DE HIPTESIS PARA LA VARIANZA
Hay casos que se tiene el problema de desconocer la varianza, o desviacin estndar
de la poblacin, en donde las distribuciones son normales. Si se desea probar una
hiptesis acerca de la varianza se puede hacer utilizando la distribucin de Ji cuadrada
(Chi cuadrada). As mismo, supngase que se tiene inters en dos poblaciones
normales independientes, donde las medias y las varianzas de la poblacin son
desconocidas. Se desea probar la igualdad de las dos varianzas, ya que para poder
comparar las medias de estas dos poblaciones se ha utilizado la distribucin de t de
Student, en la cual podemos tener varianzas iguales o diferentes en la poblacin.
Nmero de oficina 1 2 3 4 5 6 7
No msica 8 9 5 6 5 10 7
Con msica 5 6 7 5 6 7 8
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
25
Par conocer esto ltimo se requiere de la distribucin F de Fisher, y despus de
utilizarla se tomar la decisin de tener o no varianzas iguales en la poblacin, dando
pie a realizar la comparacin de las dos medias segn sea el caso. En un primer caso en
el que las varianzas de la poblacin son desconocidas, pero iguales, o en un segundo
caso, donde se tiene varianzas desconocidas, pero diferentes
DISTRIBUCION CHI CUADRADO
La distribucin de Chi cuadrado tiene muchas aplicaciones especialmente en las
ciencias sociales y biolgicas, en donde se estudia una conducta (lo esperado) en
funcin de una respuesta (lo observado). Si el conjunto de valores observados sigue el
mismo comportamiento de lo esperado entonces, estadsticamente, se acepta la
hiptesis que lo observado sigue el comportamiento de lo esperado.
Esta metodologa puede ser utilizada para una prueba de :
- Frecuencia y bondad de ajuste
- Independencia entre variable
- Homogeneidad de muestras
- Homogeneidad de variancia.
Casos de frecuencia y bondad de ajuste, probar estadsticamente:
- La relacin de ingresantes a la UNPRG de colegios particulares a nacionales es
de 2 a 1
- El nmero de accidentes que ocurre en un determinado lugar sigue una ley de
Poisson
- El nmero de tubrculos daados en planta siguen una ley de Poisson
- El nmero de artculos defectuosos en caja de 10 , sigue una ley Binomial
- El nmero de plantas germinadas de paquetes de 10 semillas sigue una ley
Binomial
Casos de independencia
- Preferencias a ciertos productos y localidades
- Procedencia de colegio nacional y privado y el rendimiento en la universidad
- El nivel de pobreza y estudio en la zona rural y urbana
Casos de homogeneidad de muestra
- La distribucin de consumo de tipo de carne en distritos de la provincia de
Chiclayo
- La preferencia o popularidad de candidatos por distritos
- La distribucin de estudiantes por lugar de procedencia en las universidades del
Depto. De Lambayeque.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
26
La distribucin Chi Cuadrado permite resolver tal inferencia, bajo el supuesto que la
variable aleatoria w est definida:
Donde:
- Frecuencia observada en una clase o categora
- Frecuencia esperada en la misma clase o categora
- Distribucin de chi cuadrado, con cierto grado de libertad
Cuando el nmero de grados de libertad es igual a 1, se utiliza la correccin de Yates
(correccin por continuidad)
| |
Pero cuando los datos son mayores de 50 se puede, obviar la correccin.
Prueba de frecuencias
Es til en el estudio de la distribucin de frecuencias de una variable. El nmero de
clases o categoras debe ser al menos 2, lo suficiente como para no tener frecuencias
menores de 5%. Muchas o pocas categoras, dispersan o concentran la frecuencia en
las categoras.
Para la prueba estadstica de frecuencia se requiere hallar los grados de libertad.
Para el caso de frecuencias, los grados de libertad es igual a K 1, donde K es el
nmero de clases o categoras.
Ejemplo
4 candidatos, postulan a la Presidencia de la Republica. Segn los sondeos se tiene la
siguiente distribucin:
- Candidato A = 34%
- Candidato B = 28%
- Candidato C = 14%
- Candidato D =8 %
- Otros = 16%
El estudio se realiz encuestando a 120 personas, donde el resultado de las
preferencias fue:
A = 45 B = 30 C =18 D= 6 y otros =21
Se pregunta si la preferencia de los candidatos ser igual para todos. = 0,10
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
27
Solucin:
Ho: La preferencia de los candidatos se mantiene
Ha: No hay cambios en la preferencia
= 0.10
Candidato Datos observados
Datos esperados
% Terico
A 45 120x0,34=40,8 34
B 30 120x0,28=33,6 28
C 18 120x0,14=16,8 14
D 6 120x0,08=9,6 8
Otros 21 120=0,16=19,2 16
Total 120 12,0 100
=
= 2,4225
El valor critico se busca en la tabla de Chi cuadrado, con k- 1 grados de libertad y con
un nivel de significancia
En las tablas con 4 g.l. y = 0,10 es igual 7,77
El valor calculado es inferior al tabular, por lo tanto se acepta la hiptesis que las
frecuencias se mantienen (Hiptesis nula).
Ejemplo en proporciones
Las frecuencias esperadas de un cruce gentico entre la prole estn en una proporcin
fenotipo de 3:1 de normal a mutante. Las frecuencias observadas fueron:
Fenotipo Datos Observados
Normal 80
Mutante 10
Total 90
Realice la prueba estadstica para la prueba de la proporcin planteada.
Solucin
Ho. La proporcin fenotipo normal y mutuante es de 3:1
Ha: La proporcin no es 3:1
= 0.10
Calculemos las frecuencias esperadas
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
28
Fenotipo Datos observados
Datos esperados
Normal 80 90x 67,5
Mutante 10 90x 22,5
Total 90 90
Los grados de libertad es igual a 1, no es necesario la correccin de Yates porque la
muestra es mayor a 50.
El valor de Chi cuadrado ser:
El valor crtico para se busca con gl= 1 y = 0,10 ser 2,705
Se observa que el valor calculado es mayor que el tabular, entonces se rechaza la
hiptesis nula o planteada, por lo cual se concluye que no hay suficiente razn
estadstica para tal afirmacin sobre la proporcin planteada.
Aplicacin de Yates (caso de dos categoras y total de observaciones menor a 50).
Una moneda supuestamente balanceada, se somete a una prueba para certificar si es
correcta para ser utilizada en una determinada investigacin, razn por la cual se lanza
25 veces, obtenindose como resultado: Cara 10 veces, sello 15 sello. Con estos
resultados Podemos aceptar la hiptesis?
Ho: Moneda correctamente balanceada
Ha: Moneda no es balanceada
= 0,10
Resultado Datos observado
Datos esperados
Cara 10 25 x 0,50 = 12,5
Sello 15 25 x 0,50 = 12,5
25
| |
| |
| |
El valor de en las tablas para 1 g.l. y = 0,10 es igual a 2,7055
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
29
Por lo tanto se acepta la hiptesis Ho, que dice que la moneda es balanceada.
PRUEBA DE INDEPENDENCIA TABLAS DE CONTIGENCIA
Las pruebas aplicadas a cuadros de contingencia, algunos la denominan tambin como
dcimas de independencia. Sin embargo, permiten la realizacin de pruebas de
homogeneidad. Un cuadro de contingencia, es un arreglo en el cual un conjunto de
observaciones se dispone conforme a dos criterios de clasificacin, uno de los cuales se
expresa en columnas y el otro en renglones. Si cada uno de los criterios admite dos
clasificaciones, se obtiene una tabla de contingencia de 2 x 2. Si el primer admite tres
clasificaciones y el segundo criterio 4, se denominar como tabla 3 x 4. Si
designamos las columnas por K y los renglones por J, se tendr una tabla de K x J
Los grados de libertad sern iguales a v=(K 1)(J 1), as en una tabla de 2 x 2, el
valor de v ser igual a 1, o sea v= (2 1)(2 -1); y en la tabla de 3x 4 ser: v= (3 - 1)(4-
)=6.
Cuando el nmero de grados de libertad es igual a 1, se utiliza la correccin de Yates
(correccin por continuidad)
| |
Pero cuando los datos son mayores de 50 se puede, obviar la correccin.
Ejemplo:
En un consultorio se trat a un grupo de personas que se quejaban de insomnio,
dndole a unas pastillas para dormir y a otras pastillas de azcar (que hacan creer que
eran para dormir). Despus de someterlos a observacin, se obtuvo el siguiente
resultado.
Tratamiento Durmieron No durmieron
Total
Pastillas para dormir 35 5 40
Pastillas de azcar 45 15 60
Total 80 20 100
Pruebe a nivel del 5% que no existe diferencia
Solucin:
Ho: No existe diferencia entre los tipos de pastillas
Ha: Si existe diferencia entre los dos tipos de pastillas
Calcular los datos esperados
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
30
Tratamiento Durmieron No durmieron Total
Pastillas para dormir
= 32
= 8 40
Pastillas de azcar
= 48
= 12 60
Total 80 20 100
=
= 2,3437
Buscamos en las tablas , con (2 1) (2 1)= 1
Se acepta la hiptesis nula, la diferencia no es significativa.
Ejemplo
Una asociacin de profesores universitarios quiere determinar si la clasificacin en el
trabajo es independiente de la categora acadmica. Para ello se realiz un estudio
nacional entre los acadmicos universitarios y encontr los resultados que se
muestran a continuacin, Con al 0.05 haga una prueba para saber si son
dependientes la satisfaccin en el trabajo y la categora acadmica
Categora Profesor
Asistente
Profesor
auxiliar
Profesor
asociado
Profesor
principal
Satisfaccin Mucha 40 60 52 63
En el Regular 78 87 82 88
trabajo Poca 57 63 66 64 .
Solucin
Planteamiento de las hiptesis
La satisfaccin en el trabajo y la categora acadmica son independientes
La satisfaccin en el trabajo y la categora acadmica no son independientes
Grados de libertad: (r 1) (c 1) = (3 -1) (4 -1) = 6
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
31
Regla de decisin
Rechazar 12.59
Se procede a calcular los valores esperados de cada celda:
Donde: i= fila j = columna
Se toma en cuenta los totales del rengln y la columna
categora
Profesor
asistente
Profesor
auxiliar
Profesor
asociado
Profesor
principal
Total
Satisfaccin
En el
trabajo
Mucha 40 60 52 63 215
Regular 78 87 82 88 335
Poca 57 63 66 64 250
Total 175 210 200 215 800
Valor de la prueba:
+
= 2.75
Como 2.75 es menor que el valor critico 12.59, por lo tanto, no se rechaza y se
concluye con un = 0.05, que la satisfaccin en el trabajo y la categora acadmica son
independes
=
= 47.03
=
= 56.44
=
= 53.75
=
= 57.78
=
= 73.28
=
= 87.94
=
= 83.75
=
= 90.03
=
= 54.69
=
= 65.62
=
= 62.50
=
= 62.50
CATEGORA
Profesor
asistente
Profesor
auxiliar
Profesor
asociado
Profesor
principal
Total
Satisfaccin Mucha 47.03 56.44 53.75 57.78 215
En el Regular 73.28 87.94 83.75 90.03 335
trabajo Poca 54.69 65.62 62.50 67.19 250
Total 175 210 200 215 800
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
32
PRUEBA DE HIPTESIS PARA LA VARIANZA DE UN DISTRIBUCIN NORMAL
A continuacin se desarrollar el procedimiento para contrastar hiptesis sobre la
varianza poblacional , a partir de una muestra aleatoria de n observaciones de una
poblacin normal.
PRUEBA BILATERAL DE LA VARIANZA DE UNA POBLACIN
Estadstico de prueba:
=
Regla de decisin a un nivel de significancia
Rechazar si:
Ejemplo
Una manera de evaluar la eficacia de un profesor ayudante es analizar las calificaciones
obtenidas por sus estudiantes en un examen al final del curso. Evidentemente, es
interesante la puntuacin media, sin embargo, la varianza tambin contiene
informacin til; algunos profesores tienen un estilo que funciona muy bien con los
estudiantes ms sobresalientes, pero es ineficiente con los estudiantes con menos
capacidad o menos motivados. Un profesor realiza un examen al final de cada
semestre para todas las secciones del curso, la varianza de las calificaciones de este
examen suelen estar muy prximos a 300 : Un nuevo ayudante tiene una clase de 30
estudiantes, cuyas calificaciones en el examen tuvieron una varianza de 480;
considerando estas calificaciones como una muestra aleatoria de una poblacin
normal, contrastar la hiptesis nula de que la varianza poblacional de sus calificaciones
es 300 frente a una alternativa bilateral con 0.05
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
33
Regla de decisin
Rechazar si:
Valor de prueba
=
= 46.40
Entonces dado que 45.72, se rechaza , lo cual significa que la varianza es
diferente de 300
PRUEBA UNILATERAL DERECHA DE LA VARIANZA DE UNA POBLACIN
Estadstico de prueba
=
Regla de decisin a un nivel de significancia
Rechazar si:
Ejemplo
Un producto, se debe maquinar determinada parte con tolerancias muy estrechas,
para que los clientes la puedan aceptar. Las especificaciones del producto piden que la
varianza mxima de las longitudes de las partes sea 0.0004. Suponga que en 30 partes,
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
34
la varianza de la muestra result ser 0.0005. Pruebe con un 0.05 si se ha
violado la especificacin de varianza de la poblacin
Estadstico de prueba
=
=
= 36.25
Regla de decisin a un nivel de significancia
Regla de decisin
Rechazar si:
Entonces dado que , se acepta la Ho, lo cual significa que las
especificaciones del producto no han sido violadas.
PRUEBA UNILATERAL IZQUIERDA DE LA VARIANZA DE UNA POBLACIN
Estadstico de prueba
Regla de decisin a un nivel de significancia
Rechazar si:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
35
INFERENCIA ACERCA DE LA VARIANZA DE DOS POBLACIONES NORMALES
DISTRIBUCIN DE F
Denominada as por sir Ronald Fisher, uno de los fundadores de la ciencia estadstica
moderna. Esta distribucin se utiliza como la entidad estadstica de prueba en varios
casos, sirve para probar si dos muestras proceden de poblaciones con varianzas
iguales. Asimismo, tambin sirve cuando se desea comparar simultneamente varias
medias poblacionales, esta comparacin simultanea de varias de tales medias se
denomina anlisis de varianza (ANAVA) (ANOVA), en estos dos casos las poblaciones
deben ser normales.
PRUEBA DE HIPTESIS BILATERAL RESPECTO A LA VARIANZA DE DOS POBLACIONES
Estadstico de prueba
F
Regla de decisin a un nivel de significacin
Rechaza s: F F
PRUEBA UNILATERAL DERECHA ACERCA DE LA VARIANZA DE DOS POBLACIONES
NORMALES.
Estadstico de prueba
F
Regla de decisin a un nivel de significacin
Rechaza si: F
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
36
Observacin.- La varianza muestral ms grande se coloca en el numerador, en
consecuencia, la razn F siempre es mayor a 1. Por lo tanto, el valor crtico de la cola
de valores superiores es el nico que se necesita
( )
( )
Ejemplo:
La compaa Piura Com. realiz un estudio acerca de los hbitos de escuchar radio
por parte de los hombres y las mujeres. Un aspecto del estudio comprendi el tiempo
promedio de audicin. Se descubri que tal tiempo para los varones es de 35 minutos
al da. La desviacin estndar de la muestra de 11 personas de sexo masculino que se
estudiaron fue de 10 minutos diarios. El tiempo promedio de audicin para las 13
mujeres en el estudio fue tambin de 35 minutos, pero la desviacin estndar de la
muestra, result 12 minutos. Al nivel de significancia de 0.10, es posible concluir que
existe diferencia en la variacin del nmero de minutos que los hombres y las mujeres
escuchan la radio?
Recuerde que
0.36
Rechaza s: F F
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
37
Estadstico de prueba
F
1.44
Por lo tanto, al ser F 1.44 se acepta , lo cual significa que la variacin del nmero
de minutos que escuchan radio los hombres es igual al de las mujeres.
Ejemplo
En su incansable bsqueda de un sistema de llenado adecuado, cierta empresa prueba
dos mquinas. Robot Fill se usa para llenar 16 tarros y resulta una desviacin estndar
de 1.9 onzas en el llenado. Con Automatic Fill se llenan 21 frascos que dan desviacin
estndar de 2.1 onzas. Si la empresa tiene que elegir uno de estos sistemas en funcin
de la uniformidad de llenado, Cul deber seleccionar? Use un 0.05
Solucin
Robot Fill Automatic Fill
De acuerdo a la tabla de F:
Regla de decisin a un nivel de significacin
Rechaza s: F
Estadstico de prueba
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
38
F
Dado que el valor de F es 1.22 se acepta Ho. Por lo tanto, se elige el proceso Automatic
Fill porque es el que presenta mejor uniformidad de llenado.
ANLISIS DE REGRESIN Y CORRELACIN
ANLISIS DE CORRELACIN
Conjunto tcnicas estadsticas empleadas para medir la intensidad y el sentido de la
asociacin de dos ms variables. El concepto de correlacin est estrechamente
vinculado al concepto de regresin, pues para que una ecuacin de regresin sea
razonable los puntos muestrales deben estar ceidos a la ecuacin de regresin,
adems el coeficiente de correlacin debe ser:
- Grande cuando el grado de asociacin es alto (cerca de y pequeo
cuando es bajo, cerca de cero
- Independiente de las unidades en que se miden las variables.
DIAGRAMA DE DISPERSIN
Grfica que presenta la relacin entre dos variables.
VARIABLE DEPENDIENTE
Variable que se predice o estima. Se muestra en el eje Y.
VARIABLE INDEPENDIENTE
Variable que proporciona la base para la estimacin. Es la variable de pronstico. Se
muestra en el eje X.
Ejemplo
La empresa Rzuri Hnos. un negocio familiar que ha vendido al menudeo en Piura
durante muchos aos, se anuncia ampliamente por radio y televisin, destacando sus
bajos precios y accesibles condiciones de crdito. Al dueo le gustara analizar la
relacin entre las ventas y lo que gasta en publicidad. A continuacin se muestra la
informacin acerca de las ventas y lso gastos de publicidad durante los ltimos cuatro
meses.
Mes Gastos de publicidad
(miles de dlares)
Ingreso por ventas
(miles de dlares)
Julio 2 7
Agosto 1 3
Setiembre 3 8
Octubre 4 10
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
39
Se plantea la hiptesis de que a medida que aumentan los gastos de publicidad,
aumentan los ingresos por ventas.
Debemos comenzar por el diagrama de dispersin, que nos permite tener una idea
sobre el grado (intensidad) y la naturaleza (forma) de la relacin entre las dos
variables. Entonces podemos dar cuenta si la relacin es lineal o no lineal, positiva o
negativa, o simplemente no existe una relacin aparente.
Observando el diagrama podremos establecer lo siguiente:
1.- Existe una relacin lineal entre los gastos de publicidad y el ingreso por ventas en
ese periodo de 4 meses. Por lo tanto, es posible trazar una lnea recta que se ajuste
a los puntos graficados en el diagrama de dispersin
2.- La relacin no es determinstica; vale decir, cualquiera que sea la lnea recta que se
trace, la mayora de los puntos estarn por encima o por debajo de dicha recta.
COEFICIENTE DE CORRELACIN LINEAL SIMPLE (r)
Creado por Karl Pearson alrededor de 1900, describe la fuerza de la relacin entre dos
conjuntos de variables en escala de intervalo o de razn.
Se designa con la letra r, para calcular el valor numrico del coeficiente de correlacin
se utiliza la siguiente expresin:
r=
r =
[ ][ ]
Donde:
n = Nmero de pares de observaciones
x = Suma de los valores de la variable x
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
40
y = Suma de los valores de la variable y
= Suma de los valores de x elevados al cuadrado
Cuadrado de la suma de los valores de x
= Suma de los valores de y elevados al cuadrado
= Cuadrado de la suma de los valores de y
xy = Suma del producto de x e y
CARACTERSTICAS DEL COEFICIENTE DE CORRELACIN
1.- El coeficiente de correlacin de la muestra se identifica con la letra minscula r
2.- Muestra la direccin y la fuerza de la direccin lineal (recta) entre dos variables en
escala de intervalo o en escala de razn
3.- Vara de -1 hasta +1
4.- Un valor cercano a 0 indica que hay poca asociacin entre las variables
5.- Un valor cercano a 1 indica una asociacin directa o positiva entre las variables; es
decir a valores altos de una variable le corresponde valores altos a la otra variable
6.- Un valor cercano a -1 indica una asociacin inversa o negativa entre las variables; es
decir a valores altos de una variable le corresponde valores bajos a la otra variable
y viceversa
COEFICIENTE DE DETERMINACIN ( )
Es el estadstico que mide la proporcin de la variacin total en y que puede ser
explicada por la variacin en x.
El coeficiente de determinacin se calcula elevando al cuadrado el coeficiente de
correlacin
Con los datos del problema tenemos:
Total
r=
[ ][ ]
r =
[ ][ ] = 0,96
= 92,16%
x y xy 2 7 14 4 49
1 3 3 1 9
3 8 24 9 64
4 10 40 16 100
10 28 81 30 222
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
41
1 - = 7,84%
PRUEBA DE SIGNIFICANCIA DEL COEFICIENTE DE CORRELACIN
Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el
modelo de regresin lineal es significativo.
Planteamiento de hiptesis:
0 (la correlacin en la poblacin es cero)
(La correlacin en la poblacin es distinta de cero)
Estadstico de prueba:
t
, con n 2 grados de libertad
Rechazar si: t ( ) t
(
)
t
=
= 4,84
Comparamos con el valor de las tablas , es decir =4,303
Como el valor calculado es mayor que el valor de la tabla, existe una fuerte correlacin
entre el gasto en publicidad y el ingreso por ventas. (Aceptamos hiptesis alternativa)
ANLISIS DE REGRESIN
A travs del anlisis de regresin buscamos que la lnea de ajuste se aproxime lo mejor
posible a todos los puntos del diagrama de dispersin. La ecuacin para la lnea recta
empleada para calcular y con base en x se conoce como ecuacin de regresin.
ECUACIN DE REGRESIN
Expresin matemtica que define la relacin entre dos variables.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
42
PRINCIPIO DE MNIMOS CUADRADO
Tcnica empleada para obtener la ecuacin de la regresin, minimizando la suma de
los cuadrados de las distancias verticales entre los valores y verdaderos y los valores
pronosticados .
Dicha recta se define como:
y = a +bx
Par determinar la calidad estimadora de esta recta necesitamos alguna medida de la
distancia de los puntos ( a esta recta. El siguiente grafico muestra, para un solo
punto, como se mide esta distancia.
Para el valor el correspondiente valor y en nuestra recta es a + bx mientras que el
valor realmente observado para la variable dependiente es .La diferencia entre los
dos es:
Ahora bien, cualquier
estimador razonable de la recta de regresin verdadera dejar algunos de los datos
observados por debajo y otros por encima de la recta estimada. Por lo tanto, algunos
de los sern positivos y otros negativos
REGRESIN LINEAL SIMPLE
El anlisis de regresin lineal simple trata el problema de predecir o estimar una
variable, llamada respuesta, a partir de otra variable llamada predictora o explicativa.
A la primera se le conoce tambin como variable dependiente y se le representa
generalmente con la letra Y, mientras que a la segunda se le conoce como variable
independientemente y se representa generalmente con la letra X
Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es
una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
43
Donde
- : Es el valor de la ordenada donde la lnea de regresin se inserta al eje Y
- : El coeficiente de regresin poblacional (pendiente de la recta)
- : Error
SUPOSICIONES DE LA REGRESION LINEAL
1. Los valores de la variable independientes son fijos
2. La variable X se mide sin error (se desprecia el error de medicin en X)
3. Existe una subpoblacin de valores Y normalmente distribuido para cada valor
de X
4. La variancias de las sub poblaciones de Y son todas iguales
5. Todas las medias de las subpoblaciones de Y estn sobre la misma recta
6. Los valores de Y estn normalmente distribuidos y son estadsticamente
independientes
Los supuestos el 3 al 6 equivalen a decir que los errores son aleatorios, que se
distribuyen normalmente con media cero y variancia
Con los datos muestrales se tomar la siguiente ecuacin:
=
=
=
( )
=
El coeficiente de regresin ( ).- pendiente de la recta de la regresin, represente la
tasa de cambio de respuesta Y al cambio de una unidad en X
Si 0, se dice que no existe relacin lineal entre las dos variables
Ejemplo
Los datos siguientes muestran las ventas (en millones) de cajas y los gastos de
publicidad (en millones de dlares) para 7 marcas principales de refrescos:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
44
Marca Gastos de
publicidad
Ventas
de cajas
Coca cola 131.3 1929.2
Pepsi 92.4 1384.6
Kola real 60.4 811.4
Sprite 55.7 541.5
Inca cola 40.2 536.9
Concordia 29.0 535.6
7 up 11.6 219.5
a.- Trace un diagrama de dispersin para estos datos, con los gastos de publicidad
como variable independiente.
b.- Qu parece indicar este diagrama acerca de la relacin entre las dos variables?
trace una recta que pase por los datos, para aproximar una relacin lineal entre los
gastos de publicidad y las ventas.
c.- Aplique el mtodo de mnimos cuadrados para plantear la ecuacin estimada de
regresin
d.- Presente una interpretacin de la pendiente de esta ecuacin
Solucin:
Variable independiente: Gastos de publicidad
Variable dependiente: Ventas de cajas
Diagrama de dispersin.
El diagrama parece indicar que la relacin entre las variables es linealmente positiva.
Ahora encontraremos los valores de r,
Gastos de
Publicidad
Ventas de
cajas
x y xy 131.3 17 239.69 1929.2 3 721 812.64 253 303.96
92.4 8 537.76 1 384.6 1 917 117.16 127 937.04
60.4 3 648.16 811.4 658 369.96 49 008.56
55.7 3 102.49 541.5 293 222.25 30 161.55
40.2 1 616.04 536.9 288 261.61 21 583.38
29 841 535.6 286 867.36 15 532.4
11.6 134.56 219.5 48 180.25 2 546.2
Sumas 420.6 35 119.7 5 958.7 7 213 831.23 500 073.09
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
45
r =
[ ][ ]
r =
[ ][ ] = 0.97810014
Como r se aproxima a uno, entonces diremos que la relacin que hay entre las dos
variables es bastante fuerte o intensa.
La ecuacin que mejor se ajusta a los datos es una recta, como se aprecia en el
siguiente grfico.
=
=
= 14.42378282
=
= = - 15.42
Por lo tanto la ecuacin de la regresin lineal seria:
= - 15.42 + 14.424x
La interpretacin que tiene es solo matemtica, esto es el punto de corte con el
eje y
El valor que toma se interpreta como: por cada incremento en la variable
dependiente se espera una variacin de 14.424 en la variable dependiente
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
46
COEFICIENTE DE DETERMINACIN ( ).
En el ejemplo anterior r = 0.9781, el coeficiente de determinacin ser 0.9567,
luego pude decirse que 95.67% de la variacin en el nmero de cajas vendidas se
explica por la variacin en los gastos de publicidad.
PRUEBA DE SIGNIFICANCIA DEL COEFICIENTE DE CORRELACIN
Del ejemplo anterior, pruebe la hiptesis de que no existe correlacin en la poblacin.
Emplee 0.02 de nivel de significancia
Solucin
Planteamiento de hiptesis
0 (la correlacin en la poblacin es nula)
(la correlacin en la poblacin no es nula)
Regla de la decisin
Rechazar si: t t
Estadstico de prueba
t
=
= 10.5093
Se acepta la hiptesis alternativa, es decir existe relacin entre las variables en estudio
ERROR ESTNDAR DE LA ESTIMACIN:
Mide la dispersin de los valores observados, con respecto a la recta de regresin.
=
=
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
47
=
=
= 136.21
ESTIMACIN DE LOS INTERVALOS DE CONFIANZA
El error estndar de la estimacin es una medida vlida para utilizarla al fijar los
intervalos de confianza cuando el tamao de muestra es grande y de alguna forma la
dispersin con respeto a la recta de la regresin est distribuida de manera normal.
Un intervalo de confianza se determinar para:
1.- El valor medio de Y para un valor dado de X
2.- Un valor individual de Y para un valor dado de X
t (Syx)
( )
Donde
Y' = es el valor pronosticado para cualquier valor X seleccionado
X = es cualquier valor seleccionado de X
= es la media de X
n = en el nmero de observaciones
Syx = es el error estndar de la estimacin
t = es el valor de t tomado para n 2
Ejemplo
De acuerdo a los datos anteriores. Calcular los intervalos de confianza para la venta de
cajas de gaseosas cuando la inversin en publicidad es 100.00 (millones de dlares)
= es 1426.98 para un X igual a 100
= 60.0857 n = 7 Syx = 136.21 t (n 2) = t (7 -2) (0,05)= 2.571
1426.98
Marca
Gastos de
Publicidad
X
Ventas
de
Cajas
y
Rendimiento
Pronosticado
Desviaciones
y -
Desviaciones al
cuadrado
Coca cola 131.3 1929.2 1878.45 50.75 2575.56
Pepsi 92.4 1384.6 1317.35 67.25 4522.56
Kola real 60.4 811.4 855.78 - 44.38 1969.58
Sprite 55.7 541.5 787.99 - 246.49 60757.32
Inca cola 40.2 536.9 564.42 - 27.52 757.35
Concordia 29.0 535.6 402.87 132.73 17617.25
7 up 11.6 219.5 151.89 67.61 4571.11
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
48
1426.98 195.1291 = 1622.1091 y 1231.8509
Interpretacin.-
Cuando se invierte 100 millones de dlares en publicidad, se espera que la venta de
gaseosas est comprendida entre1622.1091 y 1231.8509 miles de cajas
Pero cuando a se trata de un valor individual la frmula es:
t(Syx)
( )
Ejemplo.
- Cuanto ser la venta de cajas de Inca cola, cuando esta compaa invierta 100
millones en publicidad:
1426.98
1426.98 1972.305y 881.655
Interpretacin.-
Con una probabilidad del 0,95 se puede afirmar que cuando la Inca Cola invierta 100
millones en publicidad sus ventas estarn comprendidas entre 1972.305 y 881.655
cajas.
RELACIN ENTRE COEFICIENTE DE CORRELACIN, COEFICIENTE DE DETERMINACIN
Y ERROR ESTANDAR DE ESTIMACIN
Un medio conveniente para mostrar la relacin entre estas tres medidas es la ANAVA,
recordemos que:
El error estndar de la estimacin mide cun cerca de la recta de regresin se
encuentra los valores reales. Cuando el valor es pequeo indica que las dos variables
estn relacionadas muy de cerca.
El coeficiente de correlacin mide la fuerza de la asociacin entre dos variables.
Cundo los puntos del diagrama de dispersin parecen cercanos a la lnea recta, se
observa que el coeficiente de correlacin tiende a ser grande. Luego el error estndar
de la estimacin y coeficiente de correlacin indican la misma informacin, pero
utilizan escalas diferentes.
El coeficiente de determinacin mide el porcentaje de la variacin de Y que se explica
por la variacin de X
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
49
ANLISIS DE VARIANCIA PARA LA REGRESIN LINEAL SIMPLE:
Cuando cada particin se asocia a una porcin correspondiente del total de grados de
libertad, la tcnica es conocida como anlisis de variancia (ANAVA), que generalmente
se presenta en un cuadro de la siguiente manera
A N A V A
Fuentes de
Variacin
Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medio
Prueba de
significacin
Significacin
estadstica
Regresin SC r =
1
Error SC e = ( ) = SC t SC r
n 2
Total SC t = ( )
n 1
La prueba de F evalua las hiptesis
Ho: 0 No existe una regresin lineal entre X e Y
Ha: Existe regresin lineal de Y en funcin de X
SUMA DE CUADRADOS DEL TOTAL (SCT)
Mide la dispersin (variacin total) en los valores observables de Y. Este trmino se
utiliza para el clculo de la variancia de la muestra.
SUMA DE CUADRADOS EXPLICADA (SUMA DE CUADRADOS DEBIDO A LA REGRESIN
(SCR)
Mide la variabilidad total en los valores observados de y en consideracin a la relacin
lineal entre X e Y
SUMA DE CUADRADOS RESIDUAL (Inexplicada, suma de cuadrados del error, SCE)
Mide la dispersin de los valores de Y observados respecto a la recta de la regresin Y
(es la cantidad que minimiza cuando se obtiene la recta de la regresin)
Fuentes de
Variacin
Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medio
Prueba de
significacin
Significacin
estadstica
Regresin 1
Error
(Residual)
Diferencia
n 2
Total SCY
n 1
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
50
Con los datos de nuestro ejemplo:
A N A V A
Fuentes de
Variacin
SC GL CM F Sign.
Estad.
Regresin 2048831.882 1 2048831.882 110.4244 **
Error 92770.7449 5 18554.1489
Total 2141530.417 6
F (1,5)= 6.61 (
16.26 (
Interpretacin: Realizado el anlisis de variancia (ANAVA) para la regresin se
encontr una alta significacin estadstica para la regresin, por lo tanto podemos
decir que existe asociacin entre ambas variables en estudio
=
= 1
=
= 1
= 0,9567 = 95.67%
El 95.67% de las variaciones de la venta de cajas de gaseosas (Y) es explicado por la
inversin que se hizo en publicidad (X)
r = = 0.9781 (Coeficiente de correlacin)
1 = 4.33% (Coeficiente de no determinacin)
El error estndar de la estimacin tambin puede ser calculado de la siguiente forma
S yx=
=
= 136.2136
Por ltimo como se observa conforme la Suma de Cuadrado del error disminuye esta
y por el contrario, conforme disminuye el error estndar se incrementa
El ANAVA de una regresin lineal puede ser calculado de la siguiente manera
y ( ) ( )
( ) ( )
1929,2 1878,5 851,2428 1077,9572 1161991,725 50,75 2575,5625 1027,2072 1055154,632
1384,6 1317,35 851,2428 533,3572 284469,9028 67,25 4522,5625 466,1072 217255,9219
811,4 855,78 851,2428 - 39,8428 1587,4487 - 44,38 1969,5844 4,5372 20,5861
541,5 787,99 851,2428 -309,7428 95940,6021 - 246,49 60757,3201 - 63,2528 4000,9167
536,9 564,42 851,2428 -314,3428 98811,3959 - 27,52 757,3504 - 286,8228 82267,3186
535,6 402,87 851,2428 -315,6428 99630,3771 132,73 17617,2529 - 448,3728 201038,1678
219,5 151,89 851,2428 -631,7428 399098,9654 67,61 4571,1121 - 699,3528 489094,3389
2141530,417
SC Total 92770,7449
SC Error 2048831,882
SC Regresin
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
51
A N A V A
Fuentes de variacin
Suma de cuadrados
Grados de libertad
Cuadrados medios
F
Regresin Debido a
[
]
1
Error Residual
(no explicada)
SC total
n
Total (corregida)
(
)
n
INTERVALOS DE CONFIANZA PARA
En muchos casos es de inters conocer entre que valores se encuentra el coeficiente
de regresin de la poblacin para un cierto grado de confianza fijada, este
procedimiento permite hallas los valores llamados lmites de confianza, as:
{ } 1
Donde
es el valor t tabular a nivel de significancia y n 2 grados de libertad
REGRESION PARABOLICA SIMPLE
La regresin parablica simple, se aplica a aquellos fenmenos que se observan que
presentan una concentracin de puntos inicialmente ascendentes y en seguida
descendentes (puede darse lo contrario). Esta regresin parablica es utilizada en gran
parte, por los economistas, en las funciones de utilidad, ingresos, etc.
La ecuacin ser
Ejemplo
Con los siguientes datos, haga un estudio de regresin parablica
29 23 841 24389 707281 667 19343 529 35 34 1225 42875 1500625 1190 41650 1156
29 26 841 24389 707281 754 21866 676
38 30 1444 54872 2085136 1140 43320 900
40 35 1600 64000 2560000 1400 56000 1225 Total 171 148 5951 210525 7560323 5151 182179 4486
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
52
Ecuaciones normales
Calcular:
148 = 5 . (1)
5151 = 171 (2)
182179 = 5951 . (3)
Trabajamos con ecuacin (1) y (2), multiplicando (1) por 34,2
148 = 5 . (1)
5151 = 171 (2)
Tendremos:
5061,6 = -171
5151 171
89,4 0 (4)
Trabajamos con la ecuacin (1) y (3) multiplicando la ecuacin (1) por 1190,2
148 = 5 . (1)
182179 = 5951 . (3)
Tendremos:
= - 5951
182179 5951
6029,4 0 (5)
Trabajamos con ecuacin (4) y (5)
89,4 (4)
6029,4 (5)
Tendremos:
619822,32
0 69919,2
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
53
Reemplazamos en ecuacin (4) y encontramos
89,4 (4)
89,4
89,4
102,8
102,8
Reemplazamos en ecuacin (1) y encontramos
148 = 5
148 = 5
148 = 5
148 = 5
5
5
5
Cul ser el valor esperado si X = 29
Ahora encontramos la varianza residual no explicada
( )
23 24,65 2,7225 34 32,0 2,00 4,0000 26 24,65 1,35 1,8225
30 33,34 11,1556 35 33,36 1,64 2,6896
Total 148 148,00 0,00 22,3902
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
54
= 4,4780
7,464 (corregida)
Tambin se puede cualcular usando la siguiente formula:
Reemplazando tenemos:
4,4703
Error estndar de la estimacin
2,1143
(Corregido)
Lmites de confianza para
( )
Cules sern los lmites de confianza, cuando el valor de X
24,65 (3,182)(2,7320)
( )
1
r =
r 0,9109
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
55
REGRESION Y CORRELACION EXPONENCIAL Y LOGARITMICA
Cuando las variables estudiadas presentan un crecimiento o decrecimiento aritmtico,
la regresin lineal es la ms adecuada, pero si hay un crecimiento o decrecimiento
geomtrico, se debe adoptar la regresin exponencial.
La funcin exponencial:
Se puede convertir en un funcin lineal cuando trabajamos con logaritmos, ya sean
neperianos o con base 10, dando una funcin logartmica
Log
Para la representacin grfica se debe utilizar papel semilogaritmico, cuando la
variable X, localizada en el eje horizontal o abscisa, se presenta en forma de progresin
aritmtica, mientras que en la ordenada, donde se ubica la variable Y, se expresa en
forma logaritmica, Si ambas variables tienen crecimiento geomtrico, la
representacin grfica se hace en papel logartmico.
Ejemplo:
Con los siguientes datos, calcule la regresin exponencial
Clculos para una regresin exponencial
log
log
2 3 4 0,47712 0,95424 0,22764 0,60768 4,05
4 6 16 0,77815 3,11261 0,60552 0,84063 6,93
5 12 25 1,07918 5,39591 1,16463 0,95710 9,06
7 24 49 1,38021 9,66147 1,90498 1,19005 15,50
12 45 144 1,65321 19,83855 2,73312 1,77241 59,21
Total 30 90 238 5,36787 38,96278 6,63588 5,36787 94,75
Nota: debe tenerse en cuenta que:
Las ecuaciones normales son:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
56
Reemplazando tenemos:
5,36787 = 5 log . (1)
38,96278 (2)
Eliminamos log multiplicando la ecuacin (1) por 6 y lo restamos de la segunda
ecuacin
- 32,20722 = - 30 log . (1)
38,96278 (2)
6,75556 = 58 log
58 log = 6,75556
log =
log 47
antilog 0,11647
Ahora reemplazamos en la ecuacin (1) luego tenemos:
5,36787 = 5 log
5,36787 = 5 log
5 log = 5,36787
5 log = 5,36787
5 log = 5,36787 3,4941
5 log = 1,87377
log =
log
antilog 0,11647
Reemplazamos en la ecuacin general
log
log
Estimar cuando X = 10, tendremos
log
log
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
57
Log
= antilog 1,53947
= 34,63
Tambin podemos calcular y de la siguiente manera:
log
log
log 0,11647
antilog de 0,11647
1,3075
log
log =
log = 0,37475
2,37
Varianza residual y el error estndar de la estimacin
( )
log log log log ( )
0,47712 0,60768 0,13056 0,0170459
0,77815 0,84063 0,06248 0,0039038
1,07918 0,95710 0,12208 0,0161493
1,38021 1,19005 0,19016 0,0361608
1,65321 1,77241 0,13056 0,0142086
Total 5,36787 5,36787 0,0000 0,0874684
0,01749368
Este valor tambin se puede calcular de la siguiente manera
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
58
Coeficiente de correlacin al cuadrado
Donde
Luego:
0,9012
Tambin:
r
[ ][ ]
r
[ ][ ]
r
ANLISIS DE REGRESIN MLTIPLE
Estudia la influencia de dos o ms variables independientes sobre la dependencia de
otra variable dependiente.
La ecuacin ser:
= bo + b1X1 +b2X2
X 1, X2 = son las dos variables independientes
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
59
bo = es la interseccin en Y, es decir, la ordenada con el eje del punto de
interseccin con el eje Y
b1= es el cambio neto en Y por cada cambio unitario de X1 manteniendo x2
constante (o sea sin cambios). Se denomina coeficiente de regresin
parcial, coeficiente de regresin neta, ms brevemente, coeficiente
de regresin.
b2 = Es el cambio neto en Y por unidad de cambio en X2, manteniendo X1
constante (sin cambios). Tambin se denomina coeficiente de
regresin parcial o simplemente coeficiente de regresin.
La ecuacin de la regresin mltiple se puede ampliar a ms variables independientes.
Y' = bo +b1X1 + b2X2 +b3X3 ++bkXk
El mtodo de mnimos cuadrados, minimiza la suma de cuadrados de las desviaciones
verticales con respecto a la lnea de la regresin, principios que se cumple para la
regresin lineal como para la regresin mltiple.
En el caso de dos variables independientes es necesario resolver las siguientes
ecuaciones: Y = na + b1X1 +b2X2
X1Y = boX1 + b1 + b2X1X2
X2Y = boX2 + b1X1X2 + b2
Este sistema de ecuaciones se puede resolver de diferentes maneras, una de ellas es
empleando matrices
Ejemplo.-
El director de personal de una empresa que tiene un importante grupo de
vendedores, debe entrevistar y seleccionar nuevo personal. Ha diseado una prueba
que ayuda a seleccionar los mejores aspirantes para su personal de ventas A fin de
verificar la validez de una prueba como instrumento de prediccin de las ventas
semanales. Eligi al azar a cinco vendedores y aplic la prueba a cada uno. Los
importes de ventas semanales se aparearon con el puntaje obtenido en la prueba y
con la calificacin que se les hizo a su desempeo
1.- Cul ser la ecuacin de regresin mltiple?
2. Supngase que un solicitante de empleo en el departamento de ventas tuvo un
puntaje de 6,0 en la prueba y una calificacin de desempeo de 3,8. Cules son las
ventas semanales estimadas del solicitante?
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
60
Vendedor Ventas semanales
(en miles de soles) Y
Puntaje de la
Prueba Calificacin de
Desempeo Juan 5 4 2
Andrea 12 7 5
Ral 4 3 1
Steffany 8 6 4
Eduardo 11 10 6
Solucin:
1.- La ecuacin podr ser calculada de la siguiente forma:
[
]
[
] =[
]
Total
Reemplazamos en el arreglo matricial
[
]
[
] =[
]
Encontramos determinante de la matriz 3x3
[
] | |
Procedemos a invertir la matriz cuadrada 3x3
*
+ = 320
*
+ = 120
*
+ = 120
*
+ =120
*
+ = 86
*
+ = 110
*
+ = 120
*
+ = 110
*
+ = 150
[
]
Y
5 4 2 16 4 8 20 10
12 7 5 49 25 35 84 60
4 3 1 9 1 3 12 4
8 6 4 36 16 24 48 32
11 10 6 100 36 60 110 66
40 30 18 210 82 130 274 172
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
61
Luego
[
] [
]
=[
]
Calculamos los coeficientes de la regresin mltiple
[ ( ) ]
= 3,5
= [( ) ]
= 0,975
= [ ( ) ]
= 2,875
Luego la ecuacin ser igual a:
= bo + b1X1 + b2X2
= 3, 5 + ( 0,975) X1 + 2,875X2
Y' = 3,5 + (0,975)6,0 + 2,875(3,8)
Y' = 8,575 miles de nuevos soles.
ERROR ESTNDAR MLTIPLE DE LA ESTIMACIN:
El error estndar de la estimacin en el anlisis de la regresin mltiple mide el error
para valores de Y con respecto al plano de regresin si es que intervienen dos variables
independientes.
Sy.12 =
Puntaje
de
Prueba
Calificacin
de
Desempeo
Ventas
semanales
(miles de
soles)
Ventas
semanales
Pronosticadas
(miles de soles)
( )
Juan 4 2 5 5,35 0,35 0,1225
Andrea 7 5 12 11,05 0,95 0,9025
Ral 3 1 4 3,45 0,55 0,3025
Steffany 6 4 8 9,15 1,15 1,3225
Eduardo 10 6 11 11,00 0,00 0,0000
Total 0,00 2,6500
Sy.12 =
= 1,151 miles de soles
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
62
COEFICIENTE DE CORRELACIN MULTIPLE. (r)
Es la medida de la fuerza de la asociacin entre la variable dependiente y dos o ms
variables independientes
Este coeficiente toma valores entre 0 y a 1 inclusive, siempre es positiva Ejemplo Un
coeficiente de 0,94 indica una asociacin muy fuerte entre las variables dependiente e
independiente. Un coeficiente de 0,09 revela una relacin muy dbil
Correlacin Correlacin Correlacin pequea moderada grande
0 0,50 1,00
sin correlacin correlacin perfecta
COEFICIENTE DE DETERMINACIN MLTIPLE (r2).-- Proporcin (porcentaje) de la
variacin total en la variable dependiente Y que se explica por medio del conjunto de
variables independientes
COEFICIENTE DE NO DETERMINACIN MLTIPLE (1 r2).- mide la proporcin de la
variacin total en la variable dependiente Y, que no se debe a las variables
independiente. A N A V A
Fuentes
de
Variacin
Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medio
Prueba de
significacin
Significacin
estadstica
Regresin K Error n Total n 1
El coeficiente de determinacin se puede calcular de la siguiente manera:
Error estndar de la estimacin mltiple ser igual a:
Sy.12 =
Total
y ( ) ( )
( ) ( )
5 5,39 8 3 9 0,35 0,1225 2,65 7,0225 12 11,05 8 4 16 0,95 0,9025 3,05 9,3025
4 3,45 8 4 16 0,55 0,3025 4,55 20,7025 8 9,15 8 0 0 1,15 1,3225 1,15 1,3225 11 11 8 3 9 0 0 3 9
40 40 0 50 0 2,65 0 47,35
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
63
A N A V A
Fuentes de variacin SC GL CM F SIG
Regresin 47.35 2 23.675 17.87 N.S.
Error 2.65 2 1.325
Total 50 4
F(2,2)= 19,00 ( 99,50 (
Coeficiente de determinacin:
=
%