estudios profesionales para ejecutivos - epe curso

Estadística para Ingeniería 2 (CE55), ciclo 2013-1

Item Type info:eu-repo/semantics/learningObject

Authors Huamán, Enit; Tarazona, Enver

Publisher Universidad Peruana de Ciencias Aplicadas (UPC)

Rights info:eu-repo/semantics/closedAccess

Download date 21/07/2022 05:07:14

Link to Item http://hdl.handle.net/10757/292963

http://hdl.handle.net/10757/292963

1

Estudios Profesionales para Ejecutivos - EPE

CURSO : Estadística para Ingeniería 2 ÁREA : Ciencias TIPO DE MATERIAL : Separata del curso

AUTORES : Enit Huamán Cotrina

Enver Tarazona

COORDINADOR DEL : Enit Huamán Cotrina CURSO CICLO : 2013-1 VERSIÓN : 01

Copyright : Universidad Peruana de Ciencias Aplicadas - UPC

2

Capítulo 1

Muestreo y distribuciones muestrales

1.1 Introducción

En este capítulo se indicara como usar el muestreo aleatorio simple para seleccionar una

muestra a partir de una población y como se pueden emplear los datos obtenidos para

calcular las estimaciones puntuales para una media, variancia y proporción

poblacionales. Se describe el concepto de distribución muestral, el teorema del límite

central y los diferentes métodos de muestreo probabilísticos y no probabilísticos.

1.2 Muestreo aleatorio simple

Existen diferentes métodos para seleccionar una muestra a partir de una población; uno

de los más comunes es el muestreo aleatorio simple. La definición de este método y el

proceso de selección de la muestra dependen de si la población es finita o infinita.

Muestreo para poblaciones finitas

Una muestra aleatoria simple de tamaño n de una población finita de tamaño N , es una

muestra seleccionada de tal manera que cada muestra posible de tamaño n tenga la

misma probabilidad de ser seleccionada.

Para seleccionar una muestra aleatoria simple de una población finita es necesario

enumerar los elementos de la población. Los elementos se eligen usando números

aleatorios generados a partir de una tabla o computadora hasta completar el tamaño de

muestra requerido.

Al elegir una muestra aleatoria simple es posible que se repitan algunos de los números

aleatorios generados. Si se decide elegir solamente una vez cada elemento en la

muestra, todos los números aleatorios ya utilizados no se vuelven a tomar en cuenta. La

selección de la muestra en esta forma se conoce como muestreo sin reemplazo. Si se

decide seleccionar los elementos de la muestra incluyéndolos más de una vez se

realizaría un muestreo con reemplazo. El muestreo con reemplazo es una forma válida

de identificar una muestra aleatoria simple. Sin embargo lo que se usa con mayor

frecuencia es el muestreo sin reemplazo. Cuando se mencione muestreo aleatorio simple

se asumirá que el muestreo se hizo sin reemplazo.

3

Muestreo para poblaciones infinitas

Si la población es infinita no es posible usar un procedimiento de selección con

números aleatorios por que es imposible hacer una lista de sus elementos. En este caso

se debe determinar un procedimiento de selección para seleccionar los elementos en

forma independiente y evitar que algunos elementos tengan mayores probabilidades de

ser elegidos.

Una muestra aleatoria simple de una población infinita es aquella que se selecciona de

tal forma que se satisfacen las siguientes condiciones:

Cada elemento seleccionado proviene de la misma población.

Cada elemento se selecciona en forma independiente.

1.3 Estimación puntual

Para estimar el valor de un parámetro poblacional se utiliza una característica

correspondiente en la muestra que se denomina estadístico.

Ejemplo 6.1: Los ingenieros A y B desean evaluar cierta marca de dispositivos

electrónicos por lo que seleccionaron, de forma separada, muestras aleatorias simples de

100 dispositivos electrónicos. La duración (en horas) de los dispositivos seleccionados

se muestra en la hoja Dispositivos.

Suponga que los ingenieros desean estimar la duración promedio de todos los

dispositivos electrónicos de esta marca (media poblacional ), una medida de

dispersión para la duración de estos dispositivos (por ejemplo la variancia poblacional 2 ) y la proporción de dispositivos electrónicos con una duración menor a las 25 horas

(proporción poblacional p ). En este caso deben utilizar los estadísticos: x la media

muestral, 2s la variancia muestral y p la proporción muestral, respectivamente. Los

resultados obtenidos por el ingeniero A son:

Duración A

Media 39.7 Varianza de la muestra 73.1941414

Proporción 0.04

Tamaño de muestra 100

Los valores numéricos obtenidos para x , 2s y p se les llama estimaciones puntuales

de los parámetros. Es de esperar que ninguna de las estimaciones puntuales sea

exactamente igual al parámetro correspondiente. El valor absoluto de la diferencia entre

una estimación puntual insesgada y el parámetro poblacional correspondiente se llama

error de muestreo.

4

Ejemplo 6.2: Para la media, varianza y proporción muestral los errores de muestreo

son x , 2 2s y p p , respectivamente.

1.4 Introducción a las distribuciones muestrales

Ejemplo 6.3: Las estimaciones puntuales obtenidas por el ingeniero B son:

Duración B

Media 37.05 Varianza de la muestra 62.085443

Proporción 0.075

Tamaño de muestra 100

Estos resultados indican que se han obtenido diferentes valores para las estimaciones

puntuales utilizando los datos obtenidos por el ingeniero B. Suponga que se lleva a cabo

el mismo proceso de selección de una nueva muestra aleatoria simple de 100

dispositivos electrónicos, una y otra vez, calculando en cada ocasión las estimaciones

puntuales de la media, varianza y proporción. De este modo se puede empezar a

identificar la variedad de valores que pueden tener estas estimaciones.

En el curso anterior se definió una variable aleatoria como una descripción numérica del

resultado de un experimento. Si se considera que un experimento es el proceso de elegir

una muestra aleatoria simple, la media muestral x es la descripción numérica del

resultado del experimento. En consecuencia x es una variable aleatoria y por lo tanto

tiene valor esperado, variancia y una distribución de probabilidad. A la distribución de

x se le conoce como distribución muestral de la media. El conocimiento de esta

distribución muestral y de sus propiedades permitirá realizar afirmaciones

probabilísticas acerca de lo cercano que se encuentre la media muestral de la media

poblacional.

1.5 Distribución muestral de la media

El objetivo de esta sección es describir las propiedades de la distribución muestral de la

media incluyendo el valor esperado, desviación estándar y la forma de su distribución.

Tal como se menciono, el conocimiento de la distribución muestral de x permitirá

hacer afirmaciones probabilísticas acerca del error de muestreo incurrido cuando se

utiliza x para estimar .

Valor esperado:

Desviación estándar:

Población finita Población infinita

1

N n

Nn

n

El factor 1

N n

N

se conoce como factor de corrección para población finita.

5

Teorema central del límite

Cuando se desconoce la distribución de la población se utiliza uno de los teoremas más

importantes de la estadística: el teorema del límite central. La distribución muestral del

a media se puede aproximar mediante una distribución de probabilidad normal siempre

que el tamaño de muestra sea grande. Se puede suponer que la condición de muestra

grande se cumple para muestras aleatorias simples de por lo menos 30 elementos. Sin

embargo, si la población tiene distribución normal, la distribución muestral de x tiene

una distribución de probabilidad normal para cualquier tamaño de muestra.

En resumen, si se utiliza una muestra aleatoria simple grande, 30n , el teorema del

límite central permite considerar que la distribución muestral de x se puede aproximar

con una distribución de probabilidad normal. Cuando la muestra aleatoria simple es

pequeña, 30n , solo se puede considerar que la distribución muestral de la media es

normal si se supone que la población tiene una distribución de probabilidad normal.

1.6 Distribución muestral de la proporción

Para determinar lo cercano que esta la proporción muestral p de la proporción

poblacional p es necesario comprender las propiedades de la distribución muestral de

la proporción p , se valor esperado, desviación estándar y la forma de su distribución.

Valor esperado: p

Desviación estándar:

Población finita Población infinita

1

1

p p N n

n N

1p p

n

Como en el caso de x se observa que la diferencia entre las ecuaciones para

poblaciones finitas e infinitas se hace despreciable si el tamaño de la población finita es

grande con respecto al tamaño de muestra por lo que se sigue la misma regla general

mencionada para la media muestral en la sección anterior.

Para conocer la forma de la distribución muestral de la proporción se debe aplicar el

teorema del límite central para aproximar la distribución muestral con una distribución

de probabilidad normal, siempre que el tamaño de muestra sea grande. En el caso de p

se puede considerar que el tamaño de la muestra es grande cuando 50n .

1.7 Otros métodos de muestreo

Se ha descrito el procedimiento para el muestreo aleatorio simple y las propiedades de

las distribuciones muestrales de x y p cuando se usa ese muestreo. Sin embargo, el

muestreo aleatorio simple no es el único método de muestreo con el que se cuenta.

Existen otras alternativas que en algunos casos presentan ventajas sobre éste.

6

Muestreo aleatorio estratificado

En este tipo de muestreo primero se divide a los elementos de la población en grupos

llamados estratos, de tal manera que cada elemento de la población pertenece a uno y

solo un estrato. La base de formación de los estratos, por ejemplo, género, nivel socio

económico, grado de instrucción, etc., queda a discreción de quien diseña la muestra.

Sin embargo los mejores resultados se obtienen cuando los elementos de cada estrato

son tan semejantes como sea posible. Después de formar los estratos se toma una

muestra aleatoria simple de cada uno de ellos.

Muestreo por conglomerados

En este tipo de muestreo se divide primero a los elementos de la población en conjuntos

separados llamados conglomerados. Cada elemento de la población pertenece a uno y

solo a un grupo. A continuación se toma una muestra aleatoria simple de los

conglomerados. Todos los elementos dentro de cada conglomerado muestreado forma la

muestra. El muestreo por conglomerados tiende a proporcionar los mejores resultados

cuando sus elementos son heterogéneos o diferentes. Una de las principales aplicaciones

del muestreo por conglomerados es el muestre por áreas, en el que los conglomerados

son las manzanas de un distrito u otras áreas bien definidas.

Muestreo sistemático

En algunos casos, en especial cuando es hay grandes poblaciones, puede ser difícil la

elección de una muestra aleatoria simple cuando se determina primero un número

aleatorio y después se busca en la lista de elementos de la población hasta encontrar el

elemento correspondiente. Una alternativa al muestreo aleatorio simple es el muestreo

sistemático.

Suponga que se desea elegir una muestra de tamaño 50 de una población con 5000

elementos, se podría muestrear un elemento de cada 5000 50 100 en la población.

Una muestra sistemática en este caso implica seleccionar al azar uno de los primeros

100 elementos de la lista de la población. Se identifican los demás elementos de la

muestra comenzando por el primero obtenido al azar y a continuación seleccionando

cada 100º elemento. Como que el primer elemento se seleccionó de manera aleatoria,

generalmente se asume que un muestreo sistemático tiene las propiedades de una

muestra aleatoria simple.

Muestreo por conveniencia

Los métodos de muestreo que se han descrito se llaman técnicas de muestreo

probabilístico. Los elementos seleccionados de la población tienen una probabilidad

conocida de ser incluidos en la muestra. La ventaja del muestreo probabilístico es que la

distribución del estadístico se puede identificar. Se pueden usar fórmulas para

determinar las propiedades de la distribución muestral que pueden ser usadas para

7

establecer afirmaciones probabilísticas acerca de posibles errores de muestreo asociados

con los resultados de la muestra.

El muestreo por conveniencia es una técnica de muestreo no probabilístico. Como su

nombre lo indica, la muestra se identifica principalmente por conveniencia. Se

incorporan elementos en la muestra sin probabilidades preestablecidas o conocidas de

selección. Un profesor que lleva a cabo una investigación universitaria puede usar

alumnos voluntarios para formar una muestra, tan solo porque dispone fácilmente de

ellos y participan como elementos a un costo pequeño o nulo.

Muestreo por juicio

Otra técnica de muestreo no probabilístico es el muestreo por juicio. En este método la

persona más capaz en el tema del estudio selecciona a los elementos de la población que

se siente son los más representativos de esa población. Con frecuencia, este método es

una manera relativamente fácil de seleccionar una muestra. Un reportero puede

muestrear a dos o tres congresistas si considera que ellos reflejan la opinión general de

todos los demás congresistas. Sin embargo la calidad de los datos muestrales depende

del juicio de la persona que eligió la muestra.

8

Capítulo 2

Estimación por intervalos

2.1 Introducción

Una estimación por intervalo de un parámetro poblacional se construye al restar y

sumar un valor, denominado margen de error, a una estimación puntual. Todas las

estimaciones por intervalo que se desarrollan en este capítulo serán de la forma:

Estimación puntual ± Margen de error

La inclusión del margen de error proporciona la información de precisión acerca de la

estimación. Las distribuciones muestrales de x y p que se presentaron en el capítulo

anterior son importantes en la obtención de la estimación respectiva por intervalo para

la media y proporción poblacionales.

2.2 Error muestral

En general, la diferencia en valor absoluto de entre un estimador puntual insesgado y el

parámetro al cual estima se conoce como error de muestreo. Para el caso de la media

muestral x que estima a y la proporción muestral p que estima a p , los errores de

muestreo se definen como:

Error de muestreo = x

Error de muestreo = p p

En la práctica no se puede determinar el valor del error muestral por que no se conoce

exactamente el valor del parámetro poblacional. Sin embargo, la distribución de

muestreo del estadístico se puede usar para hacer declaraciones de probabilidad acerca

de este error.

2.3 Nivel de confianza

El nivel de confianza es la probabilidad a priori de que el intervalo a calcular contenga

al verdadero valor del parámetro. Si un procedimiento de estimación por intervalos es

tal que en el 95% de los intervalos construidos se encuentra el parámetro poblacional, se

dice que la estimación por intervalo está determinada con un 95% de confianza. El nivel

de confianza expresado como un valor decimal recibe el nombre de coeficiente de

confianza.

http://es.wikipedia.org/wiki/Probabilidad

http://es.wikipedia.org/wiki/Intervalo_de_confianza

9

2.4 Estimación por intervalo de una media

poblacional

Caso 1: Variancia poblacional conocida

El procedimiento para estimar por intervalo una media poblacional suponiendo que la

población tiene distribución normal y que se conoce la variancia poblacional 2 es:

Población infinita

1 2 1 2x z x zn n

( ) ( )

√

Población finita

1 2 1 21 1

N n N nx z x z

N Nn n

( ) ( )

√ √

donde x es la media muestral, 1 es el coeficiente de confianza, la desviación

estándar poblacional, n el tamaño de muestra, N el tamaño de la población y 1 2z es

el valor de distribución normal estándar que deja una probabilidad acumulada de

1 2 .

Ejemplo 2.1: Un proceso de producción es implementado de tal forma que el tiempo

de producción por artículo es una variable aleatoria con desviación estándar 1.41

minutos. Suponga que se decide hacer algunos cambios de modo que el tiempo medio

de producción disminuya; la variancia sin embargo, se sabe que permanecerá constante.

Hechos los cambios, se toma una muestra aleatoria de 20 artículos y se registran sus

tiempos de producción con los cuales se obtiene un tiempo medio muestral de 9.45

minutos. Estime mediante un intervalo de confianza del 95% el tiempo medio de

producción por artículo.

Se tiene: 1.41 , 40n , 9.45x y 1 0.95 .

0.975 0.975x z x zn n

1.41 1.419.45 1.96 9.45 1.96

20 20

8.83 10.07

10

El intervalo anterior brinda un 95% de confianza de contener el tiempo medio de

producción por artículo.

Caso 2: Variancia poblacional desconocida

Si no existe base suficiente para suponer que se conoce la desviación estándar de la

población , se utiliza la desviación estándar muestral s . En estas condiciones el

procedimiento de estimación por intervalo se basa en una distribución de probabilidad

conocida como distribución t.

La distribución t es una familia de distribuciones de probabilidad que depende de un

parámetro conocido como los grados de libertad. A medida que aumentan la cantidad

de grados de libertad, la diferencia entre la distribución t y la distribución de

probabilidad normal estándar se hace más y más pequeña.

El procedimiento para estimar por intervalo una media poblacional suponiendo que la

población tiene distribución normal y que se conoce la variancia poblacional 2 es:

Población infinita

1, 2 1, 2n n

s sx t x t

n n

( ) ( )

√

Población finita

1, 2 1, 21 1

n n

s N n s N nx t x t

N Nn n

( ) ( )

√ √

donde x es la media muestral, 1 es el coeficiente de confianza, s la desviación

estándar muestral, n el tamaño de muestra, N el tamaño de la población y 1, 2nt es el

valor de la distribución t con 1n grados de libertad que deja una probabilidad de 2

hacia la derecha.

Ejemplo 2.2: Cuando funciona correctamente, un proceso produce frascos de champú

cuyo contenido promedio es 200 gramos. Los datos en la hoja Champú corresponden al

contenido, en gramos, de una muestra aleatoria de 9 frascos seleccionadas a partir de un

lote. Asumiendo que la distribución del contenido de los frascos de champú tiene

distribución normal calcule un intervalo de confianza del 98% para el contenido medio

de champú por frasco.

11

Se tiene: 9n y 1 0.98 . Con los datos de la muestra: 203.56x y 6.1260s .

8,0.01 8,0.01

s sx t x t

n n

6.1260 6.1260203.56 2.896 203.56 2.896

9 9

197.64 209.47

El intervalo anterior brinda un 98% de confianza para el contenido medio de champú

por frasco. El intervalo de confianza para una media poblacional también se puede

obtener directamente con Excel y Minitab.

Contenido

Media 203.555556

Nivel de confianza (98.0%) 5.91456245

Límite Inferior 197.640993

Límite Superior 209.470118

T de una muestra: Contenido Media del

Error

Variable N Media Desv.Est. estándar IC de 98%

Contenido 9 203.56 6.13 2.04 (197.64, 209.47)

Determinación del tamaño de la muestra

Si se ha seleccionado un margen de error deseado antes de realizar el proceso de

muestreo, se pueden aplicar los procedimientos de esta sección para determinar el

tamaño de muestra necesario. Sea E el error máximo de muestreo, es decir

1 2E z

n

Despejando n se obtiene la siguiente fórmula para el tamaño de muestra:

2 2

1 2

2E

zn

En la ecuación anterior el valor de E es el margen de error que el usuario está dispuesto

a aceptar y el valor de 1 2z se obtiene del nivel de confianza usado para construir el

intervalo. Aunque se debe tomar en cuenta la preferencia del usuario, lo que se elige con

mayor frecuencia es un 95% de confianza.

12

Por último, para aplicar la fórmula del tamaño de muestra se requiere conocer el valor

de la desviación estándar poblacional, lo que en la mayoría de casos no se cumple. Sin

embargo, podemos aplicar dicha fórmula si contamos con un valor preliminar o valor de

planeación de . En la práctica se puede optar por uno de los siguientes

procedimientos:

Usar la desviación estándar calculada en una muestra elegida anteriormente de la

misma población.

Llevar a cabo un estudio piloto para seleccionar una muestra preliminar de

elementos. La desviación estándar muestral de ella se puede usar como el valor de

planeación de .

Dividir el rango muestral entre cuatro y usar el resultado como una aproximación

de la desviación estándar poblacional.

Ejemplo 2.3: Un fabricante produce anillos para los pistones de un motor de

automóvil. Se sabe que el diámetro de estos anillos tiene distribución aproximadamente

normal con una desviación estándar igual a 0.01 mm. Suponga que se desea realizar una

estimación del diámetro promedio de los anillos producidos al 98% de confianza y con

un margen de error de 0.005 mm. ¿Qué tamaño de muestra se requiere para cumplir con

las condiciones anteriores?

222 2

0.99

2 2

2.33 0.0121.7156 22

E 0.005

zn

anillos

2.5 Estimación por intervalo de una proporción

poblacional

El empleo de la distribución normal como aproximación de la distribución muestral de

p se basa en la condición de muestras grandes. Se usará la distribución muestral de p

para hacer aseveraciones probabilísticas acerca del error muestral siempre que se use

esta proporción muestral para estimar la proporción poblacional. El intervalo de

confianza para una proporción poblacional es:

1 2 1 2

ˆ ˆ ˆ ˆ1 1ˆ ˆ

p p p pp z p p z

n n

( ) ( )√ ( )

donde p es la proporción muestral, 1 es el coeficiente de confianza, n el tamaño

de muestra y 1 2z es el valor de distribución normal estándar que deja una

probabilidad acumulada de 1 2 .

13

Ejemplo 2.4: Las compañías de seguros automovilísticos están analizando la

posibilidad de aumentar las tarifas para las personas de género masculino que usan

teléfonos mientras conducen. Una compañía especializada asegura que los conductores

de sexo masculino tienen esta actitud en mayor proporción que los conductores de sexo

femenino. Una muestra aleatoria de 350 conductores hombres permitió observar que 70

hombres usaban teléfonos mientras conducían. Con un nivel de confianza del 99%,

¿Qué puede afirmarse sobre la proporción de hombres que usan teléfonos mientras

conducen?

Se tiene: 350n , 70

ˆ 0.2350

p y 1 0.99 .

n

ppZpp

n

ppZp

ˆ1ˆˆ

ˆ1ˆˆ 995,0995,0

0.2 1 0.2 0.2 1 0.20.2 2.575 0.2 2.575

350 350p

0.145 0.255p

El intervalo anterior brinda un 99% de confianza de contener la proporción de hombres

que usan teléfonos mientras conducen. El intervalo de confianza para una proporción

poblacional también se puede obtener directamente con Minitab.

Prueba e IC para una proporción Muestra X N Muestra p IC de 99%

1 70 350 0.200000 (0.144926, 0.255074)

Uso de la aproximación normal.

Determinación del tamaño de la muestra

Para determinar el tamaño de muestra necesario para obtener una estimación de una

proporción poblacional con determinado margen de error o nivel de precisión. Los

argumentos usados son muy parecidos a los utilizados en la determinación del tamaño

de muestra con el cual se estima una media poblacional. Sea E el margen de error

deseado, es decir

1 2

1E

p pz

n

Despejando n se obtiene la siguiente fórmula para el tamaño de muestra:

2

1 2

2

1

E

z p pn

14

En esta ecuación el usuario debe especificar el margen de error deseado E y el nivel de

confianza. Como se desconoce la proporción poblacional, la fórmula requiere de un

valor de plantación para p . En la práctica este valor se puede elegir mediante uno de

los siguientes procedimientos:

Usar la proporción calculada en una muestra elegida anteriormente de la misma

población.

Llevar a cabo un estudio piloto para seleccionar una muestra preliminar de

elementos. La proporción muestral de ella se puede usar como el valor de

planeación para p .

Usar el juicio para elegir el mejor valor de p .

Si no se aplica ninguna de las alternativas anteriores, usar 0.5p .

Ejemplo 2.5: Uno de los resultados de un sondeo de opinión indica que el 35% de

limeños está de acuerdo con que se firme el TLC con Estados Unidos de Norteamérica.

Suponga que se decide realizar un nuevo sondeo cuyos resultados tenga un margen de

error máximo del 3% y que el nivel de confianza sea del 92%. ¿De qué tamaño deberá

ser la muestra de la investigación para que cumpla con las condiciones planteadas?

2 20.96

2 2

1 1.7507 0.35 0.65774.75 775

E 0.03

z p pn

limeños.

2.6 Estimación por intervalo de una variancia

poblacional

En muchas situaciones reales, como el control de calidad en procesos de producción, se

necesita estimar el valor de la variancia o desviación estándar poblacional. El

procedimiento para realizar la estimación por intervalo, suponiendo que la población

tiene distribución normal, es:

Variancia poblacional

2 2

2

2 2

1; 2 1;1 2

1 1

n n

n s n s

Desviación estándar poblacional

2 2

2 2

1; 2 1;1 2

1 1

n n

n s n s

donde n es el tamaño de muestra, 2s la variancia poblacional, s la desviación estándar

poblacional, 1 es el coeficiente de confianza, 2

1; 2n y 2

1;1 2n son los valores de

la distribución Chi-cuadrado con 1n grados de libertad que dejan una probabilidad

hacia la derecha de 2 y 1 2 respectivamente.

Ejemplo 2.6: Suponga que en el Ejemplo 7.2 se desea obtener un intervalo para la

desviación estándar del contenido de los frascos de champú al 98% de confianza.

Entonces:

15

2 2

2 2

8;0.01 8;0.99

1 1n s n s

2 29 1 6.1260 9 1 6.1260

20.0902 1.6465

3.8657 13.5033

El intervalo anterior brinda un 98% de confianza de contener para la desviación

estándar del contenido de los frascos de champú. El intervalo de confianza para una

desviación estándar poblacional también se puede obtener directamente con Minitab.

Prueba e IC para una desviación estándar: Contenido Método

El método estándar se utiliza sólo para la distribución normal.

El método ajustado se utiliza para cualquier distribución continua.

Estadísticas

Variable N Desv.Est. Varianza

Contenido 9 6.13 37.5

Intervalos de confianza de 98%

IC para IC para

Variable Método Desv.Est. varianza

Contenido Estándar (3.87, 13.50) (14.9, 182.3)

Ajustado (4.26, 10.52) (18.2, 110.7)

2.7 Intervalo de confianza para el cociente de

varianzas poblacionales 2

2

2

1 /

Si S21 y S

22 son las varianzas de muestras independientes de tamaño n1 y n2 de

poblaciones normales respectivamente, entonces un intervalo de confianza para 2

2

2

1 / con un nivel de confianza del ( 1 ) 100%:

)2/,1,1(2

2

2

1

2

2

2

1

)2/,1,1(

2

2

2

1

12

211

.1

.

nn

nn

FS

S

FS

S

Ejemplo:

Una compañía tiene una política singular relativa a los bonos de fin de año

destinados al personal gerencial de bajo rango (los bonos son expresados como

un porcentaje del salario anual). El director de personal considera que el sexo del

empleado influye en los bonos recibidos, para esto toma muestras de 16 mujeres

y 25 hombres que desempeñan cargos gerenciales y registra los porcentajes del

salario anual percibido obteniéndose los datos siguientes:

16

Mujeres Hombres

9,8 11,9 9,0 6,9 10,4 9,6 12,0 8,9 9,8

8,0 6,7 9,3 8,7 9,7 10,4 7,9 12,0 10,1

8,4 7,7 9,0 7,6 8,7 11,2 9,7 9,4 9,4

7,7 6,2 8,4 9,2 9,3 8,8 9,0 10,0 9,2

8,9 10,2 8,7 9,2 9,0

Calcule un intervalo de confianza del 95% para la razón de varianzas de los

porcentajes de salario anual de las mujeres y los hombres.

Solución:

Calculamos los estadísticos:

Mujeres Hombres

x 8,4063 9,660 F(15, 24, 0.025) = 2.4374

s 1,3718 0,9883 F(24, 15, 0.025) = 2.7007

n 16 25

Reemplazando los valores en la fórmula:

)7007.2()9883.0(

)3718.1(

4374,2

1

)9883.0(

)3718.1(2

2

2

2

2

1

2

2

2

1

2

2

0.7905 5.2033

Interpretación: Con 95% de confianza, de 0,7905 a 5,2033 se encontrará el

cociente de las varianzas de los porcentajes de salario anual de las mujeres y

los hombres.

2.8 Intervalo de confianza para diferencia de

medias poblacionales (µ1-µ2) con muestras

independientes

Sean 1 2x y x las medias de muestras aleatorias independientes de tamaños n1 y

n2 tomadas de poblaciones con varianzas poblacionales conocidas. Cuando las

muestras son grandes ó las poblaciones son normales, un intervalo de confianza

para la diferencia de medias poblacionales (1 - 2) puede ser calculado según

cada uno de los siguientes casos:

Caso 1: Cuando las muestras provienen de poblaciones Normales y

las varianzas poblacionales 2

1 y 2

2 son conocidas

Si 21 xyx son las medias de muestras aleatorias independientes de tamaño n1 y

n2 de poblaciones con varianzas conocidas 2

1 y 2

2 , respectivamente, un

intervalo de confianza de ( 1 ). 100% para 21 está dado por:

17

2

2

2

1

2

12/12121

2

2

2

1

2

12/121

nnzxx

nnzxx

Si el muestreo es sin reemplazo y las poblaciones finitas de tamaños N1 y N2, el

intervalo de confianza será:

11)(

2

22

2

2

2

1

11

1

2

12/12121

N

nN

nN

nN

nzxxIC

Ejemplo: Para comparar dos métodos de ventas, se aplicaron a 200 vendedores elegidos al azar el

método tradicional y a otra muestra de 250 vendedores el método nuevo resultando las

calificaciones promedio respectiva de 13 y 15 (cientos de soles). Suponga que las

varianzas poblacionales respectivas son 9 y 16 (cientos de soles2). Halle un intervalo de

confianza del 95% para la diferencia de las medias.

Solución:

La estimación puntual de 21 es 2151321 xx . Con 0,05 se encuentra el

valor z, que deja un área de 0,025 a la derecha y por lo tanto un área de 0,975 a la

izquierda, es 96,1975,0z . De aquí que el intervalo de confianza del 96% es:

250

16

200

996,12

250

16

200

996,12

21

efectuando las operaciones indicadas se tiene: 3529,16471,2 21

Interpretación:

“Con 95% de confianza entre -2,6 y -1,4 se encontrará la diferencia de niveles medios

de ventas obtenidos con los métodos evaluados”.

Caso 2: Cuando las muestras provienen de poblaciones Normales,


1 y 2

2 son desconocidas

Caso 2.1 Pero Iguales ( 2

1 = 2

2 )

Si 21 xyx son las medias de muestras aleatorias independientes de tamaño n1

y n2 respectivamente, de poblaciones aproximadamente normales con varianzas

iguales pero desconocidas, un intervalo de confianza de (1 – ).100% para

21 está dado por:

21

2

2/,22121

21

2

2/,221

11112121 nn

Stxxnn

Stxx pnnpnn

21

2

2/,22121

11)(

21 nnStxxIC pnn

donde : 2nn

S)1n(S)1n(S

21

2

22

2

112

p

donde 2/,221 nnt con (n1 + n2 – 2) grados de libertad, deja un área de /2 a la

derecha.

18



1

1

1

1)(

2

22

21

11

1

2

2/,22121 21 N

nN

nN

nN

nStxxIC pnn

Ejemplo:

Los siguientes datos, registrados en minutos, representan el tiempo de atención por

ventanilla de dos terminalistas:

Terminalista 1 Terminalista 2

5,1

17

14

2

1

1

1

s

x

n

8,1

19

16

2

2

2

2

s

x

n

Encuentre un intervalo de confianza de 99% para la diferencia 21 del

tiempo promedio de atención para los dos terminalistas, suponga poblaciones

normales con varianzas iguales.

Solución:

La estimación puntual de 21 es 2191721 xx .

La estimación de la varianza común, S2

p, es

6607,121614

)8,1)(116()5,1)(114(2

pS

Al tomar la raíz cuadrada obtenemos Sp = 1,2887. Con el uso de 01,0 , encontramos

que t(28,0.005) =2,763 para v = 14 + 16 - 2 = 28 grados de libertad, y por lo tanto el

intervalo de confianza del 99% es:

16

1

14

1)2887,1(763,22

16

1

14

1)2887,1(763,22 12

efectuando las operaciones indicadas se tiene: 6969,03031,3 12

Interpretación:

“Con 99% de confianza entre -3.3 y -0,7 minutos se encontrará la diferencia de tiempos

promedios de atención para los dos terminalistas”.

Caso 2.2 Pero Diferentes ( 2

1 ≠ 2

2 )

Si 2

22

2

11 Syxy,Syx son las medias y varianzas de muestras pequeñas e

independientes de distribuciones aproximadamente normales con varianzas

desconocidas y diferentes, un intervalo de confianza de (1 – ).100% para

21 está dado por:

2 2 2 2

1 2 1 21 2 1 21 2, / 2 , 2

1 2 1 2

v v

S S S Sx x t x x t

n n n n

19

( ) ( ) ( )√

Donde )2/,( vt es el valor t con

11 2

2

1

2

2

2

2

2

1

2

1

2

22

1

21

nn

n

S

n

S

v

n

S

n

S

grados de libertad, que

deja un área de / 2 a la derecha. v es un valor entero por redondeo simple.



11)(

2

22

2

2

2

1

11

1

2

12/,2121

N

nN

n

S

N

nN

n

StxxIC v

Ejemplo: El gerente de una compañía de taxis trata de decidir si comprar neumáticos de la marca

A o de la B para su flotilla de taxis. Se lleva a cabo un experimento utilizando 12 de

cada marca. Los neumáticos se utilizaron hasta que se gastan. Los resultados son:

Marca A

kilométros0005s

kilómetros30036x

2

1

1

Marca B

kilométros1006s

kilómetros10038x

2

2

2

Calcule un intervalo de confianza de confianza de 90% para la diferencia de

rendimiento promedio de ambas marcas de neumáticos. Suponga que la diferencia de

kilómetros de rendimiento se distribuyen de forma aproximadamente normal con

varianzas distintas.

Solución:

Representamos con 21 y las medias poblacionales, respectivamente, para los

tiempos promedios de duración de los neumáticos que producen las compañía A y B.

La estimación puntual de 21 es 80011003830036xx 21 .

Como las varianzas son desconocidas y diferentes, debemos encontrar un intervalo de

confianza de 90% aproximado basado en la distribución t con v grados de libertad,

donde

2279.21

112112

12

6100

12

5000

v2

12

61002

12

5000

2

Con el uso de 10.0 , encontramos que t(22,0.05) = 1.717 para v = 22 grados de

libertad, y por lo tanto el intervalo de confianza del 90% es:

20

12

6100

12

5000717.11800

12

6100

12

5000717.11800 21

efectuando las operaciones indicadas se tiene: 8.17472.1852 21

Interpretación:

“Con 90% de confianza entre -1852 y -1748 días se encontrará la diferencia de

rendimiento promedio de ambas marcas de neumáticos.”

2.9 Intervalo de confianza para la diferencia de

proporciones poblacionales (p1-p2)

Si 21 pyp son las proporciones de éxitos en muestras aleatorias de tamaño n1 y

n2, respectivamente, un intervalo de confianza aproximado de ( 1 ) . 100%

para la diferencia de proporciones poblacionales p1 – p2, está dado por:

2

22

1

11

2/12121

2

22

1

11

2/121

)ˆ1.(ˆ)ˆ1.(ˆˆˆ

)ˆ1.(ˆ)ˆ1.(ˆˆˆ

n

pp

n

ppzpppp

n

pp

n

ppzpp

2

22

1

11

2/12121

)ˆ1.(ˆ)ˆ1.(ˆˆˆ)(

n

pp

n

ppzppppIC



1

)ˆ1.(ˆ

1

)ˆ1.(ˆˆˆ)(

2

22

2

22

1

11

1

11

2/12121N

nN

n

pp

N

nN

n

ppzppppIC

Dado que la distribucion muestral de la diferencia de proporciones no es Normal

para aproximarla a dicha distribucion se requiere tamaños de muestras grandes

(n1>50 y n2>50)

Ejemplo:

Una empresa realiza un estudio para determinar si el ausentismo de los

trabajadores en el turno de día es diferente al de los trabajadores en el turno

nocturno. Se realiza una comparación de 100 trabajadores de cada turno. Los

resultados muestran que 27 trabajadores diurnos han faltado por lo menos cinco

veces durante el año anterior, mientras que 49 trabajadores nocturnos han faltado

por lo menos cinco veces. Halle un intervalo del 98% de confianza, para la

diferencia de proporciones de trabajadores de los turnos que faltaron cinco veces

o más al año.

21

Solución:

p1: proporción de trabajadores diurnos que han faltado por lo menos cinco veces

durante el año anterior

p2: proporción de trabajadores nocturnos que han faltado por lo menos cinco

veces durante el año anterior

27,0ˆ1 p 49,0ˆ 2 p Z0.99 = 2,33

100

)51.0(49.0

100

)73.0(27.033.249.027.0)( 21 ppIC

0642.03758.0 21 pp

Interpretación: Con 95% de confianza, de -0.3758 a -0.0642 se encontrará la

diferencia de proporción de trabajadores que faltaron por lo menos cinco veces

durante el año anterior de ambos turnos de trabajo. En el turno nocturno

faltaron más.

Ejercicios

1. Un ingeniero realiza el control de calidad del proceso de envasado de un producto,

Por resultados obtenidos de estudios anteriores, se puede considerar que el

contenido del volumen de llenado en el envase tiene aproximadamente una

distribución normal Los contenidos de una muestra aleatoria de 10 envases del

producto de 500 ml, se muestran en la hoja Proceso,

a. Uno de los criterios para decidir si el proceso de envasado está bajo control

indica el contenido promedio debe ser precisamente 500 ml, Con un nivel de

confianza del 90%, ¿se podría decir que el proceso de envasado está bajo

control?

b. Un segundo criterio para indicar que el proceso se encuentra bajo control es

verificar que la desviación estándar no sea mayor de 10 ml, Calcule el intervalo

de confianza del 95% para la desviación estándar del contenido de los envases,

Si el ingeniero a afirmado que la variabilidad del proceso está bajo control, ¿qué

se podría concluir al contrastar la afirmación del ingeniero con el intervalo de

confianza?

2. Una muestra de los sueldos de 61 profesionales en ejercicio que viven en Enigma

City dio como promedio y desviación estándar 3465 y 124 nuevos soles

respectivamente, Enigma City es un poblado pequeño y cuenta actualmente con

8740 profesionales en ejercicio, Con un nivel de confianza del 90%:

a. Calcule e intérprete un intervalo de confianza para el sueldo promedio de los

profesionales en ejercicio de Enigma City,

b. Calcule e intérprete un intervalo de confianza para la desviación estándar de los

sueldos de los profesionales en ejercicio de Enigma City,

22

3. Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas

para evaluar la función eléctrica de su producto, Todos los reproductores de discos

compactos deben pasar todas las pruebas antes de venderse, Una muestra aleatoria

de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas,

Encuentre un intervalo de confianza de 90% para la proporción de los reproductores

de discos compactos de la población que fallan en una o más pruebas,

4. Una empresa investigadora de mercados desea determinar la preferencia del

electorado hacia cierto candidato a la alcaldía durante el mes de septiembre, Para

esto selecciona una muestra de 500 electores del distrito de los cuales 300 dijeron

votar por el mencionado candidato,

a. Según la empresa, la proporción de electores en el mes de septiembre a favor del

candidato se encuentra en el intervalo [0,5571 , 0,6429], ¿Cuál es el nivel de

confianza usado?

b. ¿Cuál es el tamaño de muestra a utilizar si se desea estimar esta misma

proporción durante el mes de octubre usando un nivel de confianza del 98% y un

error de estimación no mayor del 5%?

5. Un ingeniero de control de calidad quiere estimar la proporción de elementos

defectuosos en un lote de lámparas, ¿Cuál es el tamaño de la muestra si se quiere

estimar la proporción real, con un margen de error del 1%, utilizando un nivel de

confianza de 95%?

6. El departamento de control de calidad de una empresa informó a la gerencia que en

un primer estudio realizado al proceso de fabricación de un componente para

teléfonos celulares de 900 componentes inspeccionados, se había estimado que el

porcentaje de productos no adecuados a la norma de calidad era de 11% 3,1%, Sin

embargo, en el informe presentado no se precisó el nivel de confianza respectivo,

a. Calcule el nivel de confianza utilizado en el primer estudio realizado por el

departamento de control de calidad,

b. Si se considera que el nivel de confianza utilizado en este primer estudio es

adecuado pero que para realizar un segundo estudio el error no debe superar el

2,1%, ¿Cuántos productos deben ser inspeccionados?,

23

Capítulo 3

Prueba de hipótesis.

3.1 Introducción

La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la

población. A partir de la información proporcionada por la muestra, se verificará la

suposición sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis

nula (Ho).

Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula

a favor de la hipótesis alterna, o bien no rechazamos la hipótesis nula y suponemos que

nuestra estimación inicial del parámetro poblacional podría ser correcto.

El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa

simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la

hipótesis nula.

3.2 Conceptos generales

La hipótesis que se contrasta es rechazada o no en función de la información muestral.

La hipótesis alternativa se especifica como opción posible si se rechaza la nula.

Tipos de errores

Información muestral

Aceptar H0 Rechazar H0

La

realidad

H0 es cierta No hay error Error I

H0 es falsa Error II No hay error

Error Tipo I

Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error

tipo I viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.

)IError(P

El valor (nivel de significación) es fijado por la persona que realiza la investigación

(por lo general varía entre 1% -10%)

24

Error Tipo II

Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es

la probabilidad de aceptar H0 cuando ésta es falsa.

)IIError(P

Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.

Potencia de prueba o Poder de Prueba

Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.

1pruebadePotencia

Pasos a seguir en una Prueba de Hipótesis

Paso 1: Planteo de hipótesis.

Paso 2: Nivel de significación.

Paso 3: Prueba estadística.

Paso 4: Suposiciones.

Paso 5: Regiones críticas. Criterios de decisión.

Paso 6: Realización de la prueba.

Paso 7: Resultados y conclusiones.

Procedimiento general en una Prueba de Hipótesis

Sea el parámetro que representa: )/,pp,,p,,( 2

2

2

2121

21

1. Planteo de las hipótesis.

01

00

01

00

01

00

:

:

:

:

:

:

H

H

H

H

H

H

2. Fijar el nivel de significación

3. Pruebas estadísticas

4. Supuestos

)F,( positiva asimétrica ónDistribuci

t) (Z, simétrica ónDistribuciE

2

25

a) Supuestos para: )/,,,( 2

2

2

21

21

Población(es) normalmente distribuida(s).

Muestra(s) tomada(s) al azar.

b) Supuestos para: 21 pp,p

Muestra(s) tomada(s) al azar.

Muestra(s) grande(s)

5. Regiones críticas

6. Estadístico de prueba.

7. Resultados y conclusiones.

3.3 Prueba de hipótesis para una media poblacional

()

Caso 1: Cuando muestra proviene de una población Normal y la

varianza poblacional (2) es conocida

Hipótesis:

Caso 1

Unilateral izquierda

Caso 2

Bilateral

Caso 3

Unilateral derecha

00 :H 00 :H 00 :H

01 :H 01 :H 01 :H

Estadístico de prueba:

n

XZ

/

0

Normal(0,1)

donde:

X : Es la media muestral.

0 : Es el valor supuesto de la media poblacional en la hipótesis nula.

: Es la desviación estándar de la población.

n: Es el tamaño de la muestra.

N(0,1): Es la distribución normal estándar.

Si la población es finita (de tamaño N) y la fracción de muestreo n/N es

mayor que 0.05, entonces se debe agregar el factor de corrección para

poblaciones finitas en el cálculo del estadístico de prueba con lo cual se

obtiene:

Bilateral

Unilateral Unilateral

26

0c

1

XZ

N n

Nn

Normal(0,1)

Regiones de rechazo de H0:

Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

)(c zz )2/1(c zz )1(c zz

donde es el nivel de significación de la prueba, y z(), z(1-/2) y z(1-) son los

cuantiles de la distribución normal estándar.

Caso 2: Cuando la muestra proviene de una población Normal, la

varianza poblacional (2) es desconocida

Hipótesis:

Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

00 :H 00 :H 00 :H

01 :H 01 :H 01 :H


nS

XT

/

0 t(n-1)

donde:

X : Es la media muestral.

0 : Es el valor supuesto de la media poblacional en la hipótesis nula.

S : Es la desviación estándar de la muestra.


t(n-1): Es la distribución t de Student con n – 1 grados de libertad.




obtiene:

0c

1

XT

S N n

Nn

t(n-1)


Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

),1(c ntt )2/,1(c ntt ),1(c ntt

donde es el nivel de significación de la prueba, y ( ) y ( ) son

los cuantiles de la distribución t de Student con n – 1 grados de libertad.

27

Ejemplo

Una empresa eléctrica fabrica focos cuya duración se distribuye de forma

aproximadamente normal con media de 800 horas y desviación estándar de 40 horas.

Pruebe la hipótesis de que 800 horas contra la alternativa 800 horas si una

muestra aleatoria de 28 focos tiene una duración promedio de 784 horas. Utilice un

nivel de significancia de 0.05.

Solución.

Sea X: Duración de los focos (horas)

X~ Normal(800 , 402)

1. Planteo de hipótesis.

800:H

800:H

1

0

2. Nivel de significación.

05.0

3. Prueba estadística

)1.0(~/

_

Nn

xZ

4. Supuestos.

Población normal.

Muestra tomada al azar.

5. Regiones críticas. Criterios de decisión.

La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas

Criterios

Si -1.96 Zc 1.96 No se rechaza

H0

Si Zc < -1.96 o Zc > 1.96 Se

rechaza H0

6. Cálculos

12.228/40

800784Zc

7. Conclusiones.

Con 5% de nivel de significación y a partir de la información muestral, el tiempo

promedio de duración de los focos es diferente de 800 horas.

0.025 0.025

1.96 -1.96

0.95

28

3.4 Prueba de hipótesis para la varianza poblacional

(2)

Hipótesis:

Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha 2

0

2

0 :H 2

0

2

0 :H 2

0

2

0 :H

2

0

2

1 :H 2

0

2

1 :H 2

0

2

1 :H


2

0

22 )1(

Sn 2

)1( n

donde:

n : Es el tamaño de la muestra.

S 2 : Es la variancia de la muestra.

2

0 : Es el valor supuesto de la variancia poblacional en la hipótesis nula.

2

)1( n : Es la distribución Chi-cuadrado con n – 1 grados de libertad.


Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha 2

)1,1(

2

0 n 2

)2/1,1(

2

0 n ó

2

)2/,1(

2

0 n

2

),1(

2

0 n

donde es el nivel de significación de la prueba, y 2

)1,1( n , 2

)2/1,1( n ,

2

)2/,1( n y 2

),1( n son los cuantiles de la distribución Chi-cuadrado con n –

1 grados de libertad.

Ejemplo

Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables

producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el

proceso de producción de estos cables, la resistencia al rompimiento de una muestra de

8 cables mostró una desviación estándar de 300 lb. Investigue la significancia del

aumento aparente en la variación usando un nivel de significancia de 0.05. Asuma

normalidad.

Solución.

Sea X: Resistencia al rompimiento de cierto tipo de cable

X~ Normal( , 2402)


22

1

22

0

240:H

240:H

29


05.0


2

)1(2

22 ~

)1(

n

sn

4. Supuestos.

Población normal.




Áreas

Criterios

Si 07.142

c No se rechaza

H0

Si 07.142

c Se rechaza H0

6. Cálculos

938.10240

300)18(2

22

c

7. Conclusiones.

Con 5% de nivel de significación y la información muestral es insuficiente para

afirmar que la variación de la resistencia al rompimiento ha aumentado.

3.5 Prueba de hipótesis para la proporción

poblacional (p)

Hipótesis:

Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

00 :H pp 00 :H pp 00 :H pp

01 :H pp 01 :H pp 01 :H pp


n

pp

pPZ

)1(

ˆ

00

0

N(0,1)

0.05 0.95

30

donde:

P : Es la proporción muestral.

p0 : Es el valor supuesto de la proporción poblacional en la hipótesis nula.






obtiene:

0c

0 0

ˆ

(1 )

1

P pZ

p p N n

n N

Normal(0,1)


Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

)(c zz )2/1(c zz )1(c zz



Ejemplo

RRS, el minorista de electrodomésticos, anunció que vende el 21% de todos los

computadores caseros. ¿Esta afirmación se confirma si 120 de los 700 propietarios de

computadores caseros se los compraron a RRS? Tome 05.0 .

Solución.

Sea p: Proporción de propietarios de computadores caseros que compraron en RRS.

1 Planteo de hipótesis.

21.0p:H

21.0p:H

1

0

2 Nivel de significación.

05.0

3 Prueba estadística

)1.0(~)1(

ˆNormal

n

pp

ppZ

4 Supuestos.


Muestra grande.

31

5 Regiones críticas. Criterios de decisión.


Áreas

Criterios

Si -1.96 Zc 1.96 No

se rechaza H0

Si Zc < -1.96 o Zc >

1.96 Se rechaza H0

6 Cálculos

505.2

700

)21.01(21.0

21.0700

120

Zc

7 Conclusiones.

Con 5% de nivel de significación y a partir de la información muestral, RRS no

vende el 21% de todos los computadores caseros.

3.6 Pruebas de hipótesis para dos varianzas

poblacionales 2

1 y 2

2

Para esta prueba de hipótesis solo se desarrollará el caso bilateral debido a que

esta prueba indicará si dos muestras independientes provienen de poblaciones

con varianzas homogéneas o heterogéneas

Hipótesis:

Caso Único

Bilateral

2

2

2

10 :H

2

2

2

11 :H


2

2

2

1c

S

SF 1,1 21 nnF

donde:

n1 : Es el tamaño de la muestra proveniente de la población 1.

n2 : Es el tamaño de la muestra proveniente de la población 2. 2

1S : Es la varianza de la muestra de la población 1. 2

2S : Es la varianza de la muestra de la población 2.

1,1 21 nnF : Es la distribución F con n1–1 y n2–1 grados de libertad.

0.025 0.025

1.96 -1.96

0.95

32


Caso Único

Bilateral

2/1,1,1 21 nnc FF ó

2/,1,1 21 nnc FF

donde es el nivel de significación de la prueba, y 2/1,1,1 21 nnF y

2/,1,1 21 nnF son los cuantiles de la distribución F con n1 – 1 y n2 – 1 grados

de libertad.

Ejemplo

Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una desviación

estándar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1 onzas y s =

2.7 onzas. Asumiendo varianzas iguales y distribuciones normales en los pesos de la

población, ¿Se puede afirmar con 5% de significación que las varianzas de los pesos son

iguales?

Solución.

Sean

X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2

1 )

X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2

2 )


2

2

2

11

2

2

2

10

:H

:H


05.0


)1,1(

2

2

2

1

2

2

2

1

21~

1 nnc F

S

SF

Bajo H0, que las varianzas son iguales, se tiene,

)1,1(2

2

2

1

21~ nnc F

S

SF

4. Supuestos.

Poblaciones normales.

Muestras tomadas al azar.



33

Áreas

Criterios

Si 0.346 Fc 3.152 No se rechaza H0

Si Fc < 0.346 o Fc > 3.152 Se rechaza H0

6. Cálculos

405.1)7.2(

)2.3(2

2

2

2

2

1 S

SFc

7. Conclusiones.

Con 5% de nivel de significación la información muestral es insuficiente para rechazar

que las varianzas de los pesos son iguales.

3.7 Pruebas de hipótesis para dos medias

poblacionales (1 y 2)

Caso 1: Cuando las muestras provienen de poblaciones Normales y


1 y 2

2 son conocidas

Hipótesis:

Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

k 210 :H k 210 :H k 210 :H

k 211 :H k 211 :H k 211 :H


2

2

2

1

2

1

21

nn

kXXZ c

Normal(0,1)

donde:

1X : Es la media muestral para la muestra 1.

2X : Es la media muestral para la muestra 2. 2

1 : Es la varianza de la población 1. 2

2 : Es la varianza de la población 2.

n1 : Es el tamaño de la muestra 1.


k : Es el valor supuesto para la diferencia entre las medias poblacionales en

la hipótesis nula.

Normal(0,1): Es la distribución normal estándar.

Si las poblaciones son finitas (de tamaños N1 y N2) y las fracciones de

muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el

0.025 0.025

3.152 0.346

34

factor de corrección para poblaciones finitas en el cálculo del estadístico de

prueba con lo cual se obtiene:

1 2c

2 2

1 1 1 2 2 2

1 1 2 21 1

X X kZ

N n N n

n N n N

Normal(0,1)


Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

)(c zz )2/1(c zz )1(c zz



Caso 2: Muestras independientes, varianzas poblacionales desconocidas y homogéneas

Hipótesis:

Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

k 210 :H k 210 :H k 210 :H

k 211 :H k 211 :H k 211 :H


2

2

1

2

21

n

S

n

S

kXXT

pp

c

221 nnt

con

2

11

21

2

22

2

112

nn

SnSnS p

donde:

1X : Es la media de la muestra 1.

2X : Es la media de la muestra 2. 2

1S : Es la varianza de la muestra 1. 2


pS : Es la varianza muestral ponderada.




la hipótesis nula.

221 nnt : Es la distribución t de Student con n1 + n2 – 1 grados de libertad.

35





1 2c

2 2

1 1 1 1

1 1 2 11 1

p p

X X kT

S SN n N n

n N n N

221 nnt


Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

),2(c 21 nntt )2/,2(c 21 nntt ),2(c 21 nntt

donde es el nivel de significación de la prueba, y ),2( 21 nnt y )2/,2( 21 nnt

son los cuantiles de la distribución t de Student con n1 + n2 – 1 grados de

libertad.

Ejemplo

Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una desviación

estándar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1 onzas y s =

2.7 onzas. Asumiendo varianzas iguales y distribuciones normales en los pesos de la

población, ¿Se puede afirmar con 5% de significación que los pesos promedio son

iguales?

Solución.

Sean

X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2 )

X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2 )


211

210

:H

:H


05.0


)2(

21

2

21

_

2

_

1

21~

11

)()(

nn

p

c t

nnS

xxt

donde:

2nn

s)1n(s)1n(S

21

2

22

2

112

p

4. Supuestos.



36



Áreas

Criterios

Si -2.048 tc 2.048 No se rechaza

H0

Si tc < -2.048 o tc > 2.048 Se rechaza

H0

6. Cálculos

815.0

13

1

17

1976.8

)0()1.182.17(tc

7. Conclusiones.

Con 5% de nivel de significación la información muestral es insuficiente para

rechazar que los pesos promedios de los dos tipos de gaseosas son iguales.

Caso 2: Muestras independientes, varianzas poblacionales desconocidas y heterogéneas

Hipótesis:

Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

k 210 :H k 210 :H k 210 :H

k 211 :H k 211 :H k 211 :H


2

2

2

1

2

1

21

n

S

n

S

kXXT

vt

con

11 2

2

2

2

2

1

2

1

2

1

2

2

2

2

1

2

1

n

n

S

n

n

S

n

S

n

S

v

donde:

1X : Es la media de la muestra 1.

0.025 0.025

t(28, 0.025) = 2.048 -2.048

0.95

37

2X : Es la media de la muestra 2. 2


2S : Es la varianza de la muestra 2.




la hipótesis nula.

vt : Es la distribución t de Student con v grados de libertad.





1 2c

2 2

1 1 1 2 1 1

1 1 2 11 1

X X kT

S N n S N n

n N n N

vt


Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

),(c vtt )2/,(c vtt ),(c vtt

donde es el nivel de significación de la prueba, y ),( vt y )2/,( vt son los

cuantiles de la distribución t de Student con v grados de libertad.

Ejemplo 8.6.- Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una

desviación estándar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1

onzas y s = 1.1 onzas. Asumiendo varianzas diferentes y distribuciones normales en los

pesos de la población, ¿Se puede afirmar con 5% de significación que los pesos promedio

son iguales?

Solución.

Sean X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2 )

X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2 )


211

210

:H

:H


05.0

38


)(

2

2

2

1

2

1

21

_

2

_

1 ~)()(

vc t

n

S

n

S

xxt

donde

1n1n

n

S

n

S

v

2

2

n

S

1

2

n

S

2

2

2

2

1

2

1

2

22

1

21

4. Supuestos.




Antes de hallar las regiones se debe determinar el valor de v:

2166.20

113117

13

1.1

17

2.3

2

13

1.12

17

2.3

222

22

v


Áreas

Criterios

Si -2.080 tc 2.048 No se rechaza H0

Si tc < -2.080 o tc > 2.048 Se rechaza H0

6. Cálculos

079.1

13

1.1

17

2.3

)0()1.182.17(

22

ct

7. Conclusiones.

Con 5% de nivel de significación la información muestral es insuficiente para

rechazar que los pesos promedios de los dos tipos de gaseosas son iguales.

3.8 Prueba de hipótesis para la diferencia de dos

proporciones poblacionales (p1-p2).

Hipótesis:

Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

0 1 2H : p p 0 1 2H : p p 0 1 2H : p p

1 1 2H : p p 1 1 2H : p p 1 1 2H : p p

0.025 0.025

t(21, 0.025) = 2.080 -2.088

0.95

39


√ ( ) (

)

( )

con

1 1 2 2

1 2

ˆ ˆn P n PP

n n

donde:

1P : Es la proporción de la muestra 1.

2P : Es la proporción de la muestra 2.

n1: Es el tamaño de la muestra 1.

n2: Es el tamaño de la muestra 2.






√ ( ) (

)

( )


Caso 1


Caso 2

Bilateral

Caso 3

Unilateral derecha

)(c zz )2/1(c zz )1(c zz



Ejemplo:

En una prueba de calidad de dos comerciales de televisión se pasó cada uno en

un área de prueba seis veces, durante un período de una semana. La semana

siguiente se llevó a cabo una encuesta telefónica para identificar a quiénes

habían visto esos comerciales. A las personas que los vieron se les pidió

definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados:

Comercial Personas que lo

vieron

Personas que recordaron el

mensaje principal

A

B

150

200

63

60

40

Use = 0.05 para probar la hipótesis de que no hay diferencia en las

proporciones que recuerdan los dos comerciales.

Solución:

Sea p1: Proporción de personas que recordaron el mensaje principal del

comercial A.

Sea p2: Proporción de personas que recordaron el mensaje principal del

comercial B.

Hipótesis:

211

210

pp:H

pp:H

Nivel de significación: 05.0


√ ( )(

) ( )

Supuestos: Muestras tomada al azar.

Muestras grandes.

Valores críticos y regiones de rechazo y no rechazo:

Criterios

Si -1.96 Zc 1.96 no se rechaza

H0

Si Zc < -1.96 o Zc > 1.96 se rechaza

H0

Cálculos:

63 60

150 200 2.3281 1

(0.351)(0.649)150 200

cZ

Conclusión: Existe suficiente evidencia estadística, con un

nivel de significación del 5% de que las

proporciones de recordación son diferentes.

0.95

-1.96 1.96

0.025 0.025

41

Ejercicios

1. Debido al tiempo excesivo que demanda trasladarse hacia el sitio de trabajo, la

oficina en donde usted trabaja en el centro de la ciudad está considerando espaciar

las horas de trabajo para sus empleados. El gerente considera que los empleados

demoran en promedio 50 minutos para llegar al trabajo. Para una muestra aleatoria

de setenta empleados, resulta que en promedio demoran 47,2 minutos con una

desviación estándar de 18.9 minutos. Fije en 5% y pruebe la hipótesis.

2. Una escuela de negocios local afirma que sus estudiantes graduados obtienen

trabajos mejor remunerados que el promedio nacional. Los salarios pagados a todos

los graduados de las escuelas de negocios en su primer trabajo mostraron una

media de 20 soles la hora. Una muestra aleatoria de 10 alumnos graduados del

último año de la mencionada escuela mostró los siguientes salarios por hora en su

primer trabajo:

16,50 ; 19,00 ; 22,00 ; 21,50 ; 21,00 ; 16,50 ; 17,00 ; 21,00 ; 21,50 ; 22,00

Como usted no cree en la afirmación de dicha escuela, evalúe el salario de los

graduados de esta escuela de comercio con un nivel de significación del 5%.

3. Una muestra aleatoria de 64 bolsas de palomitas de maíz con queso pesan, en

promedio, 5,23 onzas con una desviación estándar de 0,24 onzas. Pruebe la hipótesis

de que 5.5 onzas contra la hipótesis alternativa, 5.5 onzas en el nivel de

significancia de 0.05

4. Usando una muestra de nueve días durante los últimos 9 meses, un dentista ha

tenido las siguientes cantidades de pacientes: 22, 25, 20, 18, 15, 22, 24, 19 y 26. Si

la cantidad de pacientes atendidos por día tiene una distribución normal,

a. ¿con estos datos se rechazaría la hipótesis de que el promedio de pacientes

atendido por día durante los últimos seis meses no es superior a 22? Use un nivel

de significación del 5%. Interprete el resultado.

b. ¿con estos datos se rechazaría la hipótesis de que la varianza en la cantidad de

pacientes atendidos por día en los últimos seis meses es igual a 10? Use un nivel

de significación del 10%. Interprete el resultado.

5. En cierta universidad se estima que el 25% de los estudiantes van en bicicleta a la

universidad. ¿Esta parece ser una estimación válida si, en una muestra aleatoria de

90 estudiantes universitarios, se encuentra que 28 van en bicicleta a la universidad?

Utilice un nivel de significancia de 0,05.

6. Un investigador desea verificar si existe evidencia de una diferencia en la resistencia

media entre dos tipos de material para embalaje. La descripción de las lecturas en

pie-libra de la resistencia al impacto de los dos tipos de embalaje se muestra a

continuación.

Características Embalaje A Embalaje B

Media 1,2367 0,9778

Varianza 0,0042 0,0024

Observaciones 9 9

42

a. ¿Cuál es la hipótesis planteada?, ¿Es una hipótesis unilateral o bilateral?

b. A partir de los datos obtenidos compruebe la hipótesis y concluya con 2% de

nivel de significación. Asuma poblaciones normales.

7. Dos encuestas independientes sobre salarios, realizados en dos áreas metropolitanas

muy distintas entre si, revelaron la siguiente información con respecto a los sueldos

promedios de los operadores de equipo pesado.

Área A B

Media $6,50 / h. $7,00 / h.

Desviación Estándar $4,50 /h. $ 2,00 / h.

Tamaño de la muestra 15 24

Suponga que los datos provienen de poblaciones normales. ¿Se puede concluir que

los sueldos promedios son diferentes con un %5

8. Una agencia de seguros local desea comparar los gastos medios ocasionados por

daños en accidentes similares en dos modelos de automóviles. Nueve ejemplares del

primer modelo y siete del segundo modelo son sometidos a una colisión controlada

obteniendo los siguientes gastos, en dólares, por daños sufridos:

Colisión 1 2 3 4 5 6 7 8 9

Modelo 1 345 310 305 345 355 375 320 310 305

Modelo 2 340 325 345 310 315 280 290

Si se supone que los gastos por daños en ambos modelos de automóviles siguen una

distribución normal, a un nivel de significación del 5%:

a. ¿Se puede afirmar que la variabilidad de los gastos por daños para cada modelo

de auto son iguales?

b. ¿Parece haber alguna diferencia en el gasto medio ocasionado por las colisiones

de cada modelo de auto?

9. Un patrocinador de un programa especial de televisión afirma que el programa

representa un atractivo mayor para los televidentes hombres que para las mujeres,

pero el personal de producción del programa piensa que es igual el porcentaje de

televidentes hombres y mujeres que ven el programa especial. Si una muestra

aleatoria de 300 hombres y otra de 400 mujeres reveló que 120 hombres y 120

mujeres estaban viendo el programa especial de televisión. Al nivel de significación

del 5%, ¿se podría decir que el patrocinador tiene la razón?

10. Se cree que la portada y la naturaleza de la primera pregunta de encuestas por correo

influyen en la tasa de respuesta. El artículo “The Impact of Cover Design and First

Questions on Response Rates for a Mail Survey of Skydivers” (Leisure Sciences,

1991, pp. 67-76) probó esta teoría al experimentar con diferentes diseños de

portadas. Una portada era sencilla; la otra utilizó la figura de un paracaidista. Los

investigadores especularon que la tasa de devolución sería menor para la portada

sencilla.

43

Portada Número enviado Número devuelto

Sencilla 207 104

Paracaidista 213 109

¿Apoya esta información la hipótesis de los investigadores? Pruebe las hipótesis

pertinentes usando un nivel de significación del 5%.

11. El empleo de equipo de cómputo en las empresas está creciendo con una rapidez

vertiginosa. Un estudio reciente, en la que participaron 15 empresas del sector

industrial, reveló que 184 de 616 adultos trabajan utilizando con regularidad una

computadora personal, una microcomputadora, un terminal de computadora o un

procesador de texto en su trabajo. Se seleccionó otra muestra de 450 adultos, de 10

empresas del sector salud, en la muestra se obtuvo que 105 adultos utilizan con

regularidad una computadora persona, una microcomputadora, un terminal de

computadora o un procesador de texto en su trabajo ¿Existe diferencias

significativas entre los porcentajes de adultos, de las empresas del sector industria y

de salud, que utilizan algún equipo de cómputo en su trabajo? Use un nivel de

significación del 5%.

44

Capítulo 4

Prueba Chi Cuadrado

Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite

comparar frecuencias observadas (frecuencias obtenidas en un experimento o

muestreo) con frecuencias esperadas según un modelo supuesto (hipótesis nula).

Esta característica de la distribución Ji-cuadrado permite efectuar las siguientes

pruebas:

1. Prueba de independencia.

2. Prueba de homogeneidad de subpoblaciones.

3. Pruebas de bondad de ajuste a una distribución de probabilidades.

La metodología en cada uno de los tres casos es muy similar. La diferencia principal

está en la forma en que se calculan las frecuencias esperadas, ya que estas

dependerán de la hipótesis nula en cuestión.

Prueba de Independencia.

Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga

que la primera variable permite clasificar a cada observación en una de r categorías

y que la segunda variable permite clasificar a cada observación en una de c

categorías. A la tabla que muestra ambas variables y las frecuencias observadas en

cada una de las r×c categorías resultantes se le conoce como tabla de contingencia

r×c.

Variable 2

Columna

1

Columna

2 . . .

Columna

c

Variable

1

Fila 1

Fila 2

.

.

.

Fila r

Esta prueba es especialmente útil cuando se trata de analizar la independencia entre

dos variables en escala nominal. Cuando las variables están en escala ordinal,

intervalo o razón, existen otros procedimientos más adecuados, como por ejemplo

mediante el cálculo de coeficientes de correlación (en un capítulo posterior se verá

el caso del coeficiente de correlación de Pearson, útil para analizar asociación lineal

entre dos variables cuantitativas).

45

Ejemplo.

Para determinar si existe una relación entre la calificación de un empleado en el

programa de capacitación y su rendimiento real en el trabajo, se tomó una muestra

de 400 casos de los archivos y se obtuvo las frecuencias observadas que se presentan

en la siguiente tabla de contingencia 3×3.

Calificación en el programa de

capacitación Total

Debajo del

promedio Promedio

Sobre el

promedio

Rendimiento real en

el trabajo

(calificación del

empleador)

Deficiente 23 60 29 112

Promedio 28 79 60 167

Muy bueno 9 49 63 121

Total 60 188 152 400

Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador

está asociada con la calificación en el programa de capacitación?

Solución

Las variables que se muestran en la tabla son:

Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías:

Deficiente, promedio y muy bueno.

Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo

del promedio, promedio o sobre el promedio.

La prueba de independencia compara las frecuencias observadas frente a las

frecuencias esperadas bajo el supuesto de que ambas variables sean independientes.

Para calcular las frecuencias esperadas se utiliza la siguiente fórmula:

tablalla de Total

fila) la de(Totalxcolumna)lade(Totalesperada Frecuencia

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas

(entre paréntesis)

Calificación en el programa de

capacitación Total

Debajo del

promedio Promedio

Sobre el

promedio

Rendimiento real en

el trabajo

(calificación del

empleador)

Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112

Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167

Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121

Total 60 188 152 400

46

Pasos para realizar la prueba de independencia

1) Formulación de las hipótesis

H0: La calificación del rendimiento real de un empleado en el trabajo es

independiente de la calificación en el programa de capacitación.

H1: La calificación del rendimiento real de un empleado en el trabajo no es

independiente de la calificación en el programa de capacitación.

2) Fijación del nivel de significación: 0,01.

3) Estadístico de prueba

gl)1)(1(con~)( 2

1

2

2

c

crve

eok

i i

ii

4) Áreas y criterio de decisión.

Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4.

Criterio:

Si 2

c > 13,277 se rechaza H0

Si 2

c ≤ 13,277 no se rechaza H0.

5) Cálculos previos

18,2098,45

)98,4563(...

05,25

)05,2528(

80,16

)80,1623( 2222

c

6) Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo

tanto hay evidencia estadística suficiente para aceptar que la calificación del

rendimiento real de un empleado en el trabajo depende de la calificación en el

programa de entrenamiento.

Nota. (Corrección de Yates)

Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son

menores que 5, o cuando el grado de libertad del estadístico de prueba es igual a 1,

es recomendable aplicar la corrección de Yates; con esta corrección, el estadístico

de prueba es el siguiente:

k

i i

iicrv

e

,eo

1

2

2

2

c gl)1)(1(con50

0,01

2 0,01

= 13,277

47

Salida de MINITAB:

Chi-Square Test: Debajo del promedio, Promedio, Sobre el promedio Expected counts are printed below observed counts

Chi-Square contributions are printed below expected counts

Debajo del Sobre el

promedio Promedio promedio Total

1 23 60 29 112

16.80 52.64 42.56

2.288 1.029 4.320

2 28 79 60 167

25.05 78.49 63.46

0.347 0.003 0.189

3 9 49 63 121

18.15 56.87 45.98

4.613 1.089 6.300

Total 60 188 152 400

Chi-Sq = 20.179, DF = 4, P-Value = 0.000

Prueba de Homogeneidad de Proporciones

Esta prueba permite analizar si la distribución de probabilidades de una variable

categórica es la misma en r poblaciones.

Ejemplo.

Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura,

produjeron los resultados que se muestran en la siguiente tabla:

Material A Material B Material C Total

Desintegrados 41 27 22 90

Permanecieron intactos 79 53 78 210

Total 120 80 100 300

Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas,

la probabilidad de desintegración es la misma para los tres tipos de materiales.

Pasos para realizar la prueba de homogeneidad de proporciones

1) Formulación de las hipótesis

H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegración con el

material i.

H1: No todas las proporciones son iguales.

2) Fijación del nivel de significación: 0,05.

48

3) Estadístico de prueba

gl)1)(1(con~)( 2

1

2

2

c

crve

eok

i i

ii

4) Áreas y criterios de decisión.

Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2.

Criterios:

Si 2

c > 5,991 se rechaza H0

Si 2

c ≤ 5,991 no se rechaza H0

5) Cálculos previos


Desintegrados 41 (36) 27 (24) 22 (30) 90

Permanecieron intactos 79 (84) 53 (56) 78 (70) 210

Total 120 80 100 300

575,470

)7078(...

84

)8479(

36

)3641( 2222

c

6) Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son

insuficientes para rechazar que la probabilidad de desintegración es la misma

para los tres tipos de materiales.

Salida de MINITAB:

Chi-Square Test: Material A, Material B, Material C Expected counts are printed below observed counts

Chi-Square contributions are printed below expected counts


1 41 27 22 90

36.00 24.00 30.00

0.694 0.375 2.133

2 79 53 78 210

84.00 56.00 70.00

0.298 0.161 0.914

Total 120 80 100 300

Chi-Sq = 4.575, DF = 2, P-Value = 0.101

0,05

2 0,05

= 5,991

49

Ejercicios

1) Un criminalista realizó una investigación para determinar si la incidencia de ciertos

tipos de crímenes varían de una parte a otra en una ciudad grande. Los crímenes

particulares de interés son asalto, robo, hurto y homicidio. La siguiente tabla

muestra el número de delitos cometidos en tres áreas de la ciudad durante el año

pasado:

Frecuencias observadas Frecuencias esperadas

Tipo de

delito

Distrito Tipo de

delito

Distrito

I II III I II III

Asalto 162 310 258 Asalto 171,1 348,9 210,0

Robo 118 196 193 Robo 118,9 242,3 145,8

Secuestro 451 996 458 Secuestro 446,6 910,5 547,9

Homicidio 18 25 10 Homicidio 12,4 25,3 15,2

¿Se puede concluir a partir de estos datos con un nivel de significación de 0,01 que

la ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?

2) De acuerdo con un estudio de la Universidad Johns Hopkins publicado en el

American Journal of Public Health, las viudas viven más que los viudos. Considere

los siguientes datos de sobrevivencia de 100 viudas y 100 viudos después de la

muerte del cónyuge:

Años vividos Viuda Viudo

Menos de 5

De 5 a 10

Más de 10

25

42

33

39

40

21

¿Se puede concluir con un nivel de significación de 0,05 que las proporciones de

viudas y viudos son iguales con respecto a los diferentes períodos que un cónyuge

sobrevive a la muerte de su compañero?

3) Un estudio de la relación entre las condiciones de las instalaciones en gasolineras y

la agresividad en el precio de la gasolina, reporta los siguientes datos basados en una

muestra de 441 gasolineras. Al nivel de significación del 1%, ¿sugiere la

información que las condiciones de las instalaciones y la política de precios son

independientes entre sí?

Condición de la

instalación

Política de precios

Agresiva Neutral No agresiva

Anticuada 24 15 17

Condición estándar 52 73 80

Moderna 58 86 36

50

Capítulo 5

Diseños Experimentales

5.1. Introducción

Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen

cambios deliberados en las variables de entrada (factores controlables) de un

proceso o sistema, de manera que sea posible observar e identificar las causas de los

cambios en la variable de salida (variable respuesta).

Suponga por ejemplo que un exportador desea evaluar el efecto de tres métodos de

empaque y dos sustancias preservantes en el tiempo de duración de cierto alimento.

El exportador podría entonces realizar una serie de experimentos para evaluar cuál

de las 6 combinaciones entre método de empaque y sustancia preservante da

mejores resultados; a cada una de estas 6 combinaciones se les denomina

tratamientos. Suponga que el exportador decide realizar 5 repeticiones del

experimento con cada tratamiento. Como las condiciones ambientales (humedad,

temperatura, etc.) pueden influir en el tiempo de duración del producto, los 6

tratamientos deben ser sometidos a prueba en cada réplica en forma simultánea.

Dado que el tiempo de duración promedio del producto es de aproximadamente 10

días, el exportador decide realizar una réplica quincenal (por ejemplo, empezar la

primera réplica con los 6 tratamientos el día primero, la segunda el día 15, la tercera

el día primero del siguiente mes y así sucesivamente).

Este ejemplo ayuda a definir los siguientes términos:

Factor: Es una variable independiente o de entrada que puede afectar los resultados

del experimento. Los factores se pueden clasificar en controlables y no

controlables.

Factor en estudio: Un factor en estudio es aquel cuyos valores son controlados y

cuyo efecto será evaluado en los resultados del experimento. El interés principal del

experimentador es evaluar el efecto de estos factores. En el ejemplo anterior, el

método de empaque y la sustancia preservante son dos factores en estudio. A los

distintos valores de los factores en estudio que son evaluados se les llama niveles

del factor. En el ejemplo, el factor método de empaque tiene 3 niveles y el factor

sustancia preservante 2 niveles.

Factor de bloqueo: Es un factor cuyo efecto en la variable respuesta no es de

interés para el experimentador, pero cuyo efecto debe ser controlado para disminuir

la variabilidad en los resultados del experimento. En el ejemplo, cada repetición del

experimento es llevada a cabo en una quincena diferente. Se puede anticipar que

habrá diferencias de temperatura y humedad entre quincenas, diferencias que se sabe

pueden afectar los resultados del experimento. Por lo tanto, en este ejemplo, las

quincenas deben ser consideradas como bloques.

51

Tratamiento: Es un conjunto de procedimientos cuyo efecto se mide y compara con

los de otros tratamientos. Un tratamiento corresponde a una combinación de los

niveles de los factores en estudio, pudiendo ser estos uno o más.

Unidad experimental: Es la unidad a la cual se le aplica un tratamiento y en la cual

se mide el efecto de un tratamiento. En el ejemplo, la unidad experimental podría ser

un empaque de alimento.

Variable respuesta: Es la variable en la cual se evaluarán los efectos de los

tratamientos. En el ejemplo, la variable respuesta puede ser el tiempo de duración

observado de cada empaque.

Error experimental: Es la variabilidad existente entre los resultados de unidades

experimentales tratadas en forma similar. Cualquier factor no controlable contribuye

al error experimental. El error experimental proviene de dos fuentes principales:

variabilidad inherente al material experimental (en el ejemplo, habrán diferencias

entre las distintas muestras de alimentos sometidas a cada tratamiento y en cada

réplica) y variabilidad resultante de cualquier falta de uniformidad en la realización

física del experimento (en el ejemplo, si las muestras de alimento son colocadas en

posiciones diferentes sobre un anaquel, estarán sometidas a diferencias de luz, calor,

humedad, polvo, etc.).

Cualquier problema experimental involucra dos aspectos:

El diseño del experimento

El análisis estadístico de los datos.

Estos dos temas están estrechamente ligados, ya que el método de análisis depende

del diseño empleado.

52

Es importante en este tipo de análisis estadísticos que el experimentador haya

seguido de cerca todos los pasos del experimento, desde el diseño del mismo, hasta

el análisis final de los datos. Analizar datos cuya recogida no fue planificada puede

traer ciertos problemas:

Datos inconsistentes: Por cambios debidos al tiempo, envejecimiento, reparaciones,

etc. Esto provoca que los datos recogidos no sean consistentes lo que obviamente

traerá confusiones en la interpretación.

Variables altamente correlacionadas: Cuando dos variables del proceso están

correlacionadas, se pueden producir dos tipos diferentes de situación engañosa al

analizar datos recogidos durante las operaciones habituales.

1. Confusión de los efectos.

2. Relación no causal. Variable oculta.

En este capítulo se presentan tres casos de análisis:

El diseño completamente al azar (DCA): Este es un diseño en el que solo se

contempla un factor de estudio.

El diseño de bloques completos al azar (DBCA): Este es un diseño en el que se

contempla un factor de estudio y un factor de bloqueo.

El experimento factorial axb: Este es un diseño con dos factores en estudio, con

a y b niveles respectivamente.

5.2. Diseño Completamente al Azar

Suponga que se cuenta con los resultados de k muestras aleatorias independientes,

cada una de tamaño ni, obtenidas desde k diferentes poblaciones y se desea probar la

hipótesis de que las medias de estas k poblaciones son todas iguales. Las

poblaciones que se desea comparar suelen ser producto de la aplicación de distintos

tratamientos a ciertas unidades de análisis. Considere por ejemplo el caso en el que

se desea comparar el efecto de 5 programas de incentivos en la productividad de los

Variable1Variable1

Variable2Variable2Variable3Variable3

ConfusiónConfusión

Variable1Variable1

Variable2Variable2Variable3Variable3

ConfusiónConfusión

Variable1Variable1 Variable2Variable2

Variable3Variable3

Relación no causalRelación no causal

Variable1Variable1 Variable2Variable2

Variable3Variable3

Relación no causalRelación no causal

53

trabajadores; en este caso, los 5 programas de incentivos serían los 5 tratamientos

aplicados (los cuales definen las 5 poblaciones que se van a comparar), y la unidad

de análisis sería un trabajador (quien recibe el tratamiento).

Los datos a analizar pueden arreglarse en una tabla como la que se muestra a

continuación:

Tratamiento

Muestra

Tratamiento

1

Tratamiento

2

. . . Tratamiento

k

1

2

3

.

.

.

ni

y11

y12

y13

.

.

.

11ny

y21

y22

y23

.

.

.

21ny

. . .

. . .

. . .

. . .

. . .

. . .

. . .

yk1

yk2

yk3

.

.

.

kny1

Totales yi. y1. y2. . . . yk.

En esta tabla

.

1

in

i ij

j

y y

Defina al total de las 1

.k

i

i

n n

observaciones por

.. .

1 1 1

ink k

i ij

i i j

y y y

Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con

medias iguales se harán varias suposiciones. Con más precisión, se supondrá que las

poblaciones son normales y que tienen variancias iguales.

Si i denota la media de las i-ésima población y 2 denota la variancia común de

las k poblaciones, se puede expresar cada observación yij como i más el valor de

un componente aleatorio:

para 1,2,..., ; 1,2,...,ij i ij iy i k j n

Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más

complicados, se acostumbra reemplazar i por i , donde es la media general

para todas las poblaciones y i es el efecto del i-ésimo tratamiento, con

k

i i10 .

54

Con estos nuevos parámetros se puede escribir el modelo para este diseño de la

siguiente manera:

iijiij njkiparay ...,,2,1;...,,2,1

donde:

yij : La j- ésima observación en la i-ésima muestra.

: Parámetro de la media poblacional.

i : Efecto del i-ésimo tratamiento.

ij : Error aleatorio asociado a la observación yij, donde ij ~ N(0, 2 )

Tabla del análisis de variancia

Fuente de

variación Grados de libertad Suma de cuadrados Cuadrado medio Fc

Tratamientos k – 1

n

y

n

yk

i i

i

2

1

2

SC(Tr) 1

SC(Tr)CM(Tr)

k CME

)Tr(CM

Error n. – k SC(Tr)SCTSCE kn

SCECME

Total n. – 1

n

yy

k

i

n

j

ij

2

1 1

2SCT

Asumiendo el cumplimiento de los supuestos antes mencionados, y que en realidad

no hay diferencias entre los tratamientos, la cantidad Fc del cuadro de Análisis de

Variancia seguiría una distribución F con los grados de libertad de tratamientos y

del error. Entonces, se puede utilizar esta distribución para evaluar la hipótesis nula

de que no hay diferencias entre las medias de los tratamientos.

Ejemplo.

El vicepresidente de mercadeo de un banco importante planea poner en marcha

cierto tipo de promociones para atraer nuevos clientes en cuatro sucursales del

banco. Él está convencido de que diferentes tipos de promociones atraerán a

personas de diferentes grupos de ingreso, por lo que, de haber diferencias entre los

ingresos promedio de los clientes de cada sucursal, se optará por un programa de

promociones distinto para cada una. Considere a los montos de los depósitos como

una medida representativa de los ingresos de los clientes. En la siguiente tabla se

presentan datos para una muestra aleatoria de 7 depósitos desde cada sucursal (en

miles de soles) ¿Debe el vicepresidente optar por un programa de promociones

distinto para cada sucursal? Evalúe esta posibilidad con un nivel de significación del

5%.

55

Depósito Sucursal 1 Sucursal 2 Sucursal 3 Sucursal 4 1 5,3 3,3 3,6 4,3 2 2,6 4,6 2,8 2,5 3 3,6 2,1 4,5 1,8 4 3,8 3,5 3,8 3,0 5 2,7 5,0 1,9 3,9 6 5,1 2,8 4,1 3,5 7 4,2 2,5 5,1 4,1

Total Yi. 27,3 23,8 25,8 23,1 Y.. = 100

Solución.

H0: 1 = 2 = 3 = 4 = 0

H1: Al menos un i ≠ 0

Los totales para las cuatro muestras son, respectivamente, 27,3, 23,8, 25,8 y 23,1, el

gran total es 100, y los cálculos con que se obtienen las sumas de cuadrados

necesarias son los siguientes:

1429,35728

)100(

.

2

24

1

7

1

n

yi j

ij

5686,11429,3577

)1,23()8,25()8,23()3,27(SC(Tr)

0171,2714,357)1,4(...)6,2()3,5(SCT

2222

222

La tabla del análisis de variancia es:

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Cuadrado

medio Fc Ft

Tratamientos 4 – 1 = 3 1,5686 0,5229 0,4931 3,01

Error 28 – 4 = 24 25,4486 1,0604

Total 28 – 1 = 27 27,0171

Puesto que el valor obtenido para Fc es menor que 3,01, que corresponde al valor F

0,05 con 3 y 24 grados de libertad, la hipótesis nula no puede ser rechazada con un

nivel de significación de 0,05; se concluye entonces que no se puede rechazar la

hipótesis de que las medias de los depósitos en las 4 sucursales son iguales y la

recomendación sería no implementar programas de promociones diferentes para

cada sucursal.

56

A continuación se presenta la salida del SPSS para el análisis de variancia para una

vía de este ejemplo, junto con las pruebas para la verificación de los supuestos.

Supuesto de Homogeneidad de Variancias:

H0: 2

4

2

3

2

2

2

1 (esto es, la variancia es la misma en las cuatro sucursales)

H1: Al menos una variancia es diferente.

4

3

2

1

3.02.52.01.51.00.5

Su

cu

rsa

l

95% Bonferroni Confidence Intervals for StDevs

Test Statistic 0.19

P-Value 0.980

Test Statistic 0.04

P-Value 0.988

Bartlett's Test

Levene's Test

Test for Equal Variances for Depósitos

Con un valor de probabilidad de 0.98, el resultado de esta prueba indica que no hay

suficiente evidencia estadística para rechazar el supuesto de homogeneidad de

variancias.

Supuesto de Normalidad:

H0: Los errores del modelo tienen distribución normal.

H1: Los errores del modelo no tienen distribución normal.

57

210-1-2

99

95

90

80

70

60

50

40

30

20

10

5

1

RESI1

Pe

rce

nt

Mean 5.551115E-17

StDev 0.9708

N 28

KS 0.081

P-Value >0.150

Probability Plot of RESI1Normal

Con un valor de probabilidad de 0.150, el resultado de esta prueba indica que no hay

suficiente evidencia estadística para rechazar el supuesto de normalidad.

Análisis de Variancia:

General Linear Model: Depósitos versus Sucursal Factor Type Levels Values

Sucursal fixed 4 1, 2, 3, 4

Analysis of Variance for Depósitos, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P

Sucursal 3 1.569 1.569 0.523 0.49 0.690

Error 24 25.449 25.449 1.060

Total 27 27.017

S = 1.02974 R-Sq = 5.81% R-Sq(adj) = 0.00%

5.3. Prueba para la diferencia de medias

Se supone que el experimentador tiene a su disposición mediciones relativas a

varios tratamientos. El análisis de variancia indica si hay evidencias de que al menos

una de las medias sea diferente o no. Cuando se rechaza la hipótesis nula, el análisis

de variancia no revela cuál o cuáles de las medias son significativamente diferentes;

en estos casos se deben utilizar otras pruebas estadísticas.

58

Método de Comparaciones Múltiples: Prueba de Tukey-Kramer:

Cuando el experimentador desea determinar todos los pares de medias que se puede

concluir que difieren de otro (µi vs µj) se utilizan las pruebas de comparaciones

múltiples, como la de Tukey-Kramer. Con esta prueba, con el fin de probar todas

las hipótesis nulas simultaneas H0: µi - µj = 0, los estadísticos de prueba son:

√

(

)

Donde CME es el cuadrado medio del error del Análisis de Varianza, Ji y Jj son los

tamaños de muestra de los tratamientos i y j respectivamente.

Ejemplo

Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento

de estaño de discos por cuatro laboratorios diferentes.

Laboratorio A Laboratorio B Laboratorio C Laboratorio D Total

0,25 0,18 0,19 0,23

0,33 0,28 0,25 0,30

0,22 0,21 0,27 0,28

0,30 0,23 0,24 0,28

0,27 0,25 0,18 0,24

0,28 0,20 0,26 0,34

0,32 0,27 0,28 0,20

0,24 0,19 0,24 0,18

0,31 0,24 0,25 0,24

0,26 0,22 0,20 0,28

0,20 0,29 0,21 0,22

0,28 0,16 0,19 0,21

Total 3,26 2,72 2,76 3,00 11,740

Media 0,272 0,227 0,230 0,250

La tabla del análisis de variancia es:

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Cuadrado

medio

Fc Ft

Laboratorios 3 0,0156 0,0052 3,133 2,82

Error 44 0,0728 0,0017

Total 47 0,0884

Determine qué medias difieren de las otras. Use un nivel de significación 05.0 .

59

Desarrollando el ejemplo utilizando el MINITAB se obtienen los siguientes

resultados:

0.100.050.00-0.05-0.10

99

95

90

80

70

60

50

40

30

20

10

5

1

RESI2

Pe

rce

nt

Mean -8.67362E-18

StDev 0.03937

N 48

KS 0.077

P-Value >0.150

Probability Plot of RESI2Normal

D

C

B

A

0.100.090.080.070.060.050.040.030.02

La

bo

rato

rio

95% Bonferroni Confidence Intervals for StDevs

Test Statistic 0.96

P-Value 0.810

Test Statistic 0.26

P-Value 0.852

Bartlett's Test

Levene's Test

Test for Equal Variances for Pesos de Recubrimiento

¿Cuáles son las hipótesis?

Ho: ………………………………………………

H1: ………………………………………………

¿Cuáles son las hipótesis?

Ho: ………………………………………………

H1: ………………………………………………

60

General Linear Model: Pesos de Recubrimiento versus Laboratorio Factor Type Levels Values

Laboratorio fixed 4 A, B, C, D

Analysis of Variance for Pesos de Recubrimiento, using Adjusted SS for Tests


Laboratorio 3 0.015558 0.015558 0.005186 3.13 0.035

Error 44 0.072833 0.072833 0.001655

Total 47 0.088392

S = 0.0406854 R-Sq = 17.60% R-Sq(adj) = 11.98%

Unusual Observations for Pesos de Recubrimiento

Pesos de

Obs Recubrimiento Fit SE Fit Residual St Resid

42 0.340000 0.250000 0.011745 0.090000 2.31 R

R denotes an observation with a large standardized residual.

Tukey 95.0% Simultaneous Confidence Intervals

Response Variable Pesos de Recubrimiento

All Pairwise Comparisons among Levels of Laboratorio

Laboratorio = A subtracted from:

Laboratorio Lower Center Upper

B -0.08940 -0.04500 -0.000604

C -0.08606 -0.04167 0.002729

D -0.06606 -0.02167 0.022729

Laboratorio --------+---------+---------+--------

B (--------*--------)

C (--------*--------)

D (--------*--------)

--------+---------+---------+--------

-0.050 0.000 0.050

Laboratorio = B subtracted from:

Laboratorio Lower Center Upper --------+---------+---------+-------

-

C -0.04106 0.003333 0.04773 (--------*--------)

D -0.02106 0.023333 0.06773 (--------*--------)

--------+---------+---------+-------

-

-0.050 0.000 0.050

Laboratorio = C subtracted from:

Laboratorio Lower Center Upper --------+---------+---------+--------

D -0.02440 0.02000 0.06440 (--------*--------)

--------+---------+---------+--------

-0.050 0.000 0.050

61

Tukey Simultaneous Tests

Response Variable Pesos de Recubrimiento

All Pairwise Comparisons among Levels of Laboratorio

Laboratorio = A subtracted from:

Difference SE of Adjusted

Laboratorio of Means Difference T-Value P-Value

B -0.04500 0.01661 -2.709 0.0456

C -0.04167 0.01661 -2.509 0.0724

D -0.02167 0.01661 -1.304 0.5651

Laboratorio = B subtracted from:



C 0.003333 0.01661 0.2007 0.9971

D 0.023333 0.01661 1.4048 0.5032

Laboratorio = C subtracted from:



D 0.02000 0.01661 1.204 0.6276

Estos resultados pueden resumirse en un diagrama de líneas como el que se muestra a

continuación. La idea es que los tratamientos unidos por una línea no presentan

diferencias significativas.

B C D A

0,227 0,230 0,250 0,272

5.4. Diseño con Bloques Completos al Azar

Se supone que el experimentador tiene a su disposición mediciones relativas a a

tratamientos aplicados sobre b bloques. Los bloques son utilizados para controlar

una fuente de variabilidad adicional a los tratamientos, que aunque no es el objetivo

fundamental de la investigación, puede ser identificada de antemano. Esto puede

ocurrir por ejemplo en experimentos en donde los datos se toman por días, y en

donde se sabe que los resultados pueden diferir entre los distintos días, o cuando

cada tratamiento es evaluado en un mismo individuo (una persona, una máquina,

etc), de modo que se espera que existan diferencias en los resultados atribuibles a

cada individuo. En términos más generales, la idea es que las observaciones sean lo

más homogéneas dentro del bloque y heterogéneas entre bloques.

Los bloques son completos porque todos los tratamientos aparecen en igual número,

usualmente una vez, dentro de cada bloque, y son al azar por que los tratamientos

son asignados aleatoriamente dentro de cada bloque.

62

Los datos a analizar pueden arreglarse en una tabla como la que se muestra a

continuación:

Bloques

Tratamientos Totales

T1 T2 T3 ... Ti ... Ta

B1 y11 y21 y31 ... yi1 ... ya1 1.y

B2 y12 y22 y32 ... yi2 ... ya2 2.y

B3 y13 y23 y33 ... yi3 ... ya3 3.y

.

.

.

.

.

.

.

.

.

.

.

.

...

...

...

.

.

.

...

...

...

.

.

.

.

.

.

Bj y1j y2j y3j ... yij ... yaj jy.

. . . . ... . ... .

Bb y1b y2b y3b ... yib ... yab by.

Totales .1y .2y .3y ... .iy ... .ay ..y

Cada observación puede ser expresada con el siguiente modelo lineal.

ijjiijy bjai ,...,2,1 ; ,...,2,1 para

donde:

yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.

: Es la gran media

i : Es el efecto del i-ésimo tratamiento.

j : Es el efecto del j-ésimo bloque.

ij : Es el error aleatorio correspondiente a la observación yij.

En este modelo se tiene que:

0011

b

j

j

a

i

i

63

Las sumas de cuadrados se pueden calcular con las siguientes fórmulas:

a

i

b

j

ijab

yy

1

2

..

1

2SCT

ab

y

b

ya

i

i

2

..

1

2

.SC(Tr)

ab

y

a

yb

j

j2

..

1

2

.SCB

SCBSC(Tr)SCTSCE

Tabla del análisis de variancia

Fuente de

variación

Grados de

libertad Suma de cuadrados Cuadrado medio F

Tratamientos a - 1 ab

y

b

ya

i

i

2

..

1

2

.SC(Tr)

1

SC(Tr)CM(Tr)

a

CME

)Tr(CMFT

Bloques b - 1 ab

y

a

yb

j

j2

..

1

2

.SCB

1

SCBCMB

b

Error (a - 1)(b - 1) SCBSC(Tr)SCTSCE )1)(1(

SCECME

ba

Total ab - 1

a

1i

2

..b

1j

2

ijab

yySST

Observe que en la tabla se puede obviar el valor de F para probar el efecto de los

bloques, la razón es que el experimento se diseñó para probar un solo factor. La

formación de bloques se hizo para eliminar tal variación del término CME. Pero, el

estudio no se diseñó para detectar las diferencias individuales para los niveles del

bloque.

Ejemplo

Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito

de aguas tóxicas por cada una de las tres agencias siguientes: la EPA, la compañía

propietaria de los lugares de depósito y un asesor independiente dedicados a asuntos

de ingeniería. Cada muestra fue analizada buscando detectar la presencia de cierto

contaminante por todos los métodos de laboratorio que la agencia que recolectó la

muestra suele emplear. Se consideraron los siguientes resultados:

64

Lugar A Lugar B Lugar C Lugar D Lugar E Suma

Agencia 1 23,8 7,6 15,4 30,6 4,2 81,6

Agencia 2 19,2 6,8 13,2 22,5 3,9 65,6

Agencia 3 20,9 5,9 14 27,1 3 70,9

Suma 63,9 20,3 42,6 80,2 11,1 218,1

¿Existe alguna razón para creer que las agencias no son, en sus mediciones,

consistentes entre sí? ¿Difiere una zona de depósito con respecto a cualquier otra en

su nivel de contaminación? Utilice un nivel de significación de 0,05.

Solución

1. Las hipótesis nula y alterna son.

igualessonlastodasNoH

H

:

:

1

3210

2. El nivel de significación: 05,0 .

3. Criterio:

Para tratamientos, se rechaza la hipótesis nula si F > 4,46, el valor de F0,95 para 2

y 8 grados de libertad.

Para bloques, se rechaza la hipótesis nula si F > 3,84, el valor de F0,95 para 4 y 8

grados de libertad.

4. Cálculos.

Sustituyendo a = 3, b. = 5, y1. = 81,6, y2. = 65,6, y3. = 70,9 y.. = 218,1, y

97,43361 1

2

a

i

b

j

ijy en las expresiones para calcular la suma de cuadrados, se

obtiene:

17,3171)15(

)1,218( 2

23

1

5

1

ab

yi j

ij

96,21SCBSC(Tr)SCTSCE

26,111717,31713

)1,11(...

3

)9,63(SCB

57,2617,31715

)9,70(

5

)5,65(

5

)6,81(SC(Tr)

80,116517,317197,4336SCT

22

222

65

El cuadro de análisis de variancia es.

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Cuadrado

medio

F Ft

Tratamientos 3 – 1 = 2 26,57 13,29 4,84 4,46

Bloques 5 – 1 = 4 1117,26 279,32

Error (3-1)(5-1)=8 21,96 2,75

Total (3)(5) – 1 = 14 1165,80

5. Decisión.

Para tratamientos, como F > 4,46, concluimos que existen diferencias

significativas entre las agencias.

A continuación se presentan los resultados obtenidos con MINITAB para el

análisis de variancia.

General Linear Model: Contaminante versus Agencias, Lugares Factor Type Levels Values

Agencias fixed 3 Agencia 1, Agencia 2, Agencia 3

Lugares fixed 5 A, B, C, D, E

Analysis of Variance for Contaminante, using Adjusted SS for Tests


Agencias 2 26.57 26.57 13.29 4.84 0.042

Lugares 4 1117.26 1117.26 279.32 101.75 0.000

Error 8 21.96 21.96 2.75

Total 14 1165.80

S = 1.65685 R-Sq = 98.12% R-Sq(adj) = 96.70%

Unusual Observations for Contaminante

Obs Contaminante Fit SE Fit Residual St Resid

11 22.5000 25.3133 1.1318 -2.8133 -2.33 R



Response Variable Contaminante

All Pairwise Comparisons among Levels of Agencias

Agencias = Agencia 1 subtracted from:

Agencias Lower Center Upper -+---------+---------+---------+-----

Agencia 2 -6.194 -3.200 -0.2065 (---------*---------)

Agencia 3 -5.134 -2.140 0.8535 (---------*---------)

-+---------+---------+---------+-----

-6.0 -3.0 0.0 3.0


Agencias Lower Center Upper -+---------+---------+---------+-----

Agencia 3 -1.934 1.060 4.054 (---------*---------)

-+---------+---------+---------+-----

-6.0 -3.0 0.0 3.0

66


Response Variable Contaminante

All Pairwise Comparisons among Levels of Agencias



Agencias of Means Difference T-Value P-Value

Agencia 2 -3.200 1.048 -3.054 0.0375

Agencia 3 -2.140 1.048 -2.042 0.1642



Agencias of Means Difference T-Value P-Value

Agencia 3 1.060 1.048 1.012 0.5906

5.5. Experimento Factorial axb.

Usualmente en los experimentos se desea estudiar el efecto de dos o más factores.

Por diseño factorial se entiende que en cada ensayo o réplica completa del

experimento se investigan todas las combinaciones posibles de los niveles de los

factores.

Por ejemplo.

Factor A: con a niveles

Factor B: con b niveles.

Entonces cada réplica puede contener todas la ab combinaciones de los tratamientos.

5.5.1. Tipos de modelos

Modelo de efectos fijos

Cuando el investigador sólo está interesado en estudiar ciertos niveles de los

factores involucrados y por lo tanto la selección no es aleatoria. Los resultados sólo

serán útiles para los niveles considerados en el estudio y las hipótesis están referidas

a las medias de los niveles seleccionados. En esta sección solo se tratará el caso de

un experimento factorial con dos factores fijos.

Modelo de efectos aleatorios

Cuando el investigador está interesado en un gran número de posibles niveles, y no

es posible estudiarlos todos, la mejor manera de estudiarlos es seleccionar

aleatoriamente una cantidad de niveles de la población de niveles de cada factor en

estudio. Los resultados podrán generalizarse para toda población de niveles. En este

caso las hipótesis están referidas a la variancia de los factores.

67

Modelo de efectos mixtos

Cuando los niveles de algunos de los factores son elegidos aleatoriamente y los

niveles de los otros factores, también considerados en el estudio, son fijados por el

investigador.

5.5.2. Diseño factorial de dos factores

En la práctica se suele trabajar con diseños de dos factores, A y B, donde cada factor

tiene dos o más niveles.

Ejemplo

Un ingeniero está diseñando una batería que se usará en un dispositivo que se

someterá a variaciones de temperatura extrema. El único parámetro de diseño que

puede seleccionar en este punto es el material de la placa o ánodo de la batería y

tiene tres elecciones posibles. Cuando el dispositivo esté fabricado y se envíe al

campo, el ingeniero no tendrá control sobre las temperaturas extremas en las que

operará el dispositivo, pero sabe por experiencia que la temperatura probablemente

afectará la vida efectiva de la batería. El ingeniero decide probar los tres materiales

de la placa con tres niveles de temperatura, 15, 70 y 125°F, ya que estos niveles de

temperatura son consistentes con el medio ambiente donde se usará finalmente el

producto. Se prueban cuatro baterías con cada combinación del material de la placa

y la temperatura, y las 36 pruebas se corren de manera aleatoria. La tabla siguiente

muestra los resultados obtenidos.

Vida en horas de las baterías

Tipo de

material (A)

Temperatura (B)

15°F 70°F 125°F

M1 130 155 34 40 20 70

74 180 80 75 82 58

M2 150 188 136 122 25 70

159 126 106 115 58 45

M3 138 110 174 120 96 104

168 160 150 139 82 60

¿Qué efectos tienen el tipo de material y la temperatura sobre la vida de la batería?

Las observaciones de un experimento factorial de este tipo pueden describirse con el

siguiente modelo:

( )

donde:

1,2,...,

1,2,...,

1,2,...,

ijk i j ij ijky

i a

j b

k n

68

En este modelo es el efecto de la media global, i es el efecto del nivel i-ésimo

del factor A, j es el efecto del nivel j-ésimo del factor B, ( )ij es el efecto de la

interacción entre i y j , y ijk es un componente de error aleatorio. Se supone que

los errores tienen distribución normal con media cero y variancia constante.

5.5.3. Pruebas de hipótesis

Asumiendo que ambos factores son fijos las hipótesis a probar están dadas por:

Efecto principal del factor A:

0 1 2

1

: ... 0

: al menos un 0

a

i

H

H

Efecto principal del factor B:

0 1 2

1

: ... 0

: al menos un 0

b

j

H

H

Efecto de la interacción entre ambos factores:

0

1

: ( ) 0 ,

: al menos un ( ) 0

ij

ij

H i j

H

5.5.4. Descomposición de la suma de cuadrados

En este diseño, el cuadro de análisis de variancia está dado por:

Fuentes de

Variación

Grados de Libertad

(gl)

Sumas de

Cuadrados (SC)

Cuadrados Medios

(CM) Fc

A a – 1 SC(A) SC( )

gl( )

A

A

CM( )

CM(Error)

A

B b – 1 SC(B) SC( )

gl( )

B

B

CM( )

CM(Error)

B

AB (a – 1)(b-1) SC(AB) SC( )

gl( )

AB

AB

CM( )

CM(Error)

AB

Error

Experimental ab( n – 1) SC(Error)

SC(Error)

gl(Error)

Total abn – 1 SC(Total)

69

A continuación se presenta el cuadro de análisis de variancia para el ejemplo tratado

en esta sección:

Fuentes de

Variación

Grados de

Libertad (gl)

Sumas de

Cuadrados (SC)

Cuadrados

Medios (CM) Fc p

A 2 10683,72 5341,86 7,911 0,0020

B 2 39118,72 19559,36 28,968 0,0000

AB 4 9613,78 2403,44 3,560 0,0186

Error

Experimental 27 18230,75 675,21

Total 35 77646.97

Los resultados de este análisis indican lo siguiente:

Para el factor A: Se rechaza H0, por lo que se concluye que hay diferencias

significativas en el tiempo medio de duración de las baterías dependiendo del tipo

de material.

Para el factor B: Se rechaza H0, por lo que se concluye que hay diferencias

significativas en el tiempo medio de duración de las baterías dependiendo de la

temperatura.

Para la interacción: Se rechaza H0, por lo que se concluye que existe un efecto de

interacción entre el tipo de material y la temperatura.

Como la interacción es significativa, las comparaciones entre las medias de uno de

los factores pueden ser empañadas por la interacción AB. En estos casos, es

recomendable basar las conclusiones en un gráfico como el que se muestra a

continuación:

0.0

25.0

50.0

75.0

100.0

125.0

150.0

175.0

15 °F 70 °F 125 °F

Vid

a p

rom

ed

io

Temperatura

Gráfica tipo de material-temperatura

M1

M2

M3

70

De este gráfico se pueden desprender las siguientes conclusiones:

Cuando la temperatura de operación es de 15°F, aparentemente los tres

materiales resultan igualmente eficientes.

Cuando la temperatura de operación es de 70°F, el material M3 parece ser la

mejor opción seguido del material M2.

Cuando la temperatura de operación es de 125°F, el material M3 parece ser la

mejor opción. Con los materiales M1 y M2 se obtienen rendimientos más bajos

e indistinguibles.

A continuación se muestra el análisis efectuado con MINITAB:

General Linear Model: Vida (horas) versus Tipo De Material, Temperatura Factor Type Levels Values

Tipo De Material fixed 3 M1, M2, M3

Temperatura fixed 3 125°F, 15°F, 70°F

Analysis of Variance for Vida (horas), using Adjusted SS for Tests


Tipo De Material 2 10683.7 10683.7 5341.9 7.91 0.002

Temperatura 2 39118.7 39118.7 19559.4 28.97 0.000

Tipo De Material*Temperatura 4 9613.8 9613.8 2403.4 3.56 0.019

Error 27 18230.8 18230.8 675.2

Total 35 77647.0

S = 25.9849 R-Sq = 76.52% R-Sq(adj) = 69.56%

Unusual Observations for Vida (horas)

Vida

Obs (horas) Fit SE Fit Residual St Resid

2 74.000 134.750 12.992 -60.750 -2.70 R

8 180.000 134.750 12.992 45.250 2.01 R



Response Variable Vida (horas)

All Pairwise Comparisons among Levels of Tipo De Material

Tipo De Material = M1 subtracted from:

Tipo De

Material Lower Center Upper ----+---------+---------+---------+--

M2 -1.162 25.17 51.50 (---------*----------)

M3 15.588 41.92 68.25 (----------*---------)

----+---------+---------+---------+--

0 25 50 75


Tipo De

Material Lower Center Upper ----+---------+---------+---------+--

M3 -9.579 16.75 43.08 (----------*---------)

----+---------+---------+---------+--

0 25 50 75

71



All Pairwise Comparisons among Levels of Tipo De Material


Tipo De Difference SE of Adjusted

Material of Means Difference T-Value P-Value

M2 25.17 10.61 2.372 0.0628

M3 41.92 10.61 3.951 0.0014


Tipo De Difference SE of Adjusted

Material of Means Difference T-Value P-Value

M3 16.75 10.61 1.579 0.2718



All Pairwise Comparisons among Levels of Temperatura

Temperatura = 125°F subtracted from:

Temperatura Lower Center Upper ---+---------+---------+---------+---

15°F 54.34 80.67 107.00 (----*----)

70°F 17.09 43.42 69.75 (-----*----)

---+---------+---------+---------+---

-50 0 50 100


Temperatura Lower Center Upper ---+---------+---------+---------+---

70°F -63.58 -37.25 -10.92 (-----*----)

---+---------+---------+---------+---

-50 0 50 100



All Pairwise Comparisons among Levels of Temperatura



Temperatura of Means Difference T-Value P-Value

15°F 80.67 10.61 7.604 0.0000

70°F 43.42 10.61 4.093 0.0010



Temperatura of Means Difference T-Value P-Value

70°F -37.25 10.61 -3.511 0.0044

72

Ejercicios

1) Para determinar la mejor disposición de los instrumentos sobre el tablero de control

de un aeroplano, se prueban tres distintos arreglos simulando una situación de

emergencia y se observa el tiempo de reacción requerido para corregir la avería. Los

tiempos de reacción (en décimas de segundo) de 28 pilotos (aleatoriamente

asignados a los diversos arreglos) son los siguientes:

Total

Disposición 1 14 13 9 15 11 13 14 10 12 111

Disposición 2 10 12 9 7 11 8 12 9 10 13 101

Disposición 3 11 5 9 10 6 8 8 7 6 70

282

2 3030ijy

a) Con un nivel de significación de 0.01 pruebe si se puede rechazar la hipótesis

nula de que las diferencias entre las disposiciones no tienen efecto alguno.

b) De rechazar la hipótesis nula en a), realice la prueba de Duncan.

2) En un estudio se investigó la importancia de los valores éticos corporativos entre

personas que se especializan en mercadotecnia. Los datos siguientes muestran las

puntuaciones sobre la evaluación realizada; las puntuaciones más altas indican

valores éticos mayores.

a) Indique el modelo lineal e intérprete sus componentes.

b) Usando 0,05 pruebe si hay diferencias significativas en la importancia de

los valores entre los tres grupos.

Gerentes de

mercadotecnia

Investigadores de

mercadotecnia

Publicidad

5432

ijy

5 2 8

5 3 9

4 2 6

5 4 9

4 3 6

4 4 8

Total 27 18 46

3) Un ingeniero industrial prueba cuatro diferentes disposiciones de los anaqueles de

una tienda de departamentos que cuenta con seis cuadrillas de trabajadores para

ensamblar. Cada cuadrilla monta los anaqueles en cada una de las cuatro diferentes

disposiciones y se mide el tiempo que emplean (en minutos).

73

Arreglo 1 Arreglo 2 Arreglo 3 Arreglo 4 Total

Cuadrilla A 48,2 53,1 51,2 58,6 211,1

Cuadrilla B 49,5 52,9 50,0 60,1 212,5

Cuadrilla C 50,7 56,8 49,9 62,4 219,8

Cuadrilla D 48,6 50,6 47,5 57,5 204,2

Cuadrilla E 47,1 51,8 49,1 55,3 203,3

Cuadrilla F 52,4 57,2 53,5 61,7 224,8

Total 296,5 322,4 301,2 355,6 1275,7

Sabiendo que, 53,281682

ijy , pruebe con un nivel de significación de 0,01 si

las cuatro disposiciones producen distintos tiempos promedio de montaje.

4) En un estudio se asignan tres dietas por un período de tres días a cada uno de seis

sujetos en un diseño de bloques completos al azar. A los sujetos, que juegan el papel

de bloques, se les asignan las siguientes tres dietas en orden aleatorio.

Dieta 1: mezcla de grasa y carbohidratos

Dieta 2: alta en grasa

Dieta 3: alta en carbohidratos

Al final del período de tres días cada sujeto se coloca un aparato para caminata y se

mide el tiempo de agotamiento en segundos. Se registraron los siguientes datos:

Sujeto Total

Dieta I II III IV V VI

1 84 35 91 57 56 45 368

2 91 48 71 45 61 61 377

3 122 53 110 71 91 122 569

Total 297 136 272 173 208 228 1314

a) Defina el modelo en términos del problema.

b) Utilice nivel de significación de 0,01 para determinar si hay diferencias

significativas entre las dietas.

5) Una empresa de pedidos por correo diseñó un experimento factorial para investigar

el efecto que tiene el tamaño de un anuncio en revistas y el diseño mismo del

anuncio, sobre la cantidad de pedidos recibidos (en miles). Se consideraron tres

diseños de anuncios y dos tamaños de anuncios. Los datos que se obtuvieron

aparecen en la tabla siguiente. Aplique el procedimiento de análisis de variancia

para experimentos factoriales e investigue si hay efectos apreciables debidos al tipo

de diseño, tamaño del anuncio o interacción entre esos dos factores. Use 05,0 .

74

Tamaño del anuncio

Pequeño Grande Total

58822 ijky Diseño

A

8 12 20

12 8 20

14 16 30

B

22 26 48

14 30 44

20 30 50

C

10 18 28

18 14 32

15 17 32

Total 84 133 171

6) Se diseñó un experimento factorial para determinar si hay diferencias significativas

en el tiempo necesario para traducir del inglés a otra lengua con dos sistemas de

traducción computarizado. Como se cree que un factor importante es el idioma al

que se va a traducir, se hicieron traducciones con ambos sistemas para tres idiomas

distintos; español, francés y alemán. Use los datos siguientes para el tiempo de

traducción, en horas.

Sistema Idioma

Español Francés Alemán

Sistema 1

8 10 12

12 14 16

10 12 14

Sistema 2

6 14 16

10 16 22

14 20 24

a) Defina el modelo aditivo lineal e intérprete sus componentes.

b) Determine si hay diferencias importantes debidas al programa de traducción, al

idioma y a su interacción. Use .05,0α

7) El Director de un supermercado

está interesado en estudiar el

efecto llamado de estantería en las

ventas de un producto. El producto

se encuentra situado en A: a nivel

alcance, B: nivel de las manos, C:

a nivel de la vista. Para realizar el

experimento, los supermercados

han sido clasificados según su

tamaño. Analice los datos

considerando un nivel de

significación del 5%. Identifique el modelo y sus componentes, los factores, los

niveles del factor y la variable respuesta. Determine, si es posible, la mejor

combinación de niveles de los factores.

Tamaño del

Supermerca

do

Ubicación en la estantería

A nivel

alcance

Nivel de

las

manos

A nivel

de la

vista

Pequeño

55 67 76

60 83 83

62 74 80

Grande

80 85 92

98 97 103

84 90 98

75

Capítulo 6

Análisis de Correlación y Regresión

6.1 Introducción

El análisis de regresión lineal y de correlación comprende el estudio de los datos

muestrales para saber si dos o más variables de una población están relacionadas entre

sí.

El análisis de regresión lineal da como resultado una ecuación matemática que

describe cierta relación determinada. La ecuación puede usarse para estimar o predecir

los valores de una variable cuando se conocen o se suponen conocidos los valores de

otra variable.

El análisis de correlación da como resultado un número que resume el grado de

relación lineal existente entre dos variables. Es útil en un trabajo exploratorio cuando el

investigador desea encontrar el grado o la fuerza de esa relación.

6.2 El diagrama de dispersión

El primer paso en el análisis de regresión, es construir una gráfica de los datos

muestrales en un plano bidimensional. Esta gráfica se denomina diagrama de dispersión.

El diagrama de dispersión indica frecuentemente el tipo de tendencia de y con respecto a

x. Esta tendencia puede ser lineal o no lineal. En el primer caso se estimará una recta y

en el segundo caso una curva.

Ejemplo

Un comerciante al menudeo lleva a cabo un estudio para determinar la relación entre los

gastos semanales de publicidad y las ventas. Se registran los siguientes datos:

Costos de publicidad ($) Ventas ($)

40 500

20 400

25 395

20 365

30 475

50 510

40 490

20 420

50 560

40 525

25 420

50 525

Elabore el diagrama de dispersión de los datos.

76

Solución:

El diagrama es el siguiente:

6.3 El método de los mínimos cuadrados

El método más empleado para ajustar una línea recta a un conjunto de puntos es

conocido mínimos cuadrados, cuya recta resultante tiene dos características importantes:

La suma de las desviaciones verticales de los puntos con relación a la recta es cero;

y

La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra

recta daría una menor suma de cuadrados de tales desviaciones)

Simbólicamente el valor que se minimiza es:

n

1i

2

ii )yy(

Los valores de 10 y que minimizan la suma de los cuadrados de las desviaciones,

son las soluciones de las llamadas ecuaciones normales de la recta de regresión:

n

1i

2

i1

n

1i

i0i

n

1i

i

n

1i

i10

n

1i

i

xxyx

xny

Diagrama de dispersión del costo de publicidad y

las ventas

0

100

200

300

400

500

600

0 10 20 30 40 50 60

Costo de publicidad ($)

Ve

nta

s (

$)

77

Resolviendo las ecuaciones simultáneas para 10 y tenemos:

xˆyˆy

xxn

yxyxn

ˆ102

n

1i

i

n

1i

2

i

n

1i

i

n

1i

ii

n

1i

i

1

La línea recta estimada

La línea recta tiene dos importantes componentes:

La pendiente de la recta y

La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)

La ecuación lineal es la siguiente:

i10i xˆˆy

Ejemplo 9.2.- Estime la ecuación de la recta del ejemplo anterior.

Nº Costos de

publicidad ($), x Ventas ($), y xy x2 y2

1 40 500 20000 1600 250000

2 20 400 8000 400 160000

3 25 395 9875 625 156025

4 20 365 7300 400 133225

5 30 475 14250 900 225625

6 50 510 25500 2500 260100

7 40 490 19600 1600 240100

8 20 420 8400 400 176400

9 50 560 28000 2500 313600

10 40 525 21000 1600 275625

11 25 420 10500 625 176400

12 50 525 26250 2500 275625

Suma 410 5585 198675 15650 2642725

9543,301ˆ7843,4)410()15650(12

)5585)(410()198675(12ˆ021

Pendiente Punto de corte

78

Descomposición de la varianza total.

La distancia )yy( i se puede descomponer de la siguiente manera:

)yy()yy()yy( iiii

Elevando al cuadrado ambos miembros y aplicando sumatorias se tiene:

)yy()yy(2)yy()yy(

)yy()yy()yy(

i

n

1i

i

n

1i

2

ii

n

1i

2

i

n

1i

2

iii

n

1i

2

i

Operando algebraicamente se obtiene la siguiente relación:

SSESSRSST

)yy()yy()yy(n

1i

2

ii

n

1i

2

i

n

1i

2

i

Sumas de Cuadrados

n

y

y)yy(SST

2n

1i

in

1i

2

i

n

1i

2

i

n

x

xˆ)xx(ˆ)yy(SSR

2n

1i

in

1i

2

i

2n

1i

2

i

2n

1i

2

i 11

SSRSST)yy(SSEn

1i

2

ii

X

Y

(xi, yi)

i10i xˆˆy

xi

yi

x

y

yyi

ii yy

yyi

79

Coeficiente de determinación y de no determinación

El coeficiente de determinación (r2) y de no determinación (1-r

2) se calcula de la

siguiente manera:

SST

SSR1)r1(

y SST

SSRr

2

2

El coeficiente de determinación (r2) expresa el porcentaje de la variabilidad total que es

explicada por la regresión.

Error estándar de la estimación.

El error estándar de la estimación mide la variabilidad, o dispersión, de los valores

muestrales y observados alrededor del plano de regresión.

CMEn

SSE

pn

SSESe

2

Donde p es el número de parámetros a estimar.

Coeficiente de correlación

El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos

variables X e Y, donde el coeficiente de correlación poblacional se denota por

varía dentro del intervalo de -1 y 1.

Si 0 entonces indicará que no existe correlación o asociación entre las variables

mientras que cuando se acerca a 1 o a -1 indicará que existe una asociación fuerte, y

cuando es exactamente 1 ó -1 la asociación es perfecta.

El est es “r” y se calcula mediante la siguiente fórmula:

2n

1i

i

n

1i

2

i

2n

1i

i

n

1i

2

i

n

1i

i

n

1i

i

n

1i

ii

yyn.xxn

yxyxn

r

80

6.4 Análisis de regresión no lineal

Se ha visto que los modelos lineales son útiles en muchas situaciones y aunque la

relación entre la variable respuesta y las variables regresoras no sea lineal, en muchos

casos, la relación es “linealizable” en el sentido de que transformando (tomar logaritmos,

calcular la inversa,...) la variable respuesta y/o algunas variables regresoras la relación

es lineal. Sin embargo, existen situaciones en que la relación no es lineal y tampoco es

linealizable, por ejemplo, si el modelo de regresión es el siguiente: i

xx

iiiey

2

.

En esta sección veremos algunos modelos linealizables.

La transformación de datos nos permite linealizar la relación entre dos variables, se

realiza cuado se sospecha y luego se verifica que no existe dependencia lineal entre las

variables en estudio. Las transformaciones que pueden mejorar el ajuste y la capacidad

de predicción del modelo son muy numerosas. Aquí se presenta algunas de las

trasformaciones.

Forma funcional que relaciona y con x Transformación apropiada Forma de regresión lineal simple

Exponencial : 1

0

xy e yy ln* Regresión de *y vs. x

Potencia: 1

0y x * ln ; * lny y x x Regresión de *y vs. *x

Polinomial: 2

0 1 2y x x Regresión de y vs. x e x2

Según que el diagrama de dispersión de los datos tienda a algunas de estas

funciones es que se deberá escoger el modelo adecuado.

Diagramas que describen las funciones de la tabla anterior.

a. Función exponencial

81

Procedimiento para la selección del mejor modelo

1. Hallar el coeficiente de determinación R2 de los modelos lineal, cuadrático,

exponencial y potencia.

2. Ordenarlos de mayor a menor según su R2.

3. Realizar el análisis del modelo que tenga el mayor R2, verificar si su coeficiente

de regresión es significativamente diferente de cero.

4. Si no se demuestra que el coeficiente de regresión modelo que tiene mayor R2 es

significativamente diferente de cero, se debe pasar a evaluar el siguiente modelo

con mayor R2, hasta encontrar un modelo cuyo coeficiente sea

significativamente diferente de cero.

Ejemplo:

Los siguientes datos representan el porcentaje usable de cierto tipo de

neumáticos radiales de alto rendimiento (y) después de haber sido empleados el

número de millas (x):

Millas conducidas (en miles) x Porcentaje usable y

1 98,2

2 91,7

5 81,3

10 64,0

20 36,4

30 32,6

40 17,1

a. Estime la mejor ecuación para el conjunto de datos.

b. Compruebe la existencia de modelo. Use nivel de significación 0.05.

c. Pronostique con 95% de confianza el porcentaje usable de los neumáticos,

luego se recorrer 25000 millas.

b. Función potencia

82

Resumen

Estadísticas de la regresión

Coeficiente de correlación

múltiple 0.989301

Coeficiente de determinación

R^2 0.9787165

R^2 ajustado 0.9744598

Error típico 0.1041876

Observaciones 7

y = -2.04x + 91.66

R² = 0.9332

0

20

40

60

80

100

120

0 10 20 30 40 50

% u

sab

le, y

Millas conducidas, x

Diagrama de dispersión

y = 99.496e-0.043x

R² = 0.9787

0

20

40

60

80

100

120

0 10 20 30 40 50

% u

sab

le, y

Millas conducidas, x

Diagrama de dispersión

83

ANÁLISIS DE VARIANZA

Grados de

libertad

Suma de

cuadrados

Promedio de los

cuadrados F

Valor crítico

de F

Regresión 1 2.4958 2.4958 229.9241 0.0000

Residuos 5 0.0543 0.0109

Total 6 2.5501

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Superior

95%

Intercepción 4.6001 0.0587 78.3686 0.0000 4.4492 4.7510

Millas conducidas (en

miles) x -0.0428 0.0028 -15.1632 0.0000 -0.0500 -0.0355

6.5 Regresión Múltiple

El objetivo del Análisis de Regresión Lineal Múltiple es relacionar una variable

respuesta y con un conjunto de variables predictoras x1, x2,…, xk, utilizando un

modelo lineal. Lo que se desea es poder estimar el valor medio de y y/o predecir

valores particulares de y a observar en el futuro cuando las variables predictoras

toman valores específicos.

6.5.1 Elección de las variables de predicción

Se debe tomar en cuenta los siguientes pasos para la selección de variables de un

modelo de regresión lineal múltiple:

Identificar la variable dependiente y las variables de predicción o predictoras

que se van a incluir en el modelo.

Seleccionar una muestra aleatoria, y registrar todas las variables para cada

elemento de la muestra.

Identificar las relaciones entre las variables de predicción y la dependiente, y

entre las propias variables de predicción (matriz de correlaciones).

6.5.2 El modelo de regresión lineal múltiple

kk xxxy 22110

donde:

y : variable respuesta que se quiere predecir.

0, 1,…, k : coeficientes de regresión.

x1, x2,…, xk : variables predictoras independientes.

: error aleatorio.

6.5.3 Supuestos del modelo de regresión lineal múltiple

Los errores tienen distribución normal.

Los errores tienen media igual a cero y varianza igual a 2.

84

Los errores aleatorios, digamos i, j, asociados a cualquier par de valores de la

variable dependiente y, son independientes.

6.5.4 Ecuación de regresión muestral

A partir de los datos de la muestra, se encuentran las estimaciones de los

parámetros:

kk xxxy ˆ...ˆˆˆˆ22110

donde:

y : valor estimado de la variable dependiente.

k ˆ,...,ˆ,ˆ,ˆ210 : estimaciones puntuales de los parámetros poblacionales.

x1, x2,... , xk : son las variables predictoras .

Estimación de los parámetros el modelo

Para estimar los parámetros del modelo de regresión lineal múltiple también se

utiliza el método de mínimos cuadrados. Considere una muestra de n observaciones:

nnkknnnn

kk

kk

xxxxy

xxxxy

xxxxy

...

...

...

3322110

2223322221102

1113312211101

Esta muestra puede ser expresada en forma matricial de la siguiente manera:

n

k

nknn

k

k

n xxx

xxx

xxx

y

y

y

2

1

2

1

0

21

22221

11211

2

1

...1

...1

...1

εβXY

Donde εXβY .

El estimador de mínimos cuadrados para el vector β es:

YXXXβ'' 1)(ˆ

Las propiedades estadísticas del estimador del vector de parámetros β son:

12 )()ˆ(Cov

)ˆ(E

XXβ

ββ

'

85

6.5.5 Coeficiente de regresión

Los valores k ˆ,...,ˆ,ˆ,ˆ210 se conocen como coeficientes de regresión estimados.

Un coeficiente de regresión estimado específico mide el cambio promedio en la

variable dependiente debido a un incremento de una unidad en la variable predictora

correspondiente, manteniendo constantes las otras variables de predicción.

Los errores estándar y la covarianza de los estimadores k ˆ,...,ˆ,ˆ,ˆ210 se

determinan mediante los elementos de la matriz 1)( XX

' de la siguiente manera:

kkkkk

k

k

k

cccc

cccc

cccc

cccc

...

...

...

...

210

2222120

1121110

0020100

1

XX´

Los errores estándar de los coeficientes estimados k ˆ,...,ˆ,ˆ,ˆ210 son:

kkc

c

c

c

k

ˆ

22ˆ

11ˆ

00ˆ

2

1

0

El estimador de 2 , la varianza de los errores es:

pnS

SCE2

Donde p es el número de parámetros a estimar.

6.5.6 El error estándar de la estimación

El error estándar de la estimación mide la variabilidad, o dispersión, de los valores

muestrales y observados alrededor del plano de regresión.

CMESCE

pn

Se

6.5.7 Coeficiente de determinación múltiple (r2)

El coeficiente de determinación múltiple mide el porcentaje de la variabilidad de y

que se puede explicar mediante las variables de predicción. Un valor de r2 cercano a

86

1 significa que la ecuación es muy exacta porque explica una gran porción de la

variabilidad de y. Se define como:

SCT

SCR2 r

Por cada variable independiente adicional en el modelo, el coeficiente de

determinación incrementará su valor. Por tal razón se suele calcular el coeficiente de

determinación corregido, útil para comparar el poder predictivo de modelos

alternativos con diferente número de variables independientes:

)1(1

1 22

corregido rpn

nr

6.5.8 Pruebas de hipótesis

Una vez que se ha recogido una muestra aleatoria, se han medido las variables, y se

ha examinado la matriz de correlaciones para determinar aquellas combinaciones de

variables que son de interés, se analizan los modelos con el mejor potencial. El

objetivo es encontrar la mejor ecuación para predecir y después decidir si ésta

ecuación satisface las necesidades de exactitud del analista.

6.5.8.1 Pruebas individuales

Las hipótesis nula y alternante para las pruebas individuales son:

0:H

0:H

1

0

i

i

y el estadístico de prueba es:

)(

ˆ

c ~ˆ

pn

i tt

I

Donde iicsi

ˆ

6.5.8.2 Prueba conjunta

Las hipótesis nula y alternante para la prueba conjunta son:

cero de diferente es un menos Al:H

0...:H

1

210

i

k

y el estadístico de prueba es:

),1(c ~CME

CMRpnpFF

87

6.5.9 Intervalos de confianza para los coeficientes de regresión

Los intervalos de confianza para los coeficientes de regresión se construyen a partir

de su estimación puntual y el error estándar como se muestra a continuación:

iipnjj cst )2/,(ˆ)(LC

6.5.10 Multicolinealidad

Cuando existe multicolinealidad es difícil distinguir qué cantidad del efecto

observado se debe a una variable de predicción individual. En otras palabras, si dos

variables están altamente correlacionadas, proporcionan casi la misma información

en el pronóstico.

Cuando dos variables tienen una alta correlación, los coeficientes k ˆ,...,ˆ,ˆ10 ,

estimadores de k ,..., 10 no son confiables. La estimación k de k puede no

ser siquiera cercana al valor de su correspondiente parámetro e inclusive podría ser

negativo cuando debiera ser positivo.

Regla práctica para seleccionar las variables predictoras en regresión múltiple.

Una variable predictora debe tener una correlación fuerte con la variable

dependiente.

Una variable predictora no debe tener una correlación demasiado alta con

ninguna otra variable predictora. (La correlación entre dos variables predictoras

debe estar muy por debajo de la menor de las dos correlaciones entre las

variables predictoras y la variable dependiente).

Cuando se produce la multicolinealidad, si el analista sólo quiere usar el modelo de

regresión para hacer pronósticos, la multicolinealidad puede no causar ninguna

dificultad seria.

Las consecuencias adversas son:

Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de

una muestra a otra (alta variabilidad).

Una variable independiente que tiene una relación positiva con la variable

dependiente puede producir un coeficiente de regresión negativo si la

correlación con otra variable independiente es alta.

Con frecuencia se usa la regresión múltiple como una herramienta interpretativa

para evaluar la importancia relativa de las distintas variables independientes.

Cuando las variables independientes se intercorrelacionan, explican la misma

varianza en el pronóstico de la variable dependiente. Por esto, es difícil separar

la influencia individual de cada variable independiente cuando la

multicolinealidad está presente.

88

6.5.11 SELECCIÓN DE VARIABLES EN REGRESIÓN

La Selección de variables o también llamada selección de un subconjunto de

predictoras es un procedimiento estadístico que es importante por diversas razones,

entre estas están:

a) No todas las variables predictoras tienen igual importancia, por lo tanto es más

eficiente trabajar con un modelo donde las variables importantes estén presentes

y las que tienen poca importancia no aparezcan.

b) Algunas variables pueden perjudicar la confiabilidad del modelo, especialmente

si están correlacionadas con otras, luego se hace necesario eliminarlas.

c) Computacionalmente es más fácil trabajar con un conjunto de variables

predictoras pequeño.

d) Es más económico recolectar información para un modelo con pocas variables.

e) Si se reduce el número de variables entonces el modelo se hace más

parsimonioso. Se dice que un modelo es parsimonioso si consigue ajustar bien

los datos pero usando la menor cantidad de variables predictoras posibles. Es

más conveniente porque sus predicciones son más confiables y además es más

robusto que el modelo original.

Desde que empezó a trabajarse en esta área en los años 60 y gracias al desarrollo de las

computadoras se han introducido muchos métodos de selección de variables. Aquí

describiremos sólo algunos de ellos.

A) Métodos “Stepwise”

La idea de este método (Efromyson, 1962) es elegir el mejor modelo pero incluyendo (o

excluyendo) una sola variable predictora en cada paso de acuerdo a ciertos criterios. El

proceso secuencial termina cuando una regla de parada se satisface.

Hay tres algoritmos posibles:

“Backward Elimination” (Eliminación hacia atrás)

En este caso se comienza con el modelo completo y en cada paso se va eliminando una

variable. Si resultara que todas las variables predictoras son no significativas entonces

no se hace nada. En caso contrario en cada paso la variable que se elimina del modelo es

aquella que satisface cualquiera de estos requisitos equivalentes:

a. Aquella variable que tiene el estadístico de F o de T (sin tomar en cuenta el signo)

más pequeño entre las variables incluidas aún en el modelo.

b. Aquella variable que produce la menor disminución en el R2 al ser eliminada del

modelo.

c. Aquella variable que tiene la correlación parcial más pequeña (en valor absoluto)

con la variable de respuesta, tomando en cuenta las variables que quedarían en el

modelo

.

Toda variable que es eliminada ya no vuelve a entrar.

El proceso termina cuando se cumple una de las siguientes condiciones:

89

a. Se llega a un modelo con un número prefijado p* de variables predictoras.

b. El valor de la prueba de F para todas las variables incluidas en el modelo son

mayores que un número prefijado F-out (por lo general este valor es 4, o es el que

corresponde a un nivel de significación dado, digamos del 10%). O en forma

equivalente, se para cuando el valor absoluto del estadístico de T para cada variable

es mayor que la raíz cuadrada de F-out (por lo general, |t|>2).

“Forward Selection” (Selección hacia adelante)

Aquí se empieza con la regresión lineal simple que considera como variable predictora a

aquella que está más altamente correlacionada (sin tomar en cuenta el signo) con la

variable de respuesta.

Si esta primera variable no es significativa entonces se para el proceso y se considera el

modelo , de lo contrario en el siguiente paso se añade al modelo la variable que

reúne cualquiera de estos requisitos equivalentes:

a) Aquella variable que tiene el estadístico de F o de T (sin tomar en cuenta el signo)

más grande entre las variables no incluidas aún en el modelo.

b) Aquella variable que produce el mayor incremento en el R2 al ser añadida al

modelo.

c) Aquella variable que tiene la correlación parcial más alta (en valor absoluto) con la

variable de respuesta, tomando en cuenta las variables ya incluidas en el modelo.

Toda variable que es añadida al modelo ya no puede salir.

El proceso termina cuando se cumple una de las siguientes condiciones:

a) Se llega a un modelo con un número prefijado p* de variables predictoras.

b) El valor de la prueba de F para cada una de las variables no incluidas aun en el

modelo es menor que un número prefijado F-in (por lo general este valor es 4, o el F

correspondiente a un nivel de significación prefijado, digamos 15%). O en forma

equivalente se para cuando el valor absoluto del estadístico de t es menor que la raíz

cuadrada de F-in (por lo general, |t|<2).

“Stepwise Selección” (Selección Paso a Paso)

Se puede considerar como una modificación del método “Forward”. Es decir

empezamos con un modelo de regresión simple y en cada paso se puede añadir una

variable en forma similar al método forward, pero se coteja si alguna de las variables

que ya están presentes en el modelo puede ser eliminada. Aqui se usan F-out y F-in con

F-in ≤ F-out. El proceso termina cuando ninguna de las variables que no han entrado

aún tiene importancia suficiente como para entrar al modelo.

90

Ejercicios

1) A doce unidades de acero reducido en frío con contenidos diferentes de cobre y

diferentes temperaturas de recocido se les mide su dureza con los resultados que se

muestran en la siguiente tabla. Ajuste una ecuación de la forma

exxy 22110 , donde x1 representa el contenido de cobre, x2 representa la

temperatura de recocido y y representa la dureza.

Dureza (Rockwell 30-T) Contenido de cobre (%) Temperatura del recocido

(grados F)

78.9

65.1

55.2

56.4

80.9

69.7

57.4

55.4

85.3

71.8

60.7

58.9

.02

.02

.02

.02

.10

.10

.10

.10

.18

.18

.18

.18

1000

1100

1200

1300

1000

1100

1200

1300

1000

1100

1200

1300

¿Cuál es el modelo estimado? ¿Qué porcentaje de la variabilidad total de la dureza

es explicado por el modelo? Evalúe la presencia de multicolinealidad.

2) La siguiente información se refiere a la ventas anuales (miles de dólares) de una

gran compañía distribuidora de partes para automóviles y los factores que se supone

la afectan como el número de tiendas al menudeo, el tamaño del parque automotor

(en millones de unidades), el ingreso personal total de la población (en miles de

millones de dólares), la antigüedad promedio de los automóviles (en años) y el

número de supervisores.

Ventas

anuales : Y

(mdd)

Número de

tiendas al

menudeo : X1

Número de

automóviles

registrados : X2

(millones)

Ingreso

Personal

(mmdd): X3

Antigüedad promedio

de los automóviles

(años) : X4

Número de

supervisores :

X5

37.702 1739 9.27 85.4 3.5 9

24.196 1221 5.86 60.7 5.0 5

32.055 1846 8.81 68.1 4.4 7

3.611 120 3.81 20.2 4.0 5

17.625 1096 10.31 33.8 3.5 7

45.919 2290 11.62 95.1 4.1 13

29.600 1687 8.96 69.3 4.1 15

8.114 241 6.28 16.3 5.9 11

20.116 649 7.77 34.9 5.5 16

12.994 1427 10.92 15.1 4.1 10

a) Determine el mejor modelo de regresión. Realice la selección de variables

usando el método Stepwise. Utilice un nivel de significación de 0,05.

b) Interprete los coeficientes del modelo estimado

estudios profesionales para ejecutivos - epe curso

Documents