estimación de parámetros

Post on 04-Dec-2015

316 Views

Category:

Documents

14 Downloads

Preview:

Click to see full reader

DESCRIPTION

Estimación de Parámetros, universidad continental de ciencias y ingeniería

TRANSCRIPT

ESTADÍSTICA

Muestreo y Estimación

Introducción Preguntas: ¿Cuál es el tiempo promedio de trabajo (en horas) de los

trabajadores de una empresa? ¿Cuál es el tiempo promedio que demoran en hacer una

determinada tarea los trabajadores del área de Mantenimiento? En un día, ¿qué porcentaje de los trabajadores solicitan permiso

para ausentarse por enfermedad? En promedio, ¿cuánto autos pasan por día por la caseta de peaje? Etc.

Inferencia Estadística

La inferencia estadística se refiere a los métodos y procesos para obtener conclusiones acerca de Poblaciones, basados en información muestral. Combinamos nuestro conocimiento sobre

el manejo de información con la teoría de probabilidades para poder derivar inferencias sobre la población, tomando como base información muestral.

El muestreo

En muchos problemas, los datos de sólo una parte de

la población (muestra), pueden dar la información

necesaria para tomar una decisión o probar una

hipótesis referente a la población o universo. El objetivo del muestreo es seleccionar una muestra

que sea representativa de la población. Para esto, se

debe determinar el método adecuado de selección, el

tamaño correcto de la muestra y la técnica de

estimación de las características de la población en

base a la muestra.

Parámetro y estadísticoUna característica especial de la población se denomina un parámetro, su contra parte en la muestra, se llama estadístico o estadígrafo.

Población MuestraCaracterísticas Parámetro Estadístico Media µ XProporciónpDesviación EstándarSVarianza S

En resumen, tomamos una muestra y usando las leyes de probabilidades logramos un estimado de los parámetros de la población.

P

Propiedad de la media muestral

Menor tamaño de muestra

X

f XMayor tamaño

de muestra

A medida que la muestra crece la media muestral se acerca a la media

verdadera

¿Qué tan grande debe ser la muestra?

Para la mayoría de las distribuciones se

obtiene una buena aproximación para n ≥ 30

Para distribuciones casi simétricas, n ≥ 15

Para poblaciones distribuidas normalmente, la

distribución muestral de la media siempre será

normalmente distribuida

Propiedad de la proporción muestral

Tamaño de muestra menor

Tamaño de muestra mayor

A medida que la muestra crece la proporción muestral se acerca a la

proporción poblacional)(Pf

Pp

Estimación de parámetros

Proceso de Estimación

Población Muestra

Estimador

Estimación

Población

μ=???

σ=???

μ Estimado=

σ Estimado= s

x

Estimación de parámetros

Definimos la población que nos interesa.

No conocemos sus parámetros. De la población se obtiene una

muestra aleatoria. A partir de la muestra, obtenemos

información acerca los parámetros desconocidos.

Métodos de estimación de parámetros

Estimación

EstimaciónPuntual

Estimación de Intervalo

Parámetro =

Número

Parámetro [a, b]

Métodos de estimación de parámetros

Estimación puntual Parámetro = Número

El 24% de los limeños tiene temor a sufrir un atraco o

asalto con armas, según sondeo PUCP de agosto 2009.

Estimación por intervalos Parámetro está en el intervalo [a, b]

El peso medio de las cajas de cereal está entre 248 y 252

gramos con una confianza del 95%

Estimación Puntual

El estadístico muestral usado para

estimar un parámetro de la población se llama estimador puntual, y un valor observado específico, calculado con los valores de la muestra se llama estimación puntual del parámetro de interés.

15

Estimadores Puntuales

Media

Proporción

Varianza

Desv. Estándar

p

Estimador Población Muestra

x

p2

s

2s

Estimación Puntual

El estimador puntual es una variable aleatoria y por lo tanto tiene una distribución de probabilidades

Una estimación puntual es insesgada si el valor esperado del estadístico es igual al parámetro poblacional que se está estimando.

X es un estimador insesgado de µ

es un estimador insesgado de p P

XE

pPE

22

1

2

2

)(

1

)

SE

n

X(XS

n

ii

La varianza muestral o cuasi varianza definida como:

Es un estimador insesgado de la varianza poblacional pues:

Ejemplo Una pizzería está estudiando la posibilidad de

colocar como publicidad, los días viernes, que garantiza sus entregas de pizzas en menos de 30 minutos, caso contrario la pizza será gratis. Para determinar si es capaz de lograrlo, un día viernes se realiza un muestreo de 40 entregas de pizzas.

Determine las siguientes estimaciones puntuales poblacionales (para todos los tiempos de entrega):

1. Tiempo promedio de entrega2. Desviación estándar de los tiempos de entrega3. Proporción muestral de los tiempos de entrega

que demoran 30 minutos o más.

REGISTRO DEL TIEMPO DE ENTREGA DE PIZZAS

1 252 153 304 315 306 207 228 129 2610 3211 2312 2313 2714 2915 1216 2117 2018 3019 2720 2821 2822 2523 2624 2025 1526 3227 3128 1329 3230 3031 2732 2033 2534 1535 1236 2137 3138 2139 3140 27

Num de orden

Tiempo de entrega (min)

Ejemplo (Continuación)

Las estimaciones respectivas son:

=24.13 min

S =6.26 min

= 0.275

x

P

Estimación por intervalos

Estimación por Intervalo

Describe un intervalo de valores dentro del cual es posible que esté el parámetro de la población. Basado en las observaciones de la

muestra. Da información sobre el error de la

estimación. Proporciona un grado de confianza para

determinar donde se ubica el parámetro de la población.

Proceso de estimación por intervalos

La media, , es desconocida

Población

Muestra aleatoria

La verdadera media de la población se

encuentra entre 40 y 60 con una

confianza del 95%

Media X = 50

Muestra

Media muestral

Intervalo de confianza

Intervalo de Confianza

Intervalo de ConfianzaEstadística de la

Muestra

Límite de Confianza Inferior

Amplitud de la estimación que estamos haciendo

Límite de Confianza Superior

Probabilidad de que el intervalo contenga al parámetro de la población que se está estimando

Se denota (1 - )x100 es la área bajo la curva en el ancho del

intervalo. es el área en cada extremo o cola.

Niveles de confianza típicos son:

99%, 95%, 90%

Nivel de Confianza

27

Intervalo y Nivel de Confianza

El IC se obtiene de la Distrib. de la Media Muestral

(1 - )x100% de los intervalos de las muestras contienen a

x

Interpretación del nivel de confianza

Ejemplo: Nivel de confianza = 95%

Si se seleccionan repetidamente 100

muestras de tamaño n, y calculamos las

medias de cada una de ellas, podremos

construir 100 intervalos de confianza. Se

espera o confía que 95 de ellos

contengan el parámetro y los 5

restantes no lo contengan.

z Scores

5% or 0.05

(z score will be positive)

z Scores

1.645

5% or 0.05

(z score will be positive)

(One z score will be negative and

the other positive)

z Scores

(One z score will be negative and

the other positive)

z Scores

(One z score will be negative and

the other positive)

z Scores

The Critical Value z2

Finding z2 for 95% Degree of Confidence

-z2z2

Critical Values

2 = 2.5% = .025

= 5%

z2 = ± 1.96

Use Table A-2to find a z score of 1.96

= 0.05

Finding z2 for 95% Degree

of Confidence

Intervalo de confianza para Población infinita

Varianza poblacional conocida

Varianza poblacional desconocida

nzx

nzx

2

12

1

n

stx

n

stx

nn 1,2

1,2

Intervalo de confianza para Población finita

Varianza poblacional conocida

Varianza poblacional desconocida

11 21

21

NnN

nzx

NnN

nzx

11 1,2

1,2

NnN

n

stx

NnN

n

stx

nn

Ejercicio

Se visitó 20 restaurantes de una cadena de comida rápida.

Durante cada visita se ordenó una comida básica (un sandwich, una porción de papas y una gaseosa).

Se registró el tiempo entre pedir y recibir la orden. Los siguientes datos son los tiempos (en minutos) para 20 visitas:

Ejercicio

Calcule e interprete un intervalo de confianza de 95% para la media poblacional

0,9 1,0 1,2 2,2 1,9 3,6 2,8 5,2 1,8 2,1

6,8 1,3 3,0 4,5 2,8 2,3 2,7 5,7 4,8 3,5

Ejercicio De un grupo de 50 analistas, se tomó

una muestra de tamaño 12, los cuales dieron sus opiniones acerca de las ganancias, en dólares, por acción del año 2004 para la empresa El Águila. Los datos son:

1,40 1,55 1,40 1,42 1,48 1,63 1,40 1,40 1,45 1,49 1,37 1,27

Ejercicio

Estime e interprete, con un nivel de confianza del 95%, la ganancia promedio poblacional por acción para la empresa El Águila según la opinión de los analistas.

Ejercicio Una oficina turística de Huaraz, encuestó

a 321 turistas de los 5 500 turistas que llegaron a Huaraz en el mes de abril, obteniendo un gasto promedio de $612 y una desviación estándar de $200.

Estime e interprete, con un nivel de confianza del 97%, el gasto medio de todos los turistas en su visita a Huaraz en el mes de abril.

Ejercicio Se pide al director de una sucursal

bancaria que estime el tiempo medio que se invierte en atender a un cliente. Quiere confiar al 99% en que la estimación de la media muestral no supere en más de 15 segundos a la media poblacional.

¿Cuántas observaciones debe recoger, si se sabe que la desviación estándar poblacional es de 2,7 minutos?

Ejercicio

El gasto semanal de los estudiantes de una universidad en fotocopias tiene una desviación estándar de 1.5 soles. Se tomó una muestra aleatoria de 50 alumnos y se encontró una media muestral de 4 soles en fotocopias a la semana.

Calcule e interprete un intervalo de confianza del 95% para dicho gasto.

47

48

Intervalos de confianza para p

Condiciones: Si n>30, , Población infinita

Población finita

5ˆ pn 5ˆ1 pn

npp

zppnpp

zpˆ1ˆ

ˆˆ1ˆ

ˆ2

12

1

1

ˆ1ˆˆ

1

ˆ1ˆˆ

21

21

NnN

npp

zppNnN

npp

zp

50

A una muestra aleatoria de 400 personas mayores de 28 años de una ciudad determinada se les preguntó si estaban a favor de un nuevo impuesto adicional del 4% en el precio de la gasolina para obtener fondos necesarios que se destinarían a un programa de asistencia social. Si en la muestra elegida se encontró que 245 estaban a favor del impuesto adicional, determine e interprete un intervalo de confianza del 90% para la verdadera proporción de personas a favor del nuevo impuesto.

51

Ejercicio Una empresa dedicada a la venta de

electrodomésticos, obtuvo una muestra aleatoria de 500 clientes, encontrándose que 311 clientes deseaban comprar sus televisores bajo la forma de pago a plazos.

Calcule e interprete un intervalo de confianza al 90% para la proporción poblacional de clientes que desean comprar sus televisores a plazos si su cartera de clientes está formada por 5000 clientes.

53

Una encuestadora llevó a cabo una encuesta a 508 personas mayores de 18 años de Lima Metropoli- tana entre el 14 y 16 de junio del presente año.

¿Cómo calificaría usted la situación actual de la limpieza p ública?

Muy buena Bu en a R eg ular M ala Muy m ala No precisa Total P orcenta je 3% 27% 42% 21% 6% 1% 100%

Calcule e interprete un intervalo del 98% de confianza para la verdadera proporción de personas mayores de 18 años de Lima Metropolitana que calificaron como buena la situación actual de la lim- pieza pública.

Ejercicio

El intervalo de confianza para la proporción poblacional a un nivel de confianza del 95% es 0.22,0.38.

Si la población es infinita, calcular el tamaño de muestra usado.

Copyright © 2004 Pearson Education, Inc.

Estimating a Population VarianceAssumptions

1. The sample is a simple random sample.

2. The population must have normally distributed values (even if the sample is large).

Copyright © 2004 Pearson Education, Inc.

where n = sample size

s 2 = sample variance

2 = population variance

Chi-Square Distribution

2 = 2(n – 1) s 2

Copyright © 2004 Pearson Education, Inc.

Properties of the Distribution of the Chi-Square Statistic

1. The chi-square distribution is not symmetric, unlike the normal and Student t distributions.

Figure 6-8 Chi-Square Distribution Figure 6-9 Chi-Square Distribution for df = 10 and df = 20

As the number of degrees of freedom increases, thedistribution becomes more symmetric. (continued)

Copyright © 2004 Pearson Education, Inc.

2. The values of chi-square can be zero or positive, but they cannot be negative.

3. The chi-square distribution is different for each number of degrees of freedom, which is df = n – 1 in this section. As the number increases, the chi- square distribution approaches a normal distribution.

In Table A-4, each critical value of 2 corresponds to an area given in the top row of the table, and that area represents the total region located to the right of the critical value.

Properties of the Distribution of the Chi-Square Statistic

(continued)

Copyright © 2004 Pearson Education, Inc.

Example: Find the critical values of 2 that determine critical regions containing an area of 0.025 in each tail. Assume that the relevant sample size is 10 so that the number of degrees of freedom is 10 – 1, or 9.

= 0.05/2 = 0.025

/2 = 0.975

Copyright © 2004 Pearson Education, Inc.

Critical Values: Table A-4Areas to the right of each tail

Copyright © 2004 Pearson Education, Inc.

Estimators of 2

The sample variance s is the best point estimate of the population

variance 2 .

2

Intervalos de confianza para la varianza

Varianza poblacional

Desviación estándar poblacional

2

2,1

22

2

21,1

2 11

nn

snsn

2

2,1

2

2

21,1

2 11

nn

snsn

Copyright © 2004 Pearson Education, Inc.

Procedure for Constructing a Confidence Interval for or 2

1. Verify that the required assumptions are met.

2. Using n – 1 degrees of freedom, refer to Table A-4 and find the critical values 2

R and 2Lthat

corresponds to the desired confidence level.3. Evaluate the upper and lower confidence interval limits using this format of the confidence interval:

2

(n – 1)s 2

2

R

(n – 1)s 2

2L continued

n = 106

x = 98.2o

s = 0.62o

= 0.05/2 = 0.025

1 –/2 = 0.975

Example: A study found the body temperatures of 106 healthy adults. The sample mean was 98.2 degrees and the sample standard deviation was 0.62 degrees. Find the 95% confidence interval for .

R

= 129.561, 2L = 74.222

(106 – 1)(0.62)2 < 2 < (106 – 1)(0.62)2

129.561 74.2220.31 < 2 < 0.540.56 < < 0.74

We are 95% confident that the limits of 0.56°F and 0.74°F contain the true value of . We are 95% confident that the standard deviation of body temperatures of all healthy people is between 0.56°F and 0.74°F.

Ejercicio Un fabricante de baterías para automóviles

tomó una muestra aleatoria de diez baterías y registró su duración, en años, obteniéndose los siguientes resultados:

Suponga que la duración de una batería sigue una distribución normal. Calcule e interprete un intervalo de confianza al 95% para la desviación estándar de la duración de una batería.

3,2 4,4 3,5 2,0 3,4 1,9 2,4 3,0 3,5 4,2

66

Ejemplo. Un fabricante de baterías para automóviles afirma que sus baterías durarán, en promedio, tres años con una varianza de un año. Si cinco de estas baterías tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años, construya un intervalo de confianza del 95% para la varianza real y decida si la afirmación del fabricante de es válida. Suponga que la población de duraciones de las baterías es de forma aproximadamente normal.

67

Problema. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el supervisor de una empresa electrónica tomó el tiempo que 20 técnicos tardaban en ejecutar esta tarea, obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos. Asuma que los tiempos tienen distribución normal. Construya e interprete un intervalo de confianza de 98% para la varianza real que lleva ensamblar el componente de la computadora.

Copyright © 2004 Pearson Education, Inc.

Determining Sample Size

Copyright © 2004 Pearson Education, Inc.

Example: We want to estimate , the standard deviation off all body temperatures. We want to be 95% confident that our estimate is within 10% of the true value of . How large should the sample be? Assume that the population is normally distributed.

From Table 6-2, we can see that 95% confidence and an error of 10% for correspond to a sample of size 191.

Distribución muestral de la razón de varianzas

Si y son las varianzas de muestras independientes de tamaño y respectivamente de poblaciones normales, entonces un intervalo de confianza para la razón de varianzas es:

2,1,122

21

22

21

2,1,122

21

12

21

1

nnnn

fS

S

fS

S

21S

22S

Ejemplo El gerente de un banco comercial de Lima

quiere evaluar el desempeño de dos sucursales, la primera ubicada en el distrito de Miraflores y la segunda en San Isidro.

Decide elegir dos muestras aleatorias del total de operaciones realizadas la última semana: 16 en Miraflores y 25 en San Isidro donde se registró, entre otras variables, el monto de operación (en dólares). Los resultados se muestran a continuación:

Ejemplo Hallar e interpretar un intervalo de

confianza del 95% para la razón de varianzas de los montos de operación en las sucursales de Miraflores y San Isidro. Asumir normalidad donde corresponda.

SucursalTamaño de

muestraMonto promedio

por operaciónDesviación estándar del

monto por operación

Miraflores 16 800 180

San Isidro 25 1200 220

Ejercicio Una empresa fabrica polos deportivos

y compra los hilos a dos proveedores. Para verificar que no existe diferencias en la resistencia de los hilos adquiridos a estos proveedores se toma una muestra de piezas de cada clase de hilo y se registró la resistencia en condiciones similares. Los datos se muestran a continuación.

Ejercicio Proveedor 1: Proveedor 2:

Calcule e interprete un intervalo de confianza del 90% para la razón de varianzas de las resistencias de los hilos de estos proveedores. Asumir poblaciones normales.

84.32 82.61 86.16 78.78 82.76 86.93 85.56 84.84

81.22 89.77 83.91 84.92 89.80 88.74 84.06 59.92

211 n 611.78x 093.3s

Distribución muestral de la diferencia de medias

Varianzas poblacionales conocidas

El intervalo de confianza es:

1,0

2

22

1

21

2121 N

nn

XXZ

2

22

1

21

21

21212

22

1

21

21

21 nnzxx

nnzxx

Distribución muestral de la diferencia de medias

Varianzas desconocidas supuestas iguales 2121 XXE

2

2

1

2

21 n

S

n

SXXV pp

2

)1()1(

21

2221

212

nn

nSnSS p

Distribución muestral de la diferencia de medias

La variable

se distribuye t-Student con (n1+n2–2) g.l. El intervalo de confianza es

2

2

1

2

2,2

21212

2

1

2

2,2

212121 n

S

n

Stxx

n

S

n

Stxx pp

nn

pp

nn

2

2

1

2

2121 )(

n

S

n

S

XX

pp

Distribución muestral de la diferencia de medias

Varianzas desconocidas supuestas diferentes

La variable se distribuye t-Student con v grados de libertad. El valor de v es el entero más cercano a

2121 XXE 2

22

1

21

21 nS

nS

XXV

2

22

1

21

2121 )(

n

S

n

S

XX

2

2

2

22

1

2

1

21

2

2

22

1

21

11

n

nS

n

nS

nS

nS

Distribución muestral de la diferencia de medias

El intervalo es

2

22

1

21

,2

21212

22

1

21

,2

21 nS

nS

txxnS

nS

txx

Ejercicio Construya un intervalo de confianza del

94% para la diferencia real entre las duraciones de dos marcas de focos, si una muestra de 40 focos tomada al azar de la primera marca dio una duración media de 418 horas, y una muestra de 50 focos de otra marca dieron una duración media de 402 horas. Las desviaciones estándares de las dos poblaciones son 26 horas y 22 horas, respectivamente.

Ejercicio Los siguientes datos representan los

tiempos, en minutos, de secado de un tipo de pintura, con y sin aditivo de secado.

Calcule un intervalo de confianza de 90% para la diferencia entre los tiempos de secado promedio de la pintura con y sin aditivo. Asuma varianzas poblacionales iguales.

Con aditivo 76 75 72 75 74 78 79 60 85 95 74 81 75 78

Sin aditivo 94 82 78 79 95 98 75 86 94 92 93 89

Ejercicio

Calcule un intervalo de confianza de 90% para la diferencia entre los tiempos de secado promedio de la pintura con y sin aditivo. Asuma varianzas poblacionales diferentes.

top related