estimacion estadistica

Statistics

Inferencial Statistics. Estimación

OpenUepc.com 1.1.5.5.2 Ver 01:05/02/2010

NOTA

La clasificación decimal de todos los temas de este manual tienen implícito el comienzo 1.1.5.5.2 correspondiente a

1 SCIENCE

1.1 MATHEMATICS

1.1.5 STATISTICS

1.1.5.5 INFERENCIAL STATISTICS

1.1.5.5.2 ESTIMACION

COPYLEFT

Este material así como los applets, powerpoints, videos y archivos de sonido asociados, puede ser distribuido bajo los términos y condiciones definidos en Open Publication License versión 1.0 o posterior (La versión más reciente está disponible en http://www.opencontent.org/openpub/).

El contenido está sujeto a constantes cambios sin previo aviso. Su fin es didáctico y solo pretende la universalización de la cultura. Está escrito en base a la colaboración de las miles de personas que componen nuestra comunidad OpenUepc. Se ha exigido a los autores que referencien todas las fuentes utilizadas y figuran al final del texto. Cualquier distribución del mismo debe mencionar a OpenUepc como fuente.

Miguel Pérez Fontenla [email protected]

INDICE AUTORES

Iniciado por: Miguel Pérez Fontenla

12/12/2009

Introduction 1

TABLA DE CONTENIDO

Introduction ............................................................................................................................... 2

Applications ........................................................................................................................... 3

Conceptos Básicos..................................................................................................................... 4

Estimación puntual ................................................................................................................ 4

Error y sesgo .......................................................................................................................... 5

Estimador insesgado .............................................................................................................. 5

Cuasivarianza......................................................................................................................... 6

Estimador eficiente ................................................................................................................ 8

Estimador consistente ............................................................................................................ 9

Estimación por intervalos .................................................................................................... 10

Intervalo de Confianza para la media µ conocida la varianza poblacional ...................... 11

Intervalo de confianza para la media µ conocida la varianza poblacional ....................... 13

Intervalo de confianza para la media µ si no se conoce la varianza ................................ 16

Intervalo de confianza para la proporción ....................................................................... 18

Intervalo de confianza para la varianza de una población normal ................................... 20

Intervalo de confianza para la diferencia de medias ........................................................ 22

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA ............................................................ 23

Tamaño de la muestra para estimar la media ...................................................................... 23

Tamaño de la muestra para estimar la proporción ........................................................... 26

Estimar el tamaño de la población a partir de una muestra ............................................. 28

Colección de ejercicios de estimación de parámetros ............................................................. 29

Introduction 2

Introduction

La inferencia estadística es el proceso usado para estudiar alguna característica de una población, habitualmente numerosa, a través de una muestra o parte más pequeña de la misma que nos haga manejable y económico llevar a cabo tal estudio.

Se divide en tres grandes campos:

• Muestreo

• Estimación

• Test de hipótesis

Ya hemos tratado el tema del muestreo por lo que de aquí en adelante supondremos que cada vez que tomemos una muestra de una población lo habremos hecho con la necesaria escrupulosidad y solvencia para que la muestra sea adecuada a nuestro estudio.

También hemos definido los estadísticos que nos van a servir para estimar los parámetros de la población y hemos estudiado sus distribuciones de distribuciones de probabilidad. Con todo ello iniciamos el proceso de inmersión en la Teoría de la Estimación Estadística empezando por dar un contenido formal a todas las definiciones y propiedades que vayamos construyendo.

Estimation theory is a branch of statistics and signal processing that deals with estimating the values of parameters based on measured/empirical data. The parameters describe an underlying physical setting in such a way that the value of the parameters affects the distribution of the measured data. An estimator attempts to approximate the unknown

parameters using the measurements.

For example, it is desired to estimate the proportion of a population of voters who will vote for a particular candidate. That proportion is the unobservable parameter; the estimate is based on a small random sample of voters.

Or, for example, in radar the goal is to estimate the location of objects (airplanes, boats, etc.) by analyzing the received echo and a possible question to be posed is "where are the airplanes?" To answer where the airplanes are, it is necessary to estimate the distance the airplanes are at from the radar station, which can provide an absolute location if the absolute location of the radar station is known.

In estimation theory, it is assumed that the desired information is embedded in a noisy signal. Noise adds uncertainty, without which the problem would be deterministic and estimation would not be needed.

Introduction 3

Applications

• Interpretation of scientific experiments • Signal processing • Clinical trials • Opinion polls • Quality control • Telecommunications • Project management • Software engineering • Control theory • Network intrusion detection system • Orbit Determination

Fuente: http://en.wikipedia.org/wiki/Estimation_theory#Applications

Conceptos Básicos 4

Conceptos Básicos

En la práctica es muy frecuente que conozcamos la distribución que sigue una variable aleatoria y, sin embargo, no conozcamos ni su media ni su varianza. El proceso más común es que tomemos una muestra y calculemos la media y la varianza muestrales y extrapolemos estos datos a toda la población, pero esto no es del todo correcto como vamos a ir viendo ahora, al menos para la varianza no es correcto y sí lo sería para la media.

Ejemplo

Imaginémonos que deseamos conocer la renta per cápita (RPC) de los españoles y tomamos una muestra de 500 personas al azar de la que resulta una RPC media de 18000€ y una desviación de 4000€. Los 18000€ de media se van a poder extrapolar a toda la población española pero no así los 4000€. Además nos haremos más preguntas como ¿qué nivel de seguridad tenemos al decir que la RPC media de los españoles es 18000€ en base a nuestra encuesta? ¿Cuál es el intervalo de RPC en el que podemos asegurar que se encuentra comprendido el 90% de la población española? ¿Cuál es una estimación más realista de la varianza de esta distribución? Todas estas preguntas las vamos a ir resolviendo a continuación.

El proceso por el cual obtenemos los valores aproximados de los parámetros estadísticos se llama estimación estadística, la cual puede ser de dos tipos

• Estimación puntual, en la que solamente se obtiene el valor buscado • Estimación por intervalos, en la que además de calcular el valor buscado damos un

intervalo alrededor de ese valor, denominado intervalo de confianza, donde hay una probabilidad, denominada nivel de confianza, de que el valor esté contenido en él.

Ejemplo

Supongamos que se quiere estudiar el nivel medio de ingresos de los miembros de un determinado colectivo numeroso. Tras obtener la muestra, supongamos que resulta unos ingresos medios mensuales de 1550 €. Este dato es una estimación puntual de la media de ingresos.

Si en este mismo caso, el dato que se ofrece tras el estudio es que los ingresos medios están en el intervalo (1450, 1650) con una probabilidad del 85% estamos haciendo una estimación por intervalos.

Estimación puntual

Un estimador puntual de un parámetro poblacional θ es cualquier estadístico que nos permita calcular obtener un valor aproximado de ese parámetro. Más formalmente diremos

Sea X una variable con un parámetro desconocido θ. Sea ( X1, X2, X3,...,Xn ) una muestra de X y x1, x2, x3,...,xn los valores tomados por la muestra.

Definimos estimador puntual del parámetro θ a la función g( X1, X2, X3,...,Xn ) = $θ que

vamos a utilizar para estimarlo.


Ejemplo

Si queremos estimar la media µ de ingresos mensuales de un colectivo, tomamos una muestra y como estimación calculamos la media muestral X , por lo que decimos que

X es un estimador de µ.

De la misma manera la proporción de una muestra �p es un estimador de la proporción poblacional p.

Estos cálculos de estimadores no son exactos, siempre se producen errores que tenemos que tratar de minimizar. Estos errores se minimizarían tomando muestras lo más grandes posibles pero ello implica costes económicos, recursos humanos y disponer de tiempo, por lo que es muy importante no solo tomar la muestra lo más pequeña y fiable posible sino también elegir un adecuado estimador del parámetro que vamos a estimar.

Vamos a dotar de rigor matemático a estos conceptos y vamos a estudiar que condiciones debe cumplir un buen estimador.

Error y sesgo

Tenemos una población a estudiar, que sigue una distribución de probabilidad que depende de un parámetro θ (media, varianza, ..). Obtenemos una muestra de tamaño n mediante un estadístico T y con él obtenemos una estimación T1 aproximada de θ. Si tomamos otra muestra y obtenemos una segunda estimación T2 de θ, y así sucesivamente, diremos que este estimador es más bueno, cuanto menores sean las desviaciones de θ obtenidas entre los valores T1, T2, T3, ..., Ti,..Esto viene dado por E[(T – θ)

2] que lo denominamos error del

estimador

Ahora bien, se verifica que

E[(T – θ)2] = E[T

2 -2T θ + θ

2] = E[T

2] -2E[T θ] + E[ θ

2] =... (sumamos y restamos E[T]

2)

...= E[T2]- E[T]

2+ E[T]

2 -2E[T θ] + E[ θ

2] = V(T) + ( E[T] – θ)

2

A la expresión E[(T – θ)2] se la denomina error cuadrático medio y, como acabamos de ver

se puede descomponer en la varianza del estimador V(T) y ( E[T] – θ)2 que se denomina

sesgo del estimador

Conclusión, un estimador será mejor cuanto menor sea su sesgo y su varianza

Estimador insesgado

Sea $θ un estimador del parámetro θ asociado con X. Entonces $θ es un estimador insesgado

para Φ si $( )E θ θ= para toda θ.

Ejemplo

La media muestral X y la mediana son Me estimadores insesgados de la media poblacional µ.


Cuasivarianza

Ahora vamos a buscar un estimador de la varianza.

A priori, parecería lógico pensar en hacer lo mismo que hemos hecho con la media, es decir, tomar una muestra y usar la varianza muestral Sn

2 como estimador de la varianza poblacional σ. Pero no, esto no funciona así y resulta que la varianza muestral no es un estimador centrado de la varianza poblacional y vamos a comprobarlo. Vamos a ver que el mejor estimador de σ es lo que se denomina cuasivarianza Sn-1

2 y viene dado por

( )22 11 1

n

i

in

x X

Sn

=−

−=

−

∑

Ejemplo

Sea una población compuesta por cinco números {2, 3, 6, 8, 11 }. En este caso la media y la varianza de la población resultan:

2 3 6 8 116

5µ

+ + + += =

( ) ( ) ( ) ( ) ( )2 2 2 2 2

2 2 6 3 6 6 6 8 6 11 610.8

5σ

− + − + − + − + −= =

Escribimos todas las posibles muestras ordenadas de orden 2 con repetición que podemos obtener, que son V5,2 =5

2

Muestras

n=2

Media muestral

Xµ

Varianza muestral 2

nS

Cuasivarianza Muestral 21nS −

(2,2) 2.00 0.00 0.00

(3,2) 2.50 0.25 0.50

(6,2) 4.00 4.00 8.00

(8,2) 5.00 9.00 18.00

(11,2) 6.50 20.25 40.50

(2,3) 2.50 0.25 0.50

(3,3) 3.00 0.00 0.00

(6,3) 4.50 2.50 5.00

(8,3) 5.50 6.25 12.50

(11,3) 7.00 16.00 32.00

(2,6) 4.00 4.00 8.00

(3,6) 4.50 2.25 4.50

(6,6) 6.00 0.00 0.00

(8,6) 7.00 1.00 2.00

(11,6) 8.50 6.25 12.50

(2,8) 5.00 9.00 18.00

(3,8) 5.50 6.25 12.50


(6,8) 7.00 1.00 2.00

(8,8) 8.00 0.00 0.00

(11,8) 9.50 2.25 4.50

(2,11) 6.50 20.25 40.50

(3,11) 7.00 16.00 32.00

(6,11) 8.50 6.25 12.50

(8,11) 9.50 2.25 4.50

(11,11) 11.00 0.00 0.00

25 150

25

1[ ]25

1506.0

25

i

i

X

x

E Xµ == = =

= =

∑

2[ ] 5.41nE S = 21[ ] 10.82nE S − =

La media de las medias muestrales coincide con la media de la población, es decir:

Xµ µ=

Mientras que la varianza de la distribución muestral de las medias, será la varianza de los elementos de la columna 2 (medias muestrales), que es:

( ) ( ) ( )2 2 2

2 2 6 2.5 6 ..... 11 6 1355.40

25 25Xσ

− + − + + −= = =

Por tanto, la relación entre la varianza de la distribución de las medias muestrales y la varianza de la población es:

22

X n

σσ = , pues uno resulta 5.40 y el otro 10.80, donde n es el tamaño de la muestra

que en este caso es n = 2 La esperanza de las varianzas de las muestras, valores de la columna 3, es :

2 0.00 0.25 ... 2.25 0.00[ ] 5.41

25nE S+ + + +

= = , que resulta un valor sesgado respecto a

la varianza poblacional que vale σ2 = 10.80 Por otro lado, la esperanza de las cuasivarianzas de las muestras (columna 4), es :

21

0.00 0.50 ... 4.40 0.00[ ] 10.82

25nE S −

+ + + += =

Es decir, coincidente con la varianza poblacional σ2 . Esta es la razón por la que es preferible estimar la varianza de la población con la cuasivarianza de la muestra en lugar de con la varianza de la muestra.


A la cuasivarianza la denotaremos por 21nS − , aunque algunos autores la denotan con s

minúscula al cuadrado s2, y podemos relacionarla con la varianza de la muestra mediante la

fórmula ( ) ( )2 2

2 21 11 1 1 1

n n

i i

i in n

x X x Xn n

S Sn n n n

= =−

− −= = ⋅ = ⋅

− − −

∑ ∑

Y muchísimos autores le llaman directamente varianza muestral a la propia cuasivarianza, incluso Excel utiliza la fórmula VAR para calcular la cuasivarianza. Nosotros, al menos inicialmente, intentaremos distinguirlas en todo momento y darle a cada una su nombre

exacto, con el riesgo de ir contracorriente, para ello escribiremos 21nS − para referirnos a la

cuasivarianza y 2nS para la varianza.

Ejemplo

Con ayuda de Excel, calcula la cuasivarianza de la siguiente muestra de tamaño 6 { 12, 17, 21, 25, 30, 45 }

Solución

La media muestral resulta

6

1 12 17 21 25 30 45[ ] 25

6 6

i

i

X

x

E Xµ = + + + + += = = =

∑y la

varianza

( )

( ) ( ) ( ) ( ) ( ) ( )

2

2 1

2 2 2 2 2 2

...

12 25 17 25 21 25 25 25 30 25 45 25... 112.33

6

n

i

in

x X

Sn

=

−= =

− + − + − + − + − + −= =

∑

De donde la cuasivarianza es

( )22 211

6112.33 134.8

1 1 5

n

i

in n

x Xn

S Sn n

=−

−= = ⋅ = ⋅ =

− −

∑

Si lo hacemos mediante la hoja de cálculo Excel, para la media muestral usaremos la función PROMEDIO(12; 17; 21; 25; 30; 45) y para la cuasivarianza la función VAR(12; 17; 21; 25; 30; 45)

Estimador eficiente

Un estimador de un parámetro θ es eficiente si su varianza es mínima.

Dados dos estimadores $θ y �'θ del mismo parámetro poblacional θ, diremos que un

estimador $θ es más eficiente que otro �'θ , si $θ tiene menor cuasivarianza que �'θ

Ejemplo


Sabemos que la ( )2

Var Xn

σ= y, sin embargo, se demuestra que ( )

2

2Var Me

n

π σ= ⋅

por lo que X es un estimador más eficiente que Me

Elegir un estimador más eficiente hace que haya menos variabilidad entre las distintas estimaciones que podemos obtener (cada muestra dará una estimación diferente). De esta forma, la estimación será más fiable. Hay una cota mínima dentro de las varianzas que se puede obtener para cualquier estimador con un sesgo determinado. Esta cota se llama cota de Cramér-Rao. Si la varianza de un estimador es igual a esta cota, sabremos que su varianza es mínima, y por tanto, estaremos seguros de que es eficiente. Sin embargo, no siempre esta cota es alcanzable, por lo que no siempre podremos saber si el estimador que hemos utilizado es el más eficiente de todos. Para ello, cuando dudamos entre dos estimadores diferentes, y ninguno de ellos tiene una varianza igual a la cota de Cramér-Rao se utiliza el coeficiente de eficiencia relativa.

Fuente: http://es.wikipedia.org/wiki/Estimaci%C3%B3n_estad%C3%ADstica

Estimador consistente

Diremos que un estimador T de un parámetro poblacional θ es consistente si al aumentar el tamaño n de la muestra es mayor la probabilidad de que la E[T] se aproxime a θ

Se demuestra que si ( )lim 0n

Var T→∞

= entonces T es un estimador insesgado de θ. Es decir, que

cuanto mayor es la muestra, más probable es que el estimador se acerque más al valor real del parámetro θ

Ejemplo

Como ( )2

Var Xn

σ= y ( )

2

2Var Me

n

π σ= ⋅ ambos son estimadores consistentes pues

( )2

lim lim 0n n

Var Xn

σ

→∞ →∞= = y ( )

2

lim lim 02n n

Var Men

π σ

→∞ →∞= ⋅ =

Teorema

La cuasivarianza s2 es un estimador consistente de la varianza poblacional σ2

Demostración

Pendiente


Estimación por intervalos

Hemos terminado de ver la estimación puntual y ahora vamos a desarrollar los conceptos básicos de la estimación por intervalos. En este tipo de estimación lo que trataremos de buscar es un intervalo entre dos números θ1 y θ2, denominado intervalo de confianza, entre los cuales se encuentre el parámetro que queremos estimar con una cierta probabilidad (1-α).

Un intervalo de confianza es una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar.

Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza y se denota por (1 - α). A α se le llama riesgo asumido o también nivel de significación.

El nivel de confianza habitualmente suele expresarse con un porcentaje. Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores α de 0.05 y 0.01 respectivamente.

Ojo con la confusión de llamar al nivel de confianza (1 - α) ó α. Algunos autores presentan confusión en sus escritos debido a esto. Vamos a ser aquí constantes y dejar bien claro que α es el riesgo y (1 - α) la confianza


Intervalo de Confianza para la media μ conocida la varianza poblacional

Deseamos conocer un intervalo [θ1, θ2] donde exista una probabilidad (1-α) de que la media µ se encuentre dentro he dicho intervalo.

Supongamos X con distribución ( )2,σµN , donde 2σ se supone conocida y µ es el parámetro desconocido que queremos estimar.

Sea ( X1, X2, X3,...,Xn ) una muestra aleatoria de X y X el promedio puntual.

Sabemos que 2

,X Nn

σµ

� . Por lo tanto ( )0,1X X

Z n Nn

µ µ

σσ

− −= =

� .

Aunque Z depende de µ , su función de probabilidad no, entonces:

2 ( ) 1X Z Z Z Z

Z P Z n Z P X X P X Xn n n n

µ σ σ σ σθ µ µ

σ

− ⋅ − = − ≤ ≤ = − − ≤ − ≤ − = − ≤ ≤ +

Esto no significa que µ cae en el intervalo 2 ( ) 1Zθ − ; sino que 2 ( ) 1Zθ − es igual a la

probabilidad que el intervalo aleatorio 1 1

2 2

,X Z X Zn n

α α

σ σ

− −

− ⋅ + ⋅

contenga a µ. Como Z

queda a nuestro criterio podemos elegirlo de modo que 2 ( ) 1 1Zθ α− = − . Así

2( ) 1

2 2z

α αθ

−= = − ese valor de Z, denotado con

12

Z α− se obtiene de la tabla. Es decir

tenemos 12

( ) 12

Z α

αθ

−= −


El intervalo 1 1

2 2 1

,X Z X Zn n

α α

α

σ σ

− −−

− ⋅ + ⋅

le denomina intervalo de confianza para el

parámetro µ con nivel de confianza (1-α).

Ejemplo

Si (1-α)·100% = 95% (1-α) = 0.95 <=> Nivel de confianza α = 0.05 <=> Nivel de significación

Ejemplo

Queremos hallar el intervalo de probabilidad para el peso medio de una muestra de 100 recién nacidos, con un nivel de confianza de (1-α) = 0.90, sabiendo que µ = 3100 gramos y σ = 150 gramos. Solución

Se trata de evaluar la expresión ( ) 0.90 10.95

2P Z kα

+≤ = =

si consultamos en la tabla de la N(0, 1), comprobaremos que kα = 1.645, por lo tanto, el intervalo de probabilidad será el siguiente:

( )90%

150 1503100 1.645 ; 3100 1.645 3075.325,3124.675

100 100

− ⋅ + ⋅ =


Intervalo de confianza para la media μ conocida la varianza poblacional

Sin que sirva de precedente, vamos a repetir lo que acabamos de escribir pero desde el punto de vista de otro autor. Entiendo que el baile de conceptos aquí es tan enrevesado que conviene leer dos argumentaciones para lo mismo, las cuales obviamente son totalmente análogas. Te invito a conjuntarlas en una, pero para ello tienes que tenerlo muy, pero que muy, claro.

Consideramos un población a la que se está estudiando una variable aleatoria X que sigue una distribución normal N(µ,σ) con σ conocida. Tomamos una muestra de tamaño n y queremos estimar el intervalo de confianza donde está comprendida la media µ con una probabilidad (1-α).

Primero, calculamos la media muestral X y la tipificamos mediante:

1 21 2 1 1P X P n Z n

θ µ θ µθ θ α α

σ σ

− − < < = − ⇔ ⋅ < < ⋅ = −

Al valor de Z que le corresponde esta probabilidad 1-α con simetría respecto al 0, le

llamamos 12

Z α− .

11 2

112

21

2122

Z

n Zn

Zn Z

n

α

α

αα

θ µθ µ σ

σ

θ µ

σ θ µ σ

−

−

−−

− ⋅ = − = −

− ⋅ = +

= +

1 1 1 12 2 2 2

1 1 1 12 2 2 2

...

...

P Z X Z P Z X Zn n n n

P X Z X Z P X Z X Zn n n n

α α α α

α α α α

σ σ σ σµ µ µ

σ σ σ σµ µ

− − − −

− − − −

− < < + = − < − < + =

= − − ⋅ < − < − + ⋅ = − ⋅ < < + ⋅


Es decir, que el parámetro µ se encuentra en el intervalo 1 1

2 2

,X Z X Zn n

α α

σ σ

− −

− ⋅ + ⋅

con

una probabilidad (1- α), lo cual, en lenguaje más acorde a teoría de la estimación estadística, se dice que:

1 12 2

,X Z X Zn n

α α

σ σ

− −

− ⋅ + ⋅

es el intervalo de confianza para la media poblacional con

un nivel de confianza (1- α).

Al valor α se le denomina nivel de significación.

Al producto 1

2

Zn

α

σ

−⋅ se le llama error máximo admisible o precisión del intervalo.

Incluso si la población origen no sigue una distribución normal, por el Teorema Central del Límite, si la muestra es lo suficientemente grande, el resultado es también válido.

Ejemplo

Volviendo a los salarios, supongamos que en una determinada área geográfica, los salarios de los ciudadanos están normalmente distribuidos con una media µ y una desviación conocida σ = 500. Supongamos que tomamos una muestra de 50 personas

a la que les encuesta y resulta que el salario medio de esta muestra es 1200X = .

Como sabemos, la media muestral ( )500, ,70.7150

X N Nµ µ

→ =

por lo que

podemos calcular los números c1 y c2 tales que

1 21 2 0.90 0.90

70.71 70.71 70.71

c X cP c X c P

µ µ µ − − − ≤ ≤ = ⇔ ≤ ≤ =

En las tablas de la normal buscamos ahora entre todos los posibles valores que verifiquen esta probabilidad, aquellos en los que la masa de probabilidad esté simétricamente distribuida respecto al 0, buscamos en la tabla tipificada de la normal y vemos que resulta que estos dos valores son c1 = -1.65 y c2 = 1.65. De donde

11 1

22 2

1.65 1.65 70.71 116.6770.71

1.65 1.65 70.71 116.6770.71

cc c

cc c

µµ µ

µµ µ

−= − ⇒ = − ⋅ ⇒ = −

−= + ⇒ = + ⋅ ⇒ = +

116.67 116.67 116.67 116.67 0.90 ...

... 116.67 116.67 116.67 116.67 0.90

P X P X

P X X P X X

µ µ µ

µ µ

− < < + = − < − < = ⇔

⇔ − − < − < − + = − < < + =

Por lo que concluimos que el salario medio se encuentra comprendido en el intervalo

( ) ( )1200 116.67,1200 116.67 1083.33,1316.67− + = con un 90% de probabilidad.

Concluyendo, ( )1083.33,1316.67 es el intervalo de confianza para la media

poblacional con un nivel de confianza del 90%.


Ejemplo

En una población la talla de los individuos sigue una N(µ,σ=7.5). Se quiere estimar µ, para ello se extrae una muestra de tamaño n = 25 y la media de la muestra sale

172X = cm. Se pide dar una estimación puntual de µ y además un IC al 95% para µ. Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución

La media muestral es un estimador insesgado de µ, por lo tanto µ= 172 es una estimación insesgada. Para determinar el IC al 95% basta considerar el intervalo

1 12 2 95%

,X Z X Zn n

α α

σ σ

− −

− ⋅ + ⋅

que resulta:

( )95%

7.5 7.5172 1.96 ,172 1.96 169.06,175

25 25

− ⋅ + ⋅ =

Propiedades

1. Para una desviación σ y un tamaño de muestra n dados, la longitud del tamaño del

intervalo de confianza aumenta a medida que aumenta el nivel de confianza 2. Para una desviación σ y un nivel de confianza dados, al aumentar el tamaño de la

muestra, disminuye la longitud del intervalo


Intervalo de confianza para la media μ si no se conoce la varianza

En todo el desarrollo anterior, conocíamos la varianza muestral σ2. Desgraciadamente, lo habitual es que no se conozca. Sin embargo, podemos estimarlo ya que hemos visto que la

cuasivarianza ( )22

1 1n

x XS

n−

−=

−

∑es un estimador insesgado de

σ2.

William Sealy Gosset (1876-1937), usando el pseudónimo de Student, siendo colaborador de Pearson y empleado de la fábrica

de cervezas Guinness, propuso el estadístico 11

nn

Xt

S

n

µ−

−

−= al que

llamó t-Student.

Para calcular intervalos de confianza para la media poblacional en el caso de que la varianza fuese desconocida y demostró que este estadístico sigue una distribución t de Student con n-1 grados de libertad.

Es decir, el intervalo 1 1

1,1 1,12 2

,n n

n n

S SX t X t

n nα α

− −

− − − −

− ⋅ + ⋅

es un intervalo de confianza con un

nivel de significación α para la media µ de la población.

Ejemplo

Se desea obtener el intervalo de confianza con un nivel de significación α = 0.05 para la media de los salarios de una determinada empresa. Supongamos que elegimos una muestra de seis trabajadores al azar, resultando unos salarios de 2000, 1600, 1000, 1000, 800, 800 euros. Se tiene entonces que la media muestral y la cuasivarianza son

2000 1600 1000 1000 800 800[ ] 1,200

6 6i

X

xE Xµ

+ + + + += = = =∑

( ) ( ) ( )2

2 221

2000 1200 ..... 800 1200240,000

1 5

i

n

x XS

n−

− − + + −= = =

−

∑

Buscamos en la tabla de la t-Student para (n – 1) = 5 grados de libertad y un nivel de significanción α = 0.05 y resulta que 0.05 5,0.975

6 1,12

2.571t t− −

= = por lo que podemos

concluir que el intervalo de confianza pedido es

( )240000 2400001200 2.571 ,1200 2.571 1200 2.571 200,1200 2.571 200 ...

6 6

... (685.8,1714.2)

− ⋅ + ⋅ = − ⋅ + ⋅ =

=

Al aumentar el tamaño de la muestra n (consideramos n > 30 es suficientemente grande), la t-Student se aproxima a una normal N(0,1) por lo que podríamos utilizar estas tablas en lugar de las de aquella.


Ejemplo

Supongamos que queremos conocer el salario medio de la población de una ciudad española, con supuesta distribución normal de la que desconocemos su media y su desviación y con un niveld e significación del 0.05. Tomamos una muestra de tamaño 100 resultando la siguiente tabla estadística

Intervalo xi fi xi·fi ( )2i ix X f−

[0 - 300] 150 2 300 1445000

[300 - 600] 450 11 4950 3327500

[600 - 900] 750 38 28500 2375000

[900 - 1200] 1050 33 34650 82500

[1200 - 1800] 1500 10 15000 2500000

[1800 - 3000] 2400 5 12000 9800000

[3000 - 6200] 4600 1 4600 12960000

n = 100 =∑ 100000 =∑ 32490000

X = 1000 2σ = 324900 σ =570

1nS − =572,8715547 Con estos datos, y como n = 100 (n>30) podemos aproximar la t-Student

0.05 99,0.975100 1,1

2

t t− −

= por una normal N(0,1) que, con un nivel de significación α = 0.05,

equivale a buscar una Z1-0.025 a la que corresponde un valor de 1.96. El intervalo de confianza pedido es:

1 10.975 0.975

572.87 572.87, 1000 1.96 ,1000 1.96 (887,1112)

100 100n nS S

X Z X Zn n

− − − ⋅ + ⋅ = − ⋅ + ⋅ =

Ejemplo

Una variable medida en sangre en individuos normales clínicamente sigue una N(µ,σ).

Se ha extraído una muestra de tamaño n = 10 donde resultó 0.958X = y

1 0.14596nS − = . Construir un IC al 95% para µ. Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución

No conocemos la varianza poblacional , pero sí conocemos la cuasivarianza muestral que es un estimador insesgado de σ. El IC viene dado por

1 1

1,1 1,12 2

,n n

n n

S SX t X t

n nα α

− −

− − − −

− ⋅ + ⋅

de lo que resulta

( )95%

95%

0.14596 0.145960.958 2.26 ,0.958 2.26 0.8537,1.0623

10 10

− ⋅ − ⋅ =


Intervalo de confianza para la proporción

Para estimar el intervalo de confianza para una proporción poblacional Л tomamos una muestra de tamaño n y la proporción p que resulte dentro de esa muestra con respecto a n la tomamos como estimación de la proporción poblacional Л. Por otro lado ya vimos que la deistribución correspondiente a la proporción muestral cuando n es suficientemente grande (

n > 30 ) se distribuye como una ( )1

,p p

Nn

µ −

lo que nos permite tipificar la variable y

obtener el intervalo de confianza ( ) ( )

1 12 2

1 1,

p p p pp Z p Z

n nα α− −

− − − ⋅ + ⋅

Ejemplo

Se desea conocer el número de entre los 500 alumnos de un instituto de secundaria que poseen ordenador en casa para lo cual se les hace una encuesta y resultan positivas 225. Si trasladamos estos datos a toda la población estudiantil de secundaria ¿cuál es el intervalo de confianza para la proporción de alumnos que poseen ordenador con nivel de confianza del 95%?

Solución

La tipificación de 1

2

Z α−al 95% resulta 0.975Z a lo que corresponde un valor de la

normal de 1.96 con lo que el intervalo es

( ) ( )

( )

1 12 2

1 1, ...

0.45 0.55 0.45 0.55... 0.45 1.96 ,0.45 1.96 0.406,0.494

500 500

p p p pp Z p Z

n nα α− −

− − − ⋅ + ⋅ =

⋅ ⋅= − ⋅ − ⋅ =

Ejemplo

Una cadena de TV quiere saber cuál es la audiencia de su programa estrella “Gran Hermano 107” para lo que toma una muestra de 200 hogares de los que 30 son asiduos telespectadores del programa, con el fin de que si nunca supera el 20% de audiencia retirarlo de la parrilla de programación. Se pide:

a) Construir un intervalo de confianza al 95% de nivel de nivel de confianza para la proporción muestral

b) En base a los resultados obtenidos, decidir si se retira o no.

Solución

La estimación de la proporción es del 15% exactamente ( 30/200 ) pero el intervalo de confianza con un 95% es


( ) ( )

( )

1 12 2

1 1, ...

0.15 0.85 0.15 0.85... 0.15 1.96 ,0.15 1.96 10.05,19.94

200 200

p p p pp Z p Z

n nα α− −

− − − ⋅ + ⋅ =

⋅ ⋅= − ⋅ − ⋅ =

l 20% = 0.20 de audiencia se escapa de nuestro intervalo de confianza luego el programa, afortunadamente, debería ser retirado, no solo por este motivo, sino que por muchísimas razones adicionales.


Intervalo de confianza para la varianza de una población normal

Teorema

Si 21nS − es la cuasivarianza de una muestra aleatoria simple de tamaño n, entonces el intervalo

de confianza , con significanción α para σ2 viene dado por

( ) ( )2 21 11 , 1n nS S

n na b

− − − −

donde

( ) 12

( )2

F a

F b

α

α

= − =

y F(x) es una 21nχ − de Pearson con n-1

grados de libertad .

Demostración

Pendiente

Ejemplo

En el departamento de dermatología se quiere hacer un estudio sobre la variabilidad (varianza) que tiene el color de la piel. Se toma una muestra n = 101 y resulta una media de 7.5 y una cuasivarianza de 4. Suponiendo que esta v.a. X que mide el color (en una determinada codificación numérica) es una N(µ,σ) , ¿podrías dar un IC al 95% para esta variabilidad? Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución

Se tiene que

( )( )

2100

2100

0.05( ) 1 0.975

0.975 129.620.05 0.025 74.2

( ) 0.0252

F aa a

b bF b

χ

χ

= − = = ⇒ =

= ⇒ == =

De lo que ( ) ( ) ( )2 21 1

0.95

4 41 , 1 100 ,100 3.08,5.39

129.6 74.2n nS S

n na b

− − − − = ⋅ ⋅ =

Por tanto, el dato de varianza de la muestra 4, está dentro del intervalo.

Ejemplo

Queremos obtener el IC 1l 95% para la varianza poblacional correspondiente a los salarios de una empresa, a partir de la muestra 1800€, 1900€, 1700€, 2200€

Solución


La media muestral es 1900, la cuasivarianza es 46666 y n = 4 por lo que

( )( )

23

23

0.05( ) 1 0.975

0.975 9.3520.05 0.025 0.216

( ) 0.0252

F aa a

b bF b

χ

χ

= − = = ⇒ =

= ⇒ == =

( ) ( ) ( ) ( ) ( )2 21 1

0.95

46666 466661 , 1 4 1 , 4 1 14974,648148

9.35 0.216n nS S

n na b

− − − − = − ⋅ − ⋅ =


Intervalo de confianza para la diferencia de medias

Basándonos en que la distribución de la diferencia de medias es tal que

( ) ( )( )

1 2 1 2

2 21 2

1 2

0,1X X

N

n n

µ µ

σ σ

− − −

+

�

establecemos como intervalo de confianza con nivel de confianza (1 – α) al intervalo

( ) ( )2 2 2 21 2 1 2

1 2 1 21 1

1 2 1 22 2

,X X Z X X Zn n n n

α α

α

σ σ σ σ

− −

− − + − + +

Ejemplo

Entre la población de los estudiantes de secundaria de un cierto instituto, se desea conocer si el nivel de ingresos de las familias a las que pertenecen pude ser un factor que incida en el rendimiento escolar, dado que hay dos grupos A y B de rendimiento muy desequilibrado. Para ello se toman los alumnos de esos dos grupos resultando los siguientes datos, la muestra del grupo A con n1=40 alumnos de una media familiar de de ingresos de µ1=800€ y desviación de σ1=600€ y la muestra del grupo B con n2=30 alumnos con una media familiar de de ingresos de µ2=1200€ y desviación de σ2=700€. Construyamos un intervalo de confianza para la diferencia de medias al 95%

( )2 2 2 2

0.975 0.975 95

95

600 700 600 700400 ,400 80,712

40 30 40 30Z Z

− + + + =

Si no se conocen las varianzas poblacionales entonces se tiene que

( ) ( )1 2

1 2 1 2

2

1 2

X X

1 1n n

p

t

Sn n

µ µ+ −

− − −→

⋅ +

y el intervalo de confianza sería

( ) ( )1 2 1 21 2 1 22 2

1 2 1 2

1 1 1 1,n n p n n pX X t S X X t S

n n n nα

+ − + −

− − + − + +

donde

2 22 1 1 2 2

1 2 2p

n S n SS

n n

+=

+ −

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA 23

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA

Cualquier estudio estadístico que deseemos realizar lleva implícito una fase previa de determinación del idóneo tamaño muestral necesario para la ejecución del mismo, de forma que nos permita calcular lo que se pretende con la mayor precisión, seguridad, velocidad y economía posibles. De no hacerlo, con toda probabilidad los errores cometidos en las estimaciones serán mayores además del hecho de que si tomamos una muestra más grande de lo realmente imprescindible vamos a acabar malgastando recursos y con toda probabilidad, disminuyendo la calidad del estudio

Aunque es el propio investigador el que finalmente decide el tamaño de la muestra con los criterios que le conciernan, hay diversos métodos para calcular el tamaño óptimo necesario, el cual depende de varios factores como son

• La Variabilidad del parámetro a estimar, conocida a través de datos previos, estudios piloto o usando el 50% como peor estimación

• La Precisión: A mayor precisión menor amplitud del intervalo de confianza. • El Nivel de confianza (1-α): que normalmente lo hacemos variar entre el 95% y el

99%

Si aumentamos el tamaño muestral n, mejoramos la calidad de la estimación bien aumentando la precisión (disminuye amplitud del intervalo) o bien aumentando la seguridad (disminuye el error admitido) , pero hay que tener muy en cuenta que a mayor tamaño de muestra mayores costes y tiempo de obtenerla.

Tamaño de la muestra para estimar la media

Recordemos que, fijado un nivel de confianza (1-α), el intervalo de confianza para la media

muestral viene dado por 1 1

2 2

,X Z X Zn n

α α

σ σ

− −

− ⋅ + ⋅

, de donde la semilongitud del

intervalo es 12

Zn

α

σε

−= ⋅

A este valor 1

2

Zn

α

σ

−⋅ se le denomina error máximo admisible de la estimación.

De este error máximo es donde deducimos el tamaño de la muestra siempre que conozcamos la varianza poblacional, cosa no habitual, por lo que tenemos previamente que estimarla realizando una muestra piloto previa y calculándole a ella la cuasivarianza

( )221 1

i

n

x XS

n−

−=

−

∑

Entonces resumimos las conclusiones:


Si el muestreo es con repetición o bien la población es suficientemente grande, n viene dado por

22

221 1 1

2 2 2

Z n Z Zn

α α α

σ σ σε

ε ε− − −

= ⋅ ⇔ = ⋅ = ⋅

(I)

Si el muestreo es sin repetición la fórmula varia y n viene dado por

( ) ( )( )

2 2

12 2 2 2 22

21 1 12 2 2

11 1

N ZN n

Z n N N n Z n ZN Nn

α

α α α

σσ

ε ε σ σε

−

− − −

⋅ ⋅−

= ⋅ ⇔ − = − ⋅ ⋅ ⇔ = + ⋅− −

(II)

Aunque siempre que el cociente 0.05n

N< se usa la primera fórmula (I)

Un autor ahora desconocido que publicó un trabajo en Internet afirma que el proceso no acaba aquí sino que en una 2ª fase hay que comprobar que el n elegido verifica que

( 1)N n n> −

Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que debemos muestrear.

Si no se cumple, pasamos a una tercera fase consistente en usar n’ de acuerdo a la fórmula

'1

nn

n

N

=+

Queda esto pendiente de verificación

Ejemplo

Se desea realizar una investigación para estimar el peso medio de los hijos recién nacidos de madres fumadoras. Se admite un error máximo de 50 gramos, con un nivel de confianza del 95%. Si por estudios anteriores se sabe que la desviación típica del peso medio de tales recién nacidos es de σ=400 gramos, ¿qué tamaño mínimo de muestra se necesita en la investigación?

Solución

Si el error máximo es de 50 entonces 2

0.975

400 400 1.9650 245.84 246

50Z n

n

⋅ = ⋅ ⇒ = =

�

Ejemplo

Se quiere estimar el gasto mensual medio me las familias de una población y estamos dispuestos a asumir un error medio de 100€ con el nivel de confianza 0.95. Por la

fórmula (I) se tiene que 2 2

2 20.975 2

1.9610000

n Zσ σ

ε= ⋅ = ⋅ pero no conocemos σ2, por lo

que tomamos una muestra piloto previa de 10 familias con los siguientes datos 500,

700, 600, 400, 500, 800, 900, 1200, 900, 1000 de la que resulta una media 750X = y


una cuasivarianza 21 65000nS − = , de donde sustituyendo en la fórmula (I) nos queda

22 20.975 2

650001.96 24.97 25

10000n Z

σ

ε= ⋅ = ⋅ = �

Por tanto la muestra debe ser de tamaño 25.

Ejemplo

Si quiere aplicar un test de inteligencia a una población y se sabe por estudios previos que la desviación poblacional σ = 10. ¿Cuál debe ser el tamaño de la muestra n para poder afirmar con un nivel de confianza del 0.95 que la media muestral difiere de la media poblacional en menos de 1? Solución

2 22 2

0.9752 212

101.96 100 3.84 100 384

1n Z Zα

σ

ε−= ⋅ = = ⋅ = ⋅ =

Ejemplo

La Consejería de Trabajo planea un estudio con el interés de conocer el promedio de horas semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de una población de 10000 mujeres que figuran en los registros de la Seguridad Social y de las cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser el tamaño muestral que empleemos?.

Solución

2

0.975

9.648 9.648 1.960.1 3706

0.1Z n

n

⋅= ⋅ ⇒ =

�

Como N = 10000 > 3706·3705, tenemos que emplear el siguiente método 3706

' 27043706

110000

n = =+

, que sería el tamaño de muestra a usar


Tamaño de la muestra para estimar la proporción

Se trata de estimar la proporción poblacional pi mediante una proporción muestral. Nos remitimos nuevamente a la fórmula (I) , con reemplazamiento, donde ya hemos estudiado

como varía en este caso la desviación, con lo que nos queda ( )2

212

1p pn Z α

ε−

−= ⋅ donde, como

p varía entre 0 y 1 pero, si no lo conocemos, nos pondremos en el caso más desfavorable que es cuando p = 0.50 (desfavorable en el aspecto que hace que n sea el más grande posible por

ser p(1-p) máximo), luego

( )2

12

2

1Z p p

n

α

ε

−⋅ −

= (I)

Si el muestreo es sin reemplazamiento tendríamos la fórmula

( )

( ) ( )

2

12

2 2

12

1

1 1

N Z p p

nN Z p p

α

αε

−

−

⋅ ⋅ −

=− ⋅ + ⋅ −

(II)

Ejemplo

¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de diabetes? Nos ponemos las siguientes condiciones: • Nivel de confianza = 95%; • Error máximo tolerable (o podemos llamarla también precisión) = 3%: • Proporción esperada = asumamos que puede ser próxima al 5% (si no

tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 que maximiza el tamaño muestral)

Solución

Utilizamos la fórmula ( )2

212

1p pn Z α

ε−

−= ⋅

donde: • 2 2 2

0.9751

2

1.96Z Zα−= =

• p es la proporción esperada (en este caso 5% = 0.05) • q = 1 – p = 1 – 0.05 = 0.95 • ε es el error máximo tolerable (en este caso deseamos un 3%)


Por lo que resulta que 22

0.05 0.951.96 203

0.03n

⋅= ⋅ =

Ejemplo 2

¿A cuántas personas tendría que estudiar de una población de 15,000 habitantes para conocer la prevalencia de diabetes? ¿Cómo varía el tamaño de la muestra si exigimos una precisión del 99%?

Solución

A diferencia del ejemplo anterior ahora la población total N= 15000 es finita y deseásemos saber cuántos del total tendremos que estudiar. Empleamos entonces la fórmula (II):

( )

( ) ( )

2

212

2 2 2 2

12

115000 1.96 0.05 0.95

2001 1 14999 0.03 1.96 0.05 0.95

N Z p p

nN Z p p

α

αε

−

−

⋅ ⋅ −⋅ ⋅ ⋅

= = =− ⋅ + ⋅ − ⋅ + ⋅ ⋅

Si la precisión es del 99% entonces 2 2 20.995

12

2.576Z Zα−= = y los cálculos ahora

resultan

( )

( ) ( )

2

212

2 2 2 2

12

115000 2.576 0.05 0.95

3421 1 14999 0.03 2.576 0.05 0.95

N Z p p

nN Z p p

α

αε

−

−

⋅ ⋅ −⋅ ⋅ ⋅

= = =− ⋅ + ⋅ − ⋅ + ⋅ ⋅


Estimar el tamaño de la población a partir de una muestra

Y terminamos este capítulo de estimación con un método muy simple y muy útil, de uso frecuente, para determinar el tamaño de una población, por ejemplo de un banco de merluza, o de cualquier especie en extinción. Pongamos como ejemplo que deseamos saber cuántas habas N contiene un saco. Para ello, en una primera operación, extraemos una muestra de, pongamos 100 habas y las marcamos con algún tipo de color, por ejemplo rojo, y las devolvemos al saco y mezclamos bien. En una segunda operación extraemos una nueva muestra aleatoria de, pongamos nuevamente otras 100 habas, pero las cantidades pueden variar, y contamos el número n (supongamos que salen 5) de habas rojas extraídas en esta segunda muestra. Entonces con solo aplicar una regla de tres hacemos:

5 100 100002000

100 5N

N= ⇒ = =

Colección de ejercicios de estimación de parámetros 29

Colección de ejercicios de estimación de parámetros

Ejercicio

Supongamos que X es una v.a. que representa el tiempo en msg de reacción a un estímulo de una neurona. Los resultados en 10 intentos fueron 3, 2.9, 2.8, 2.7, 2.6, 2.4, 2.5, 2.4, 2.6 y 2.7. Se sabe por experiencias previas que el tiempo de reacción es una v.a. con distribución normal. Estimar mediante un intervalo de confianza al 99% la media teórica de reacción y la desviación típica Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución

La media de la muestra 1

1 n

i

i

X xn =

= ∑ es un estimador insesgado de la media teórica, y

la cuasivarianza ( )22

1 1n

x XS

n−

−=

−

∑es un estimador también insesgado de la varianza

teórica, por tanto, usando Excel calculamos ( ) 2.66iX PROMEDIO x= = y la

cuasivarianza ( )21 0.0404n iS VAR x− = =

El intervalo de confianza para la media viene dado por 1 1

2 2

,X Z X Zn n

α α

σ σ

− −

− ⋅ + ⋅

Si el nivel de confianza exigido es del 99%, entonces el nivel de significación es α = 0.01 por lo que tenemos que calcular 0.995

12

Z Zα−= que mediante Excel se hace , sin

necesidad de tipificar ni mirar en ninguna tabla con DISTR.NORM.INV(0,995;2.66;0.0404) = 2.7641 El intervalo de confianza resulta

( )0.2011 0.20112.66 2.7641 ,2.66 2.7641 2.484,2.836

10 10

− ⋅ + ⋅ =

Ejercicio

Se extrae una muestra de 300 varones y 27 de ellos padecieron o padecen un cierto tipo de gripe. Tomamos la muestra de 400 mujeres resultando que 32 de ellas padecieron o padecen ese mismo tipo de gripe. Se pregunta ¿Depende del sexo la prevalencia de la gripe? Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución

Recordar que en epidemiología prevalencia es la proporción de individuos de una población que padecen una enfermedad en un periodo o tiempo determinado. Tenemos dos poblaciones disjuntas, hombres y mujeres, con proporciones pH = 27/300 = 0.09 y pM = 32/400 = 0.08 Vamos a calcular el intervalo de confianza de la diferencia de proporciones pH – pM el cual sabemos que el estimador de la media viene dado por ( pH – pM ) = 0.01 y la


varianza por ( ) ( )1 1 2 2

1 2

1 1 0.09 0.91 0.08 0.920.021

300 400

p p p p

n n

− − ⋅ ⋅+ = + = y la

distribución es, para n grandes como este caso,

� �( ) ( )

( ) ( )1 2 1 2

1 1 2 2

1 2

p p(0,1)

1 1

p pN

p p p p

n n

− − −→

− −+

y

como sabemos que en una N(0,1) en el intervalo (µ-2α, µ+2α ) = (-0.011,0.031) se encuentra concentrada el 97% de la población. Por tanto, los datos de las muestras son totalmente razonables y no podemos concluir con estos datos que la prevalencia dependa del sexo. El intervalo de confianza para la diferencia de proporciones es

( ) ( ) ( ) ( ) ( ) ( )1 1 2 2 1 1 2 21 2 1 2

1 11 2 1 22 2

1 1 1 1,

p p p p p p p pp p Z p p Z

n n n nα α− −

− − − − − − ⋅ + − + ⋅ + , de lo que El error máximo admisible viene dado por

Ejercicio

Para comparar la eficacia de dos tratamientos para la hipercloridia se observaron las curaciones que se produjeron en 100 pacientes del primer tratamiento y 120 pacientes del segundo. Con el primer trtamiento curaron 68 pacientes y 76 con el segundo. Utilizando el método de calcular el intervalod e confianza al 95% se podría concluir que un test es mejor que el otro? En caso afirmativo ¿cuál de ellos? Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución

Partiendo de que el intervalo de confianza al 95% es

( ) ( ) ( ) ( ) ( ) ( )1 1 2 2 1 1 2 21 2 0.975 1 2 0.975

1 2 1 2

1 1 1 1,

p p p p p p p pp p Z p p Z

n n n n

− − − − − − ⋅ + − + ⋅ +

En nuestro caso ( )1 2

68 760.68 0.633 0.047

100 120p p− = − = − = y

( ) ( )1 1 2 2

1 2

1 1 0.68 0.32 0.633 0.3670.064

100 120

p p p p

n n

− − ⋅ ⋅+ = + = por lo tanto el IC al

95% resulta ser ( ) ( )95%

0.047 1.96 0.064,0.047 1.96 0.064 0.079,0.172− ⋅ + ⋅ = −

No se puede concluir que un tratamiento sea mejor que el otro.

Ejercicio

Para 96 familias españolas, elegidas al azar, se ha determinado que la televisión permanece encendida en la casa una media de 217 minutos diarios; la desviación típica de la muestra fue de 40 minutos. Para una fiabilidad del 95%, ¿qué error se asume cuando se da por bueno ese dato para el total de las familias españolas? ¿Qué tamaño muestral sería necesario para reducir ese error a la mitad?


Solución

0.975

40 401.96 8

96 96Zε ε= ⋅ ⇒ = ⋅ �

Si queremos que el error sea 4 en lugar de 8, el tamaño de la muestra debe ser:

2

0.975

40 404 1.96 384.16

4Z n

n

= ⋅ ⇒ = ⋅

�

Ejercicio

Se quiere comprobar la eficacia de la disolución del ácido acetil salicílico. Para ello, a 12 personas (Grupo A de agua) se les administra la muestra de aspirina disuelta en agua. A otro grupo de 12 personas (Grupo E de efervescente) se les administró en mezcla efervescente. A los 45 minutos de la ingestión se les mide a todos ellos la concentración ácida en sangre (0.524), que suponemos sigue una N(µ,σ), resultando las siguientes mediciones Tamaño Media Varianza Cuasivarianza

Grupo A n1 =12 1 35.67X = 21 8.23σ = 2

1,1 8.59nS − =

Grupo E n2 =12 2 41.67X = 22 6.55σ = 2

1,2 6.84nS − =

Queremos una precisión en la estimación del 99%. La pregunta a resolver es ¿Es lo mismo tomarla en pastilla disuelta en agua que efervescente? Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución

Al tratarse de comparar dos muestras la mejor forma de hacerlo es considerando la

distribución de la diferencia de medias 1 2X X− , la cual sabemos que, como conocemos las varianzas de la población, sabemos que sigue una distribución

2 21 2

1 21 2

,Nn n

σ σµ µ − +

lo que equivale a decir que ( ) ( )

( )1 2 1 2

2 21 2

1 2

0,1X X

N

n n

µ µ

σ σ

− − −

+

� ,

por lo tanto, el intervalo de confianza es

( ) ( )

( )

2 2 2 21 2 1 2

1 2 1 20.995 0.9951 2 1 2

99%

2 2 2 2

, ...

8.59 6.84 8.59 6.84... 6 2.576 , 6 2.576 14.16,2.16

12 12 12 12

X X Z X X Zn n n n

σ σ σ σ − − ⋅ + − + ⋅ + =

= − − ⋅ + − + ⋅ + = −

Y al estar la media 0 contenida en este intervalo no podemos asegurar la efectividad de la pastilla efervescente. Si lo hubiésemos calculado al 95% resultaría el intervalo


( )2 2 2 28.59 6.84 8.59 6.84

6 1.96 , 6 1.96 12,21,0.2112 12 12 12

− − ⋅ + − + ⋅ + = −

Ejercicio

Se somete a 2 grupos de hipertensos a 2 tratamientos diferentes A (nuevo) y B (clásico) para reducir la tensión arterial. Se admite inicialmente que A es mejor que B si lo rebaja en 10 unidades o más. Las pruebas arrojan los siguientes resultados Tamaño Media CuasiVarianza D.T.

Grupo A nA = 25 130.3AX = 2 237.16n A

S = 1 15.4n AS − =

Grupo B nB =37 158.1BX = 2 163.84n B

S = 1 12.8n BS − =

Construye el IC al 95% de precisión y dinos cuál es tu opinión. Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución

Nuestra hipótesis nula es H0 : Tratamiento efectivo ( )10B Aµ µ− >

Calculamos previamente 37 163.84 25 237.16

14.1425 37 2pS

⋅ + ⋅= =

+ −, y en las tablas de la

t-Student buscamos para un niveld e confianza del 95% la 25 37 2 60t t+ − = , que resulta

1.67

( ) ( )

( ) ( ) ( )

2 2 2 2

25 37 2 25 37 2

95%

1 1 1 1, ...

2 2

1 1 1 1... 158.1 130.3 1.67 14.14 , 158.1 130.3 1.67 14.14 23.48,33.91

25 37 25 37

B B A A B B A AB A B A

A B A B A B A B

n S n S n S n SX X t X X t

n n n n n n n n+ − + −

+ + − − ⋅ + − + ⋅ + = + − + −

= − − ⋅ ⋅ + − + ⋅ ⋅ + =

Aceptamos la hipótesis nula H0 dado que el intervalo de confianza obtenido para la diferencia de medias es superior a 10.


RESUMEN DE ESTIMADORES

Estadístico

$θ

Media

$E θ

Desviación típica

(Error típico)

$. .( )D T θ

Distribución muestral de $θ

X µ

n

σ ( , )

conocida

X(0,1)

/X N N

n

µ σ

σ

µ

σ

→

−→

n

σ

conocida

grande

, X(0,1)

n /

XN

n

σ µ

σ

−→

1

1n nS S

n n

− =−

( , )1 desconocida

1

X X

/ / 1X N

n

n n

tS n S n

µ σ

σ

µ µ→ −

−

− −= →

−

�p p ( )1p p

n

−

$

( ) grande

p(0,1)

1

pn N

p p

n

−→

−

1 2X X− µ1- µ2

2 21 2

1 2n n

σ σ+

( )

( )

( ) ( ),1 1 1

1 2 1 2 conocida1

2 2,2 2 21 2

conocida21 2

X X(0,1)

X N

X NN

n n

µ σ

σ

µ σ

σ

µ µ

σ σ

→ →

− − −→

+

2 21 2

1 2n n

σ σ+ ( ) ( ), conocida1 1

1 2 1 2n grande1, conocida 2 22 2

1 2n grande2

1 2

X X(0,1)

X

XN

n n

σ

σ

µ µ

σ σ

− − −→

+

( ) ( )2 21 11 1 2 11 221 2

2 21 21 2

21 2

n S n Sn n

n n

n S n Sn n

n n

− + −− −+ −

+=

+ −

( )

( )

( ) ( )1 2

,1 1 11 2 1 2 desconocida1

22 2,2 2 21 21 2

desconocida21 2 1 2

X X

1 1

2

X N

n nX N

n n

tn S n S

n n n n

µ σ

σ

µ σ

σ

µ µ+ −

− − −

→+ + + −

�

�

� �1 2p p− p1- p2

( ) ( )1 1 2 2

1 2

1 1p p p p

n n

− −+

� �( ) ( )

( ) ( )grande 1 2 1 21

grande2 1 1 2 2

1 2

p p (0,1)

1 1

p pnN

n p p p p

n n

− − −→

− −+

21nS − σ

2

22

1nσ⋅

−

( ) 21 2

12

1( , ) n

n

n SX N µ σ χ

σ

−−

−→ →

2nS ( ) 21n

nσ

− ( ) 2

2

2 1n

nσ

−⋅

2212

( , ) nn

nSX N µ σ χ

σ−→ →

estimacion estadistica

Documents

intervalo de confianza

varianza poblacional

media conocida

estimacin puntual

miguel prez fontenla

contenido est sujeto

est escrito

autores iniciado