estad´ıstica miguel angel chong r.´ [email protected] ...€¦ · distribucion de la diferencia...

Curso Inferencia

EstadısticaMiguel Angel Chong R.

[email protected]

10 de septiembre del 2013

Miguel Chong Inferencia

Distribucion de la diferencia de medias muestrales cuando seconoce la varianza poblacional.

En muchas situaciones surge la necesidad de comparar mediasmuestrales de dos poblaciones distintas.

Supongamos que X ⇠ N

�µX

,�2

X

�, y que la variable aleatoria

Y ⇠ N

�µY

,�2

Y

�.

Se selecciona una muestra aleatoria de tamano n

X

de la primerapoblacion y una muestra aleatoria de tamano n

Y

de la otra.

Si X y Y son las medias muestrales de ambas muestras y estamosinteresados en conocer la distribucion muestral de la diferenciaX � Y para las muestras respectivas de tamano n

X

y n

Y


Teorema

Sean (X1

, . . . ,Xn

X

) y (Y1

, . . . ,Yn

Y

) dos muestras aleatoriassimples e independientes entre sı, de tamanos n

X

y n

Y

,procedentes de las poblaciones N

�µX

,�2

X

�y N

�µY

,�2

Y

�

respectivamente. Entonces la distribucion muestral de la diferenciade medias X � Y , tendra una distribucion normal

X � Y ⇠ N

✓µX

� µY

,�2

X

n

X

+�2

Y

n

Y

◆.

Entonces

Z =

�X � Y

�� (µ

X

� µY

)q

�2

X

n

X

+�2

Y

n

Y

⇠ N (0, 1) .


Distribucion de la diferencia de medias muestrales cuando nose conoce la varianza poblacional

Un caso mas general es cuando las varianzas poblacionales no sonconocidas. Si queremos obtener la distribucion de la diferencia demedias muestrales X � Y cuando el muestro se realiza sobre dospoblaciones normales, independientes y con varianzasdesconocidas. Es decir, consideramos dos poblaciones normales eindependientes, N

�µX

,�2

X

�y N

�µY

,�2

Y

�y seleccionamos una

muestra aleatona simple de tamano n

X

de la primera poblacion yotra muestra aleatoria simple de tamano n

Y

, independiente de laanterior, y procedente de la segunda poblacion, entonces puedenpresentarse dos situaciones:

Las varianzas poblacionales son iguales �2 = �2

X

= �2

Y

,

Las varianzas poblacionales son distintas �2

X

66= �2

Y

.


Caso �2= �2

X

= �2Y

Como las muestras son independientes, tambien seran independientes las

varianzas muestrales S

2

X

y S

2

Y

y por tanto los estadısticos

(n

X

� 1) S

2

X

�2

⇠ �2

n

X

�1

(n

Y

� 1) S

2

Y

�2

⇠ �2

n

Y

�1

,

entoces al sumar las dos expresiones anteriores y usando la independencia

tenemos que

U =

(n

X

� 1) S

2

X

+ (n

Y

� 1) S

2

Y

�2

⇠ �2

n

x

+n

Y

�2

.

Por otro lado

Z =

�¯

X � ¯

Y

�� (µ

X

� µY

)

�q

1

n

X

+

1

n

Y

⇠ N (0, 1) .

Y por lo tanto

T =

ZqU

n

X

+n

Y

�2

⇠ t

n

X

+n

Y

�2


Desarrollando la igualdad de la lamina anterior tenemos que

T =

(

¯

X� ¯

Y

)

�(µX

�µY

)

�q

1

n

X

+

1

n

Yq1

�2

(n

X

�1)S

2

X

+(n

Y

�1)S

2

Y

n

X

+n

Y

�2

=

pn

X

+ n

Y

� 2

�¯

X � ¯

Y

�� (µ

X

� µY

)

q1

n

X

+

1

n

Y

p(n

X

� 1) S

2

X

+ (n

Y

� 1) S

2

Y

=

pn

x

n

Y

pn

X

+ n

Y

� 2pn

x

+ n

Y

�¯

X � ¯

Y

�� (µ

X

� µY

)

p(n

X

� 1) S

2

X

+ (n

Y

� 1) S

2

Y

⇠ t

n

X

+n

Y

�2


caso �2X

66= �2Y

Si las varianzas poblacionales son distintas y desconocidas�2

X

66= �2

Y

utilizamos las varianzas muestrales S2

X

y S

2

Y

como susestimadores. Cuando los tamanos muestrales de ambas muestrasson mas grandes de 30, entonces usamos el estadıstico

�X � Y

�� (µ

X

� µY

)q

S

2

X

n

X

+S

2

Y

n

Y

! t⌫ ,

donde ⌫ es el entero mas proximo a la siguiente cantidad

✓S

2

X

n

X

+

S

2

Y

n

Y

◆2

S

2

X

n

X

!2

n

X

�1

+

S

2

Y

n

Y

!2

n

Y

�1


Distribucion para el cociente de varianzas

Sean dos poblaciones X y Y normales N�µX

,�2

X

�y N

�µY

,�2

Y

�

independientes, de las cuales seleccionamos dos muestras aleatorias eindependientes, de tamanos n

X

y n

Y

, (X1

, . . . ,Xn

X

) y (Y1

, . . . ,Yn

Y

),entonces pueden presentarse fundamentalmente dos situaciones:

a) Sungamos que µX

y µY

son conocidas.

Si definimos a

S

⇤2X

=1

n

X

n

XX

i=1

(Xi

� µX

)2 , S

⇤2Y

=1

n

Y

n

YX

i=1

(Yi

� µY

)2 .

entonces

U =n

X

S

⇤2X

�2

X

⇠ �2

n

X

, V =n

Y

S

⇤2Y

�2

Y

⇠ �2

n

Y

.

Entonces

F =U/n

X

V/nY

=�2

Y

�2

X

· S⇤2X

S

⇤2Y

⇠ F

n

X

,nY


b) y por otro lado, supongamos que µX

y µY

son desconocidas.

Si definimos a

S

2

X

=1

n

X

� 1

n

XX

i=1

�X

i

� X

�2

, S

2

Y

=1

n

Y

� 1

n

YX

i=1

�Y

i

� Y

�2

.

entonces

U =(n

X

� 1)S2

X

�2

X

⇠ �2

n

X

�1

, V =(n

Y

� 1)S2

Y

�2

Y

⇠ �2

n

Y

�1

.

Entonces

F =U/(n

X

�1)

V/(nY

�1)

=�2

Y

�2

X

·S

2

X

S

2

Y

⇠ F

n

X

�1,nY

�1


Teorema Central del Lımite

Sea X

1

,X2

,X3

, ... una sucesion de v.a.�s independientes con funcion deprobabilidades f

X

(x), con media µX

y varianza �2

X

. SeaX = 1

n

(X1

+ X

2

+ ...+ X

n

) la media aritmetica de las primeras nvariables aleatorias que integran la sucesion. Cuando n ! 1, ladistribucion de la variable aleatoria X es aproximadamente normal

con media µX

y varianza �2

X

n

, es decir

X

d! N

✓µX

,�2

X

n

◆, cuando n ! 1,

donde el sımbolod! debe leerse“converge en distribucion”.

Y por lo tanto

X � µX

�Xpn

=

pn(X � µ

X

)

�X

d! N(0, 1).


El Teorema Central del Lımite establece que para un tamano demuestra grande la distribucion de X es aproximadamente normal:

1 independientemente de que la v.a. X 1 de la cual se estamuestreando,

2 el teorema funciona aun si la distribucion es discreta,

3 sea simetrica o asimetrica la forma de la densidad de f

X

(x)

4 la expresion“tamano de muestra grande”es ambigua, por lotanto el tamano de muestra para el cual la aproximacion esbuena depende de la forma de f

X

(x).

1

Siempre y cuanto tenga hasta segundo momento finito.


Distribucion de la proporcion muestral

Sea (X

1

, . . . ,Xn

) una muestra aleatoria simple de tamano n, de una poblacion

Ber(p). Sea U =

nX

i=1

X

i

la v.a. que cuenta los exitos y por lo tanto el

estadıstico proporcion muestral que nos servira para estimar p sera la v.a.

P

x

=

U

n

.

Una vez que tenemos una muestra observada (x

1

, . . . , xn

) y u =

nX

i=1

x

i

el valor

del estadıstico proporcion muestral es el numero p =

u

n

.

en donde u representa el numero de elementos de la muestra que poseen la

caracterıstica que estamos investigando y la variable aleatoria U sigue una

distribucion binomial Bin(n, p). La distribucion binomial se puede aproximar

por una normal cuando n es grande (n � 30), usando el Teorema Central del

Lımite. Entonces el estadıstico muestral sigue una distribucion normal

U

n

d! N

✓p,

p(1� p)

n

◆


Distribucion de la diferencia de proporciones

Otro problema que se suele presentarse es comparar las proporciones px

yp

y

de dos poblaciones con distribucion Ber(px

) y Ber(py

), usandomuestras aleatorias simples de tamano n

x

y n

y

, respectivamente,extraıdas de ambas poblaciones de forma indepenciente entre ellas. Sean

U =n

xX

i=1

X

i

y V =

n

yX

i=1

Y

i

Entonces la distribucion muestral de la diferencia de proporciones

p

x

� p

y

=U

n

x

� V

n

y

tendra aproximadamente (para n

x

y n

y

grandes) una distribucion normalcon media y desviacion estandar

µp

x

�p

y

= p

x

� p

y

�2

p

x

�p

y

=p

x

q

x

n

x

+p

y

q

y

n

y

p

x

� p

y

d! N

⇣µp

x

�p

y

,�2

p

x

�p

y

⌘.


El problema de la estimacion puntual

La estimacion de parametros se divide en dos grandes grupos:

1 La estimacion puntual se concentra en obtener un unico valor,calculado a partir de las observaciones muestrales, y que esutilizado como estimacion del valor del parametro ✓.

2 En la estimacion por intervalos se obtienen dos valores: unlımite inferior L

i

y un lımite superior Ls

que definen unintervalo en los reales, el cual contendra con cierta confianzael valor del parametro ✓.


Como suponemos que la poblacion esta representada por sufuncion de distribucion F (x ; ✓), donde ✓ es el parametropoblacional desconocido.

El estimador del parametro poblacional ✓ es una funcion de lamuestra aleatoria

✓ = g(X1

, . . . ,Xn

)

Cuando tenemos una muestra observada (x1

, . . . , xn

) se obtiene unvalor especıfico del estimador que recibe el nombre de estimaciondel parametro poblacional ✓

✓ = g(x1

, . . . , xn

)

El estimador es un estadıstico y ademas v.a. y el valor de estavariable aleatoria para una muestra dada (x

1

, . . . , xn

) es unaestimacion puntual. Como hemos visto, estimador ✓ tiene sudistribucion muestral y para diferentes realizaciones de unamuestra de tamano n se tendra un valor.


Nuestro objetivo es seleccionar el estadıstico que usaremos comoestimador del parametro poblacional.

Por ejemplo, una propiedad deseable de un estadıstico es que paradiferentes realizaciones (x

1

, . . . , xn

), el estadıstico este en promedioconcentrado alrededor del verdadero valor del parametro ✓.


Propiedades de los estimadores puntuales

Supongamos que la poblacion sigue una distribucion F (x ; ✓), endonde ✓ es un parametro poblacional desconocido, y lo queremosestimar vıa ✓ = g(X

1

, . . . ,Xn

) dada una muestra aleatoria detamano n, (X

1

, . . . ,Xn

).

Pero nos interesa encontrar un estadıstico g(X1

, . . . ,Xn

) que nosproporcione el mejor estimador del parametro desconocido ✓, unamedida deseable es calcular error cuadratico medio del estimador.


Error cuadratico medio del estimador

ˆ✓.

Definimos el error cuadratico medio del estimador ✓, que lo notaremos por

ECM(

ˆ✓), como el valor esperado del cuadrado de la diferencia entre el

estadıstico

ˆ✓ y el parametro ✓ , es decir

ECM(

ˆ✓) = E⇣

ˆ✓ � ✓⌘2

�.

El ECM del estadıstico

ˆ✓ se puede descomponer en suma de dos cantidades no

negativas

ECM(

ˆ✓) = E⇣

ˆ✓ � ✓⌘2

�

= Var

⇣ˆ✓⌘+ B

2

⇣ˆ✓⌘,

B

⇣ˆ✓⌘= E

⇣ˆ✓⌘� ✓.

Notemos que ambas cantidades debe de ser tomadas en cuenta para obtener

propiedades deseables en un estimador.

Quisieramos que tanto la varianza como sesgo, sean lo mas pequenos posibles,

en otras palabras, serıa bueno que la distribucion muestral de

ˆ✓ se concentre al

rededor del parametro ✓.Miguel Chong Inferencia

¡Suena sencillo, bastarıa con tomar el estimador ✓ de ✓ con ECMmas pequeno de entre todos los posibles estimadores de ✓!

Lo que es difıcil es obtener entre todos los posibles estimadores de✓, el que nos de un ECM mınimo para todo ✓ 2 ⇥. En otraspalabras, no siempre existira un estimador ✓ que haga mınimo suECM para todo ✓ 2 ⇥2.

Puede pasar que un estimador ✓1

tenga ECM mınimo para algunosvalores del parametro ✓, mientras que otro estadıstico ✓

2

tenga unECM mınimo para otros valores de ✓.

Por lo tanto, el ECM como medida de eleccion de un buenestimador es insuficiente.

2

Al espacio parametral lo denotaremos por la letra ⇥, y es el conjunto de

todos los posibles valores que puede tomar ✓Miguel Chong Inferencia

Estimador insesgado

Hemos definido el sesgo del estimador ✓ como:

B

⇣✓⌘

= E⇣✓⌘� ✓.

en el ECM, que en el segundo sumando nos aparecıa el cuadrado del

sesgo, tambien decıamos que el ECM⇣✓⌘deberıa ser lo mas pequeno

posible y para ello era necesario que la varianza del estimador y elcuadrado del sesgo tambien fueran lo mas pequenos posibles.

Sera conveniente que el sesgo en valor absoluto sea lo mas chico posible,

siendo deseable que sea nulo, es decir E⇣✓⌘= ✓.

Decimos que un estimador ✓ es insesgado si E⇣✓⌘= ✓, de lo contrario

se dice que es sesgado.

Si E⇣✓⌘> ✓ estamos sobre estimando y si E

⇣✓⌘< ✓ caemos es

subestimacion.


Proposicion

Si ✓1

y ✓2

son dos estimadores insesgados del parametro ✓,entonces el estimador ✓ definido como

✓ = �✓1

+ (1� �)✓2

, � 2 (0, 1)

es tambien un estimador insesgado del parametro ✓.


Ejemplo Estimadores insesgados

Sea X

1

, . . . ,X10

una muestra aleatoria con media µ y varianza �2

considere los

siguientes estimadores para µ:

1

ˆ✓1

= X

1

,

2

ˆ✓2

=

X

1

+X

2

2

,

3

ˆ✓3

=

¯

X =

X

1

+X

2

+···+X

10

10

=

¯

X .

Las esperanzas y las varianzas de los estimadores anteriores son:

1 E⇣ˆ✓1

⌘= E (X

1

) = µ,

Var

⇣ˆ✓1

⌘= Var (X

1

) = �2

2 E⇣ˆ✓2

⌘= E

⇣X

1

+X

2

2

⌘=

1

2

E (X

1

+ X

2

) =

1

2

(E (X

1

) + E (X

2

)) =

µ+µ2

= µ,

Var

⇣ˆ✓2

⌘= Var

⇣X

1

+X

2

2

⌘=

1

4

(Var (X

1

+ X

2

)) =

1

4

(Var (X

1

) + Var (X

2

)) =

2�2

4

=

�2

2

.

3 E⇣ˆ✓3

⌘=

1

10

E (X

1

+ · · ·+ X

10

) =

10µ10

= µ,

Var

⇣ˆ✓3

⌘= Var

⇣X

1

+···+X

10

10

⌘=

1

100

(Var(X

1

+ · · ·+ X

10

)) =

1

100

(Var(X

1

) + · · ·+ Var(X

10

)) =

10�2

100

=

�2

10

.

respectivamente. Por lo tanto

ˆ✓1

, ˆ✓2

y

ˆ✓3

son estimadores insesgados de µ.ˆ✓3

es mas “eficiente”que

ˆ✓2

y

ˆ✓1

, puesto que

ˆ✓3

< ˆ✓2

< ˆ✓1

.


Estimador insesgado de minima varianza

Si nos restringimos a los estimadores insesgados y de ese conjuntobuscamos el que tenga el error cuadratico medio, ECM(✓),mınimo. Es decir, si el estadıstico ✓ es insesgado, entonces

ECM(✓) = Var(✓)

por lo tanto, ahora buscamos un estimador, de entre todos losestimadores insesgados el que tenga la varianza mas chica. A esteestimador insesgado de varianza mınima lo llamaremos el estimadorinsesgado y uniformemente de mınima varianza (UMVUE).


Definicion Estimador insesgado uniformemente de mınima varianza.

Diremos que el estimador insesgado ✓0

, es insesgado yuniformemente de mınima varianza (UMVUE) para el parametro ✓,si dado cualquier otro estimador insesgado ✓ de el y, se verifica que

Var(✓0

) Var(✓)

para todos los valores posibles de ✓.

Para llegar a obtener el UMVUE, si es que este existe, tendrıamosque calcular las varianzas de todos los estimadores insesgados para✓ y tomar el estimador que tenga la varianza mas chica.Afortunadamente existe un resultado3 que nos garantiza que existeuna cota inferior para la varianza de un estimador. Si bien no nosda este resultado el estimador de mınima varianza, sı nos dice sihemos alcanzado la cota o no.

3

Cota inferior de Cramer y Rao


Cota inferior de Cramer y Rao

Sea (X

1

, . . . ,Xn

) una muestra aleatoria de tamafio n, de una poblacion con funcion de

densidad f (x ; ✓) . Entonces la funcion de densidad conjunta de la muestra

L (x

1

, . . . , xn

; ✓) = f (x

1

, . . . , xn

; ✓)

cumple con que

Z

R· · ·

Z

Rf (x

1

, . . . , xn

; ✓) dx1

. . . dxn

= 1.

Por otro lado, sea

ˆ✓ = g (X

1

, . . . ,Xn

) un estimador insesgado para el parametro ✓.

Y si se cumplen las condiciones de regularidad, entonces la varianza del estimador esta

acotada inferiormente de la siguiente manera

Var

⇣ˆ✓⌘

�1

nE⇣

@ ln f (x ;✓)@✓

⌘2

�

=

1

�nEh@2

ln f (x ;✓)@✓2

i .

A E⇣

@ ln f (x ;✓)@✓

⌘2

�se le conoce como la informacion de Fisher .


Las condiciones de regularidad son:

i) El modelo f (x ; ✓) para la distribucion de la poblacion es tal queel soporte de f no depende de ✓.

ii) La funcion ln(f (x ; ✓)) es dos veces diferenciable y continua, esdecir, de clase C

2.

iii) Las operaciones de derivacion e integracion (o suma en casodiscreto) son intercambiables.


Si el estimador ✓ hubiera sido sesgado, es decir

Eh✓i

= ✓ + B(✓),

en donde B(✓) es el sesgo del estimador, entonces la Cota Inferiorde Cramer y Rao tiene la forma

Var(✓) �

⇣1 + B

0⇣✓⌘⌘

2

nE⇣

@ ln f (x ;✓)@✓

⌘2

� ,

siendo B

0(✓) la derivada respecto de ✓ del sesgo del estimador.


Observaciones

Si el modelo de poblacion, X es una variable aleatoriadiscreta, en vez de usar la funcion de densidad f (x ; ✓) usamosla funcion de masa de probabilidad P (X = x).

La Cota Inferior de Cramer Rao (CICR) nos da un lımiteinferior para la varianza del estimador ✓.


estad´ıstica miguel angel chong r.´ [email protected] ...€¦ · distribucion de la diferencia...

Documents