miguel angel chong r. [email protected] 13 de … · 2011-10-17 ·...

Inferencia Estadıstica

Miguel Angel Chong [email protected]

13 de octubre del 2011

Miguel Chong CNSF IIMAS-UNAM

El problema de la estimacion puntualLa estimacion de parametros se divide en dos grandes grupos

1 La estimacion puntual se concentra en obtener un unico valor,calculado a partir de las observaciones muestrales, y que esutilizado como estimacion del valor del parametro θ.

2 En la estimacion por intervalos se obtienen dos valores: unlımite inferior Li y un lımite superior Ls que definen unintervalo en los reales, el cual contendra con cierta confianzael valor del parametro θ.


Como suponemos que la poblacion esta representada por sufuncion de distribucion F (x ; θ), donde θ es el parametropoblacional desconocido.El estimador del parametro poblacional θ es una funcion de lamuestra aleatoria

θ = g(X1, . . . ,Xn)

Cuando tenemos una muestra observada (x1, . . . , xn) se obtiene unvalor especıfico del estimador que recibe el nombre de estimaciondel parametro poblacional θ

θ = g(x1, . . . , xn)

El estimador es un estadıstico y ademas v.a. y el valor de estavariable aleatoria para una muestra dada (x1, . . . , xn) es unaestimacion puntual. Como hemos visto, estimador θ tiene sudistribucion muestral y para diferentes realizaciones de unamuestra de tamano n se tendra un valor.


Nuestro objetivo es seleccionar el estadıstico que usaremos comoestimador del parametro poblacional.Por ejemplo, una propiedad deseable de un estadıstico es que paradiferentes realizaciones (x1, . . . , xn), el estadıstico esten enpromedio concentrado alrededor del verdadero valor del parametroθ.Propiedades de los estimadores puntualesSupongamos que la poblacion sigue una distribucion F (x ; θ), endonde θ es un parametro poblacional desconocido, y lo queremosestimar vıa θ = g(X1, . . . ,Xn) dada una muestra aleatoria detamano n, (X1, . . . ,Xn).Pero nos interesa encontrar un estadıstico g(X1, . . . ,Xn) que nosproporcione el mejor estimador del parametro desconocido θ, unamedida deseable es calcular error cuadratico medio del estimador.


Error cuadratico medio del estimador θ.

Definimos el error cuadratico medio del estimador θ, que lo notaremos porECM(θ), como el valor esperado del cuadrado de la diferencia entre elestadıstico θ y el parametro θ , es decir

ECM(θ) = E[(θ − θ

)2].

El ECM del estadıstico θ se puede descomponer en suma de dos cantidades nonegativas

ECM(θ) = E[(θ − θ

)2]

= Var(θ)

+ B2(θ),

B(θ)

= E(θ)− θ.

Notemos que ambas cantidades debe de ser tomadas en cuenta para obtenerpropiedades deseables en un estimador.Quisieramos que tanto la varianza como sesgo, sean lo mas pequenos posibles,en otras palabras, serıa deseable que la distribucion muestral de θ seconcentrarse mucho al rededor del parametro θ.


Estimador insesgadoHemos definido el sesgo del estimador θ como

B(θ)

= E(θ)− θ.

en el ECM, que en el segundo sumando nos aparecıa el cuadrado

del sesgo, tambien decıamos que el ECM(θ)

deberıa ser lo mas

pequeno posible y para ello era necesario que la varianza delestimador y el cuadrado del sesgo tambien fueran lo mas pequenosposibles.Sera conveniente que el sesgo en valor absoluto sea lo mas chico

posible, siendo deseable que sea nulo, es decir E(θ)

= θ.

Decimos que un estimador θ es insesgado si E(θ)

= θ, de lo

contrario se dice que es sesgado.

Si E(θ)> θ estamos sobre estimando y si E

(θ)< θ caemos es

subestimacion.


ProposicionSi θ1 y θ2 son dos estimadores insesgados del parametro θ,entonces el estimador θ definido como

θ = λθ1 + (1− λ)θ2, λ ∈ (0, 1)

es tambien un estimador insesgado del parametro θ.


Ejemplo Estimadores insesgadosSea X1, . . . ,X10 una muestra aleatoria con media µ y varianza σ2 considere lossiguientes estimadores para µ:

1 θ1 = X1,

2 θ2 = X1+X22

,

3 θ3 = X = X1+X2+···+X1010

= X .

Las esperanzas y las varianzas de los estimadores anteriores son:

1 E(θ1

)= E (X1) = µ,

Var(θ1

)= Var (X1) = σ2

2 E(θ2

)= E

(X1+X2

2

)= 1

2E (X1 + X2) = 1

2(E (X1) + E (X2)) = µ+µ

2= µ,

Var(θ2

)= Var

(X1+X2

2

)= 1

4(Var (X1 + X2)) = 1

4(Var (X1) + Var (X2)) =

2σ2

4= σ2

2.

3 E(θ3

)= 1

10E (X1 + · · ·+ X10) = 10µ

10= µ,

Var(θ3

)= Var

(X1+···+X10

10

)= 1

100(Var(X1 + · · ·+ X10)) =

1100

(Var(X1) + · · ·+ Var(X10)) = 10σ2

100= σ2

10.

respectivamente. Por lo tanto θ1, θ2 y θ3 son estimadores insesgados de µ.θ3 es mas “eficiente” que θ2 y θ1, puesto que θ3 < θ2 < θ1.


Estimador insesgado de minima varianza

Si nos restringimos a los estimadores insesgados y de ese conjuntobuscamos el que tenga el error cuadratico medio, ECM(θ),mınimo. Es decir, si el estadıstico θ es insesgado, entonces

ECM(θ) = Var(θ)

por lo tanto, ahora buscamos un estimador, de entre todos losestimadores insesgados el que tenga la varianza mas chica. A esteestimador insesgado de varianza mınima lo llamaremos el estimadorinsesgado y uniformemente de mınima varianza (UMVUE).


Definicion Estimador insesgado uniformemente de mınima varianza.Diremos que el estimador insesgado θ0, es insesgado yuniformemente de mınima varianza (UMVUE) para el parametro θ,si dado cualquier otro estimador insesgado θ de el y, se verifica que

Var(θ0) ≤ Var(θ)

para todos los valores posibles de θ.Para llegar a obtener el UMVUE, si es que este existe, tendrıamoscalcular las varianzas de todos los estimadores insesgados para θ yagarrarnos el estimador que tenga la varianza mas chica.Afortunadamente existe un resultado1 que nos garantiza que existeuna cota inferior para la varianza de un estimador. Si bien no nosda este resultado el estimador de mınima varianza, sı nos dice sihemos alcanzado la cota o no.

1Cota inferior de Cramer y RaoMiguel Chong CNSF IIMAS-UNAM

Cota inferior de Cramer y Rao

Sea (X1, . . . ,Xn) una muestra aleatoria de tamafio n, de una poblacion con funcion dedensidad f (x ; θ) . Entonces la funcion de densidad conjunta de la muestra

L (x1, . . . , xn; θ) = dF (x1, . . . , xn; θ)

= f (x1, . . . , xn; θ)

cumple con que

∫R· · ·∫RdF (x1, . . . , xn; θ) dx1 . . . dxn =

∫R· · ·∫Rf (x1, . . . , xn; θ) dx1 . . . dxn = 1.

Por otro lado, sea θ = g (X1, . . . ,Xn) un estimador insesgado para el parametro θ.Y si se cumplen las condiciones de regularidad, entonces la varianza del estimador estaacotada inferiormente de la siguiente manera

Var(θ)≥

1

nE[(

∂ ln f (x ;θ)∂θ

)2]

=1

−nE[∂2 ln f (x ;θ)

∂θ2

] .A E

[(∂ ln f (x ;θ)

∂θ

)2]

se le conoce como la informacion de Fisher .


Las condiciones de regularidad son:i) El modelo f (x ; θ) para la distribucion de la poblacion es tal queel soporte de f no depende de θ.ii) La funcion ln(f (x ; θ)) es dos veces diferenciable y continua, esdecir, de clase C 2.iii) Las operaciones de derivacion e integracion (o suma en casodiscreto) son intercambiables.


Si el estimador θ hubiera sido sesgado, es decir

E[θ]

= θ + B(θ),

en donde B(θ) es el sesgo del estimador, entonces la Cota Inferiorde Cramer y Rao tiene la forma

Var(θ) ≥

(1 + B ′

(θ))2

nE[(


)2] ,

siendo B ′(θ) la derivada respecto de θ del sesgo del estimador.


Observaciones

Si el modelo de poblacion, X es una variable aleatoriadiscreta, en vez de usar la funcion de densidad f (x ; θ) usamosla funcion de masa de probabilidad P (X = x).

La Cota Inferior de Cramer Rao (CICR) nos da un lımiteinferior para la varianza del estimador θ.


Estimador eficiente

La propiedad de eficiencia de un estimador la definiremoscomparando su varianza con la varianza de los demas estimadoresinsesgados. Ası pues, el estimador mas eficiente entre un grupo deestimadores insesgados sera el que tenga menor varianza.Definicion Estimador eficiente.Un estimador θ del parametro poblacional θ, es eficiente si esinsesgado y ademas su varianza alcanza la CICR, es decir

Var(θ) =1

nE[(


)2]


Definicion Eficiencia de un estimador.La eficiencia de un estimador insesgado, θ del parametro θ como

eff (θ) =CICR

Var(θ) ,

donde eff (θ)≤1.Por otro lado, si tenemos dos estimadores insesgados θ1 y θ2 conrespecto a el parametro θ, diremos que el estimador θ1, es maseficiente que el estimador θ2, si se verifica

eff (θ1) ≥ eff (θ2),

o equivalentemente

Var(θ1) ≤ Var(θ2).


Eficiencia relativa.

Dados dos estimadores insesgados θ1 y θ2 del parametro θ,definimos la eficiencia relativa de θ1 a θ2 como

eff. relat(θ1, θ2

)=

Var(θ2

)Var

(θ1

) =eff(θ2

)eff(θ1

) .Y por lo tanto si

eff. relat(θ1, θ2

) < 1 θ2 es mas eficiente que θ1

= 1 θ1 y θ2 son igual de eficientes

> 1 θ1 es mas eficiente que θ2


ProposicionDada una poblacion N

(µ, σ2

)se verifica que la media muestral X

es un estimador eficiente de la media poblacional µ.TeoremaSi un estimador θ es insesgado, su varianza alcanza la CICR si ysolo si

∂ lndFn

∂θ= A (θ)

(θ − θ

),

donde A (θ) no depende de θ.Teorema

Var(θ)

=1

A (θ)


Definicion Estimador asintoticamente eficiente.Diremos que un estimador θ es asintoticamente eficiente si severifica

lımn→∞

CICR

Var(θ) = 1.


Estimador consistente

Hasta ahora hemos considerado las propiedades de los estimadores puntualesusando una muestras aleatorias de tamano n, con n fijo. Parece logico suponerque un estimador sera “mejor” en la medida que el tamano de muestra naumente.Ademas usando el teorema de Glivenko-Cantelli que nos dice que para unamuestra aleatoria X1,X2, . . . ,Xn proveniente de una poblacion con funcion dedistibucion F (x). Si a partir de la muestra calculamos la funcion dedistribucion empirica

Fn(x) =

0 x ∈(−∞,X(1)

)un

x ∈[X(u),X(u+1)

)y u ∈ {1, . . . , n − 1}

1 x ∈[X(n),∞

).

Entonces dn = supx|F (x)− Fn(x)| entonces P

(lım

n→∞dn = 0

)= 1.

Es decir, que cuando el tamano de la muestra es suficientemente grandeentonces la distribucion de la muestra se parece mucho la de la poblacion y porel valor del estimador tiende a coincidir con el valor del parametro.


Sean θ1, θ2, . . . , θn una sucesion de estimadores del parametro θ,obtenidos a partir de muestras de tamano 1, 2, . . . , n,respectivamente, es decir:

θ1 = g (X1)

θ2 = g (X1,X2)...

θn = g (X1,X2, . . . ,Xn) ,

de manera que el estimador basado en la muestra de tamano n lonotaremos por θn, en donde el subındice n lo empleamos parahacer mas evidente la dependencia del tamano muestral. En

general esta sucesion de estimadores se representa por{θn

}.


Definicion Estimador consistente.Diremos que una sucesion de estimadores

{θn

}es consistente, si la

sucesion converge en probabilidad hacia el parametro θ. Es decir, si

lımn→∞

P(|θn − θ| < ε

)= 1

y cada elemento de la sucesion se dira que es un estimadorconsistente.


EjemploSi se lanzara una moneda n veces que tiene probabilidad p de ser aguila,entonces Y , el numero de aguilas en los n lanzamientos, tiene unadistribucion binomial. Si p es desconocido se puede estimar con Y /n.¿Que pasa con esta proporcion muestral si aumenta el numero delanzamientos n? Intuitivamente se pensarıa que Y /n deberıa estar mascerca de p. Esto en terminos de probabilidad se escribe ası

P(|Y

n− p| ≤ ε

).

Esta probabilidad deberıa ser cercana a la unidad para valores grandes den. Si la probabilidad de arriba tiende a uno cuando n→∞ entonces Y /nes un estimador consistente de p. En general un estimador θ de θ esconsistente si para cualquier numero positivo ε,

limn→∞

P(|θn − θ| ≤ ε

)= 1.


miguel angel chong r. [email protected] 13 de … · 2011-10-17 ·...

Documents