miguel angel chong r. [email protected] 13 de … · 2011-10-17 ·...
TRANSCRIPT
Inferencia Estadıstica
Miguel Angel Chong [email protected]
13 de octubre del 2011
Miguel Chong CNSF IIMAS-UNAM
El problema de la estimacion puntualLa estimacion de parametros se divide en dos grandes grupos
1 La estimacion puntual se concentra en obtener un unico valor,calculado a partir de las observaciones muestrales, y que esutilizado como estimacion del valor del parametro θ.
2 En la estimacion por intervalos se obtienen dos valores: unlımite inferior Li y un lımite superior Ls que definen unintervalo en los reales, el cual contendra con cierta confianzael valor del parametro θ.
Miguel Chong CNSF IIMAS-UNAM
Como suponemos que la poblacion esta representada por sufuncion de distribucion F (x ; θ), donde θ es el parametropoblacional desconocido.El estimador del parametro poblacional θ es una funcion de lamuestra aleatoria
θ = g(X1, . . . ,Xn)
Cuando tenemos una muestra observada (x1, . . . , xn) se obtiene unvalor especıfico del estimador que recibe el nombre de estimaciondel parametro poblacional θ
θ = g(x1, . . . , xn)
El estimador es un estadıstico y ademas v.a. y el valor de estavariable aleatoria para una muestra dada (x1, . . . , xn) es unaestimacion puntual. Como hemos visto, estimador θ tiene sudistribucion muestral y para diferentes realizaciones de unamuestra de tamano n se tendra un valor.
Miguel Chong CNSF IIMAS-UNAM
Nuestro objetivo es seleccionar el estadıstico que usaremos comoestimador del parametro poblacional.Por ejemplo, una propiedad deseable de un estadıstico es que paradiferentes realizaciones (x1, . . . , xn), el estadıstico esten enpromedio concentrado alrededor del verdadero valor del parametroθ.Propiedades de los estimadores puntualesSupongamos que la poblacion sigue una distribucion F (x ; θ), endonde θ es un parametro poblacional desconocido, y lo queremosestimar vıa θ = g(X1, . . . ,Xn) dada una muestra aleatoria detamano n, (X1, . . . ,Xn).Pero nos interesa encontrar un estadıstico g(X1, . . . ,Xn) que nosproporcione el mejor estimador del parametro desconocido θ, unamedida deseable es calcular error cuadratico medio del estimador.
Miguel Chong CNSF IIMAS-UNAM
Error cuadratico medio del estimador θ.
Definimos el error cuadratico medio del estimador θ, que lo notaremos porECM(θ), como el valor esperado del cuadrado de la diferencia entre elestadıstico θ y el parametro θ , es decir
ECM(θ) = E[(θ − θ
)2].
El ECM del estadıstico θ se puede descomponer en suma de dos cantidades nonegativas
ECM(θ) = E[(θ − θ
)2]
= Var(θ)
+ B2(θ),
B(θ)
= E(θ)− θ.
Notemos que ambas cantidades debe de ser tomadas en cuenta para obtenerpropiedades deseables en un estimador.Quisieramos que tanto la varianza como sesgo, sean lo mas pequenos posibles,en otras palabras, serıa deseable que la distribucion muestral de θ seconcentrarse mucho al rededor del parametro θ.
Miguel Chong CNSF IIMAS-UNAM
Estimador insesgadoHemos definido el sesgo del estimador θ como
B(θ)
= E(θ)− θ.
en el ECM, que en el segundo sumando nos aparecıa el cuadrado
del sesgo, tambien decıamos que el ECM(θ)
deberıa ser lo mas
pequeno posible y para ello era necesario que la varianza delestimador y el cuadrado del sesgo tambien fueran lo mas pequenosposibles.Sera conveniente que el sesgo en valor absoluto sea lo mas chico
posible, siendo deseable que sea nulo, es decir E(θ)
= θ.
Decimos que un estimador θ es insesgado si E(θ)
= θ, de lo
contrario se dice que es sesgado.
Si E(θ)> θ estamos sobre estimando y si E
(θ)< θ caemos es
subestimacion.
Miguel Chong CNSF IIMAS-UNAM
ProposicionSi θ1 y θ2 son dos estimadores insesgados del parametro θ,entonces el estimador θ definido como
θ = λθ1 + (1− λ)θ2, λ ∈ (0, 1)
es tambien un estimador insesgado del parametro θ.
Miguel Chong CNSF IIMAS-UNAM
Ejemplo Estimadores insesgadosSea X1, . . . ,X10 una muestra aleatoria con media µ y varianza σ2 considere lossiguientes estimadores para µ:
1 θ1 = X1,
2 θ2 = X1+X22
,
3 θ3 = X = X1+X2+···+X1010
= X .
Las esperanzas y las varianzas de los estimadores anteriores son:
1 E(θ1
)= E (X1) = µ,
Var(θ1
)= Var (X1) = σ2
2 E(θ2
)= E
(X1+X2
2
)= 1
2E (X1 + X2) = 1
2(E (X1) + E (X2)) = µ+µ
2= µ,
Var(θ2
)= Var
(X1+X2
2
)= 1
4(Var (X1 + X2)) = 1
4(Var (X1) + Var (X2)) =
2σ2
4= σ2
2.
3 E(θ3
)= 1
10E (X1 + · · ·+ X10) = 10µ
10= µ,
Var(θ3
)= Var
(X1+···+X10
10
)= 1
100(Var(X1 + · · ·+ X10)) =
1100
(Var(X1) + · · ·+ Var(X10)) = 10σ2
100= σ2
10.
respectivamente. Por lo tanto θ1, θ2 y θ3 son estimadores insesgados de µ.θ3 es mas “eficiente” que θ2 y θ1, puesto que θ3 < θ2 < θ1.
Miguel Chong CNSF IIMAS-UNAM
Estimador insesgado de minima varianza
Si nos restringimos a los estimadores insesgados y de ese conjuntobuscamos el que tenga el error cuadratico medio, ECM(θ),mınimo. Es decir, si el estadıstico θ es insesgado, entonces
ECM(θ) = Var(θ)
por lo tanto, ahora buscamos un estimador, de entre todos losestimadores insesgados el que tenga la varianza mas chica. A esteestimador insesgado de varianza mınima lo llamaremos el estimadorinsesgado y uniformemente de mınima varianza (UMVUE).
Miguel Chong CNSF IIMAS-UNAM
Definicion Estimador insesgado uniformemente de mınima varianza.Diremos que el estimador insesgado θ0, es insesgado yuniformemente de mınima varianza (UMVUE) para el parametro θ,si dado cualquier otro estimador insesgado θ de el y, se verifica que
Var(θ0) ≤ Var(θ)
para todos los valores posibles de θ.Para llegar a obtener el UMVUE, si es que este existe, tendrıamoscalcular las varianzas de todos los estimadores insesgados para θ yagarrarnos el estimador que tenga la varianza mas chica.Afortunadamente existe un resultado1 que nos garantiza que existeuna cota inferior para la varianza de un estimador. Si bien no nosda este resultado el estimador de mınima varianza, sı nos dice sihemos alcanzado la cota o no.
1Cota inferior de Cramer y RaoMiguel Chong CNSF IIMAS-UNAM
Cota inferior de Cramer y Rao
Sea (X1, . . . ,Xn) una muestra aleatoria de tamafio n, de una poblacion con funcion dedensidad f (x ; θ) . Entonces la funcion de densidad conjunta de la muestra
L (x1, . . . , xn; θ) = dF (x1, . . . , xn; θ)
= f (x1, . . . , xn; θ)
cumple con que
∫R· · ·∫RdF (x1, . . . , xn; θ) dx1 . . . dxn =
∫R· · ·∫Rf (x1, . . . , xn; θ) dx1 . . . dxn = 1.
Por otro lado, sea θ = g (X1, . . . ,Xn) un estimador insesgado para el parametro θ.Y si se cumplen las condiciones de regularidad, entonces la varianza del estimador estaacotada inferiormente de la siguiente manera
Var(θ)≥
1
nE[(
∂ ln f (x ;θ)∂θ
)2]
=1
−nE[∂2 ln f (x ;θ)
∂θ2
] .A E
[(∂ ln f (x ;θ)
∂θ
)2]
se le conoce como la informacion de Fisher .
Miguel Chong CNSF IIMAS-UNAM
Las condiciones de regularidad son:i) El modelo f (x ; θ) para la distribucion de la poblacion es tal queel soporte de f no depende de θ.ii) La funcion ln(f (x ; θ)) es dos veces diferenciable y continua, esdecir, de clase C 2.iii) Las operaciones de derivacion e integracion (o suma en casodiscreto) son intercambiables.
Miguel Chong CNSF IIMAS-UNAM
Si el estimador θ hubiera sido sesgado, es decir
E[θ]
= θ + B(θ),
en donde B(θ) es el sesgo del estimador, entonces la Cota Inferiorde Cramer y Rao tiene la forma
Var(θ) ≥
(1 + B ′
(θ))2
nE[(
∂ ln f (x ;θ)∂θ
)2] ,
siendo B ′(θ) la derivada respecto de θ del sesgo del estimador.
Miguel Chong CNSF IIMAS-UNAM
Observaciones
Si el modelo de poblacion, X es una variable aleatoriadiscreta, en vez de usar la funcion de densidad f (x ; θ) usamosla funcion de masa de probabilidad P (X = x).
La Cota Inferior de Cramer Rao (CICR) nos da un lımiteinferior para la varianza del estimador θ.
Miguel Chong CNSF IIMAS-UNAM
Estimador eficiente
La propiedad de eficiencia de un estimador la definiremoscomparando su varianza con la varianza de los demas estimadoresinsesgados. Ası pues, el estimador mas eficiente entre un grupo deestimadores insesgados sera el que tenga menor varianza.Definicion Estimador eficiente.Un estimador θ del parametro poblacional θ, es eficiente si esinsesgado y ademas su varianza alcanza la CICR, es decir
Var(θ) =1
nE[(
∂ ln f (x ;θ)∂θ
)2]
Miguel Chong CNSF IIMAS-UNAM
Definicion Eficiencia de un estimador.La eficiencia de un estimador insesgado, θ del parametro θ como
eff (θ) =CICR
Var(θ) ,
donde eff (θ)≤1.Por otro lado, si tenemos dos estimadores insesgados θ1 y θ2 conrespecto a el parametro θ, diremos que el estimador θ1, es maseficiente que el estimador θ2, si se verifica
eff (θ1) ≥ eff (θ2),
o equivalentemente
Var(θ1) ≤ Var(θ2).
Miguel Chong CNSF IIMAS-UNAM
Eficiencia relativa.
Dados dos estimadores insesgados θ1 y θ2 del parametro θ,definimos la eficiencia relativa de θ1 a θ2 como
eff. relat(θ1, θ2
)=
Var(θ2
)Var
(θ1
) =eff(θ2
)eff(θ1
) .Y por lo tanto si
eff. relat(θ1, θ2
) < 1 θ2 es mas eficiente que θ1
= 1 θ1 y θ2 son igual de eficientes
> 1 θ1 es mas eficiente que θ2
Miguel Chong CNSF IIMAS-UNAM
ProposicionDada una poblacion N
(µ, σ2
)se verifica que la media muestral X
es un estimador eficiente de la media poblacional µ.TeoremaSi un estimador θ es insesgado, su varianza alcanza la CICR si ysolo si
∂ lndFn
∂θ= A (θ)
(θ − θ
),
donde A (θ) no depende de θ.Teorema
Var(θ)
=1
A (θ)
Miguel Chong CNSF IIMAS-UNAM
Definicion Estimador asintoticamente eficiente.Diremos que un estimador θ es asintoticamente eficiente si severifica
lımn→∞
CICR
Var(θ) = 1.
Miguel Chong CNSF IIMAS-UNAM
Estimador consistente
Hasta ahora hemos considerado las propiedades de los estimadores puntualesusando una muestras aleatorias de tamano n, con n fijo. Parece logico suponerque un estimador sera “mejor” en la medida que el tamano de muestra naumente.Ademas usando el teorema de Glivenko-Cantelli que nos dice que para unamuestra aleatoria X1,X2, . . . ,Xn proveniente de una poblacion con funcion dedistibucion F (x). Si a partir de la muestra calculamos la funcion dedistribucion empirica
Fn(x) =
0 x ∈(−∞,X(1)
)un
x ∈[X(u),X(u+1)
)y u ∈ {1, . . . , n − 1}
1 x ∈[X(n),∞
).
Entonces dn = supx|F (x)− Fn(x)| entonces P
(lım
n→∞dn = 0
)= 1.
Es decir, que cuando el tamano de la muestra es suficientemente grandeentonces la distribucion de la muestra se parece mucho la de la poblacion y porel valor del estimador tiende a coincidir con el valor del parametro.
Miguel Chong CNSF IIMAS-UNAM
Sean θ1, θ2, . . . , θn una sucesion de estimadores del parametro θ,obtenidos a partir de muestras de tamano 1, 2, . . . , n,respectivamente, es decir:
θ1 = g (X1)
θ2 = g (X1,X2)...
θn = g (X1,X2, . . . ,Xn) ,
de manera que el estimador basado en la muestra de tamano n lonotaremos por θn, en donde el subındice n lo empleamos parahacer mas evidente la dependencia del tamano muestral. En
general esta sucesion de estimadores se representa por{θn
}.
Miguel Chong CNSF IIMAS-UNAM
Definicion Estimador consistente.Diremos que una sucesion de estimadores
{θn
}es consistente, si la
sucesion converge en probabilidad hacia el parametro θ. Es decir, si
lımn→∞
P(|θn − θ| < ε
)= 1
y cada elemento de la sucesion se dira que es un estimadorconsistente.
Miguel Chong CNSF IIMAS-UNAM
EjemploSi se lanzara una moneda n veces que tiene probabilidad p de ser aguila,entonces Y , el numero de aguilas en los n lanzamientos, tiene unadistribucion binomial. Si p es desconocido se puede estimar con Y /n.¿Que pasa con esta proporcion muestral si aumenta el numero delanzamientos n? Intuitivamente se pensarıa que Y /n deberıa estar mascerca de p. Esto en terminos de probabilidad se escribe ası
P(|Y
n− p| ≤ ε
).
Esta probabilidad deberıa ser cercana a la unidad para valores grandes den. Si la probabilidad de arriba tiende a uno cuando n→∞ entonces Y /nes un estimador consistente de p. En general un estimador θ de θ esconsistente si para cualquier numero positivo ε,
limn→∞
P(|θn − θ| ≤ ε
)= 1.
Miguel Chong CNSF IIMAS-UNAM