estad´ıstica miguel angel chong r.´ [email protected] ...€¦ · distribucion de la diferencia...
TRANSCRIPT
Curso Inferencia
EstadısticaMiguel Angel Chong R.
10 de septiembre del 2013
Miguel Chong Inferencia
Distribucion de la diferencia de medias muestrales cuando seconoce la varianza poblacional.
En muchas situaciones surge la necesidad de comparar mediasmuestrales de dos poblaciones distintas.
Supongamos que X ⇠ N
�µX
,�2
X
�, y que la variable aleatoria
Y ⇠ N
�µY
,�2
Y
�.
Se selecciona una muestra aleatoria de tamano n
X
de la primerapoblacion y una muestra aleatoria de tamano n
Y
de la otra.
Si X y Y son las medias muestrales de ambas muestras y estamosinteresados en conocer la distribucion muestral de la diferenciaX � Y para las muestras respectivas de tamano n
X
y n
Y
Miguel Chong Inferencia
Teorema
Sean (X1
, . . . ,Xn
X
) y (Y1
, . . . ,Yn
Y
) dos muestras aleatoriassimples e independientes entre sı, de tamanos n
X
y n
Y
,procedentes de las poblaciones N
�µX
,�2
X
�y N
�µY
,�2
Y
�
respectivamente. Entonces la distribucion muestral de la diferenciade medias X � Y , tendra una distribucion normal
X � Y ⇠ N
✓µX
� µY
,�2
X
n
X
+�2
Y
n
Y
◆.
Entonces
Z =
�X � Y
�� (µ
X
� µY
)q
�2
X
n
X
+�2
Y
n
Y
⇠ N (0, 1) .
Miguel Chong Inferencia
Distribucion de la diferencia de medias muestrales cuando nose conoce la varianza poblacional
Un caso mas general es cuando las varianzas poblacionales no sonconocidas. Si queremos obtener la distribucion de la diferencia demedias muestrales X � Y cuando el muestro se realiza sobre dospoblaciones normales, independientes y con varianzasdesconocidas. Es decir, consideramos dos poblaciones normales eindependientes, N
�µX
,�2
X
�y N
�µY
,�2
Y
�y seleccionamos una
muestra aleatona simple de tamano n
X
de la primera poblacion yotra muestra aleatoria simple de tamano n
Y
, independiente de laanterior, y procedente de la segunda poblacion, entonces puedenpresentarse dos situaciones:
Las varianzas poblacionales son iguales �2 = �2
X
= �2
Y
,
Las varianzas poblacionales son distintas �2
X
66= �2
Y
.
Miguel Chong Inferencia
Caso �2= �2
X
= �2Y
Como las muestras son independientes, tambien seran independientes las
varianzas muestrales S
2
X
y S
2
Y
y por tanto los estadısticos
(n
X
� 1) S
2
X
�2
⇠ �2
n
X
�1
(n
Y
� 1) S
2
Y
�2
⇠ �2
n
Y
�1
,
entoces al sumar las dos expresiones anteriores y usando la independencia
tenemos que
U =
(n
X
� 1) S
2
X
+ (n
Y
� 1) S
2
Y
�2
⇠ �2
n
x
+n
Y
�2
.
Por otro lado
Z =
�¯
X � ¯
Y
�� (µ
X
� µY
)
�q
1
n
X
+
1
n
Y
⇠ N (0, 1) .
Y por lo tanto
T =
ZqU
n
X
+n
Y
�2
⇠ t
n
X
+n
Y
�2
Miguel Chong Inferencia
Desarrollando la igualdad de la lamina anterior tenemos que
T =
(
¯
X� ¯
Y
)
�(µX
�µY
)
�q
1
n
X
+
1
n
Yq1
�2
(n
X
�1)S
2
X
+(n
Y
�1)S
2
Y
n
X
+n
Y
�2
=
pn
X
+ n
Y
� 2
�¯
X � ¯
Y
�� (µ
X
� µY
)
q1
n
X
+
1
n
Y
p(n
X
� 1) S
2
X
+ (n
Y
� 1) S
2
Y
=
pn
x
n
Y
pn
X
+ n
Y
� 2pn
x
+ n
Y
�¯
X � ¯
Y
�� (µ
X
� µY
)
p(n
X
� 1) S
2
X
+ (n
Y
� 1) S
2
Y
⇠ t
n
X
+n
Y
�2
Miguel Chong Inferencia
caso �2X
66= �2Y
Si las varianzas poblacionales son distintas y desconocidas�2
X
66= �2
Y
utilizamos las varianzas muestrales S2
X
y S
2
Y
como susestimadores. Cuando los tamanos muestrales de ambas muestrasson mas grandes de 30, entonces usamos el estadıstico
�X � Y
�� (µ
X
� µY
)q
S
2
X
n
X
+S
2
Y
n
Y
! t⌫ ,
donde ⌫ es el entero mas proximo a la siguiente cantidad
✓S
2
X
n
X
+
S
2
Y
n
Y
◆2
S
2
X
n
X
!2
n
X
�1
+
S
2
Y
n
Y
!2
n
Y
�1
Miguel Chong Inferencia
Distribucion para el cociente de varianzas
Sean dos poblaciones X y Y normales N�µX
,�2
X
�y N
�µY
,�2
Y
�
independientes, de las cuales seleccionamos dos muestras aleatorias eindependientes, de tamanos n
X
y n
Y
, (X1
, . . . ,Xn
X
) y (Y1
, . . . ,Yn
Y
),entonces pueden presentarse fundamentalmente dos situaciones:
a) Sungamos que µX
y µY
son conocidas.
Si definimos a
S
⇤2X
=1
n
X
n
XX
i=1
(Xi
� µX
)2 , S
⇤2Y
=1
n
Y
n
YX
i=1
(Yi
� µY
)2 .
entonces
U =n
X
S
⇤2X
�2
X
⇠ �2
n
X
, V =n
Y
S
⇤2Y
�2
Y
⇠ �2
n
Y
.
Entonces
F =U/n
X
V/nY
=�2
Y
�2
X
· S⇤2X
S
⇤2Y
⇠ F
n
X
,nY
Miguel Chong Inferencia
b) y por otro lado, supongamos que µX
y µY
son desconocidas.
Si definimos a
S
2
X
=1
n
X
� 1
n
XX
i=1
�X
i
� X
�2
, S
2
Y
=1
n
Y
� 1
n
YX
i=1
�Y
i
� Y
�2
.
entonces
U =(n
X
� 1)S2
X
�2
X
⇠ �2
n
X
�1
, V =(n
Y
� 1)S2
Y
�2
Y
⇠ �2
n
Y
�1
.
Entonces
F =U/(n
X
�1)
V/(nY
�1)
=�2
Y
�2
X
·S
2
X
S
2
Y
⇠ F
n
X
�1,nY
�1
Miguel Chong Inferencia
Teorema Central del Lımite
Sea X
1
,X2
,X3
, ... una sucesion de v.a.�s independientes con funcion deprobabilidades f
X
(x), con media µX
y varianza �2
X
. SeaX = 1
n
(X1
+ X
2
+ ...+ X
n
) la media aritmetica de las primeras nvariables aleatorias que integran la sucesion. Cuando n ! 1, ladistribucion de la variable aleatoria X es aproximadamente normal
con media µX
y varianza �2
X
n
, es decir
X
d! N
✓µX
,�2
X
n
◆, cuando n ! 1,
donde el sımbolod! debe leerse“converge en distribucion”.
Y por lo tanto
X � µX
�Xpn
=
pn(X � µ
X
)
�X
d! N(0, 1).
Miguel Chong Inferencia
El Teorema Central del Lımite establece que para un tamano demuestra grande la distribucion de X es aproximadamente normal:
1 independientemente de que la v.a. X 1 de la cual se estamuestreando,
2 el teorema funciona aun si la distribucion es discreta,
3 sea simetrica o asimetrica la forma de la densidad de f
X
(x)
4 la expresion“tamano de muestra grande”es ambigua, por lotanto el tamano de muestra para el cual la aproximacion esbuena depende de la forma de f
X
(x).
1
Siempre y cuanto tenga hasta segundo momento finito.
Miguel Chong Inferencia
Distribucion de la proporcion muestral
Sea (X
1
, . . . ,Xn
) una muestra aleatoria simple de tamano n, de una poblacion
Ber(p). Sea U =
nX
i=1
X
i
la v.a. que cuenta los exitos y por lo tanto el
estadıstico proporcion muestral que nos servira para estimar p sera la v.a.
P
x
=
U
n
.
Una vez que tenemos una muestra observada (x
1
, . . . , xn
) y u =
nX
i=1
x
i
el valor
del estadıstico proporcion muestral es el numero p =
u
n
.
en donde u representa el numero de elementos de la muestra que poseen la
caracterıstica que estamos investigando y la variable aleatoria U sigue una
distribucion binomial Bin(n, p). La distribucion binomial se puede aproximar
por una normal cuando n es grande (n � 30), usando el Teorema Central del
Lımite. Entonces el estadıstico muestral sigue una distribucion normal
U
n
d! N
✓p,
p(1� p)
n
◆
Miguel Chong Inferencia
Distribucion de la diferencia de proporciones
Otro problema que se suele presentarse es comparar las proporciones px
yp
y
de dos poblaciones con distribucion Ber(px
) y Ber(py
), usandomuestras aleatorias simples de tamano n
x
y n
y
, respectivamente,extraıdas de ambas poblaciones de forma indepenciente entre ellas. Sean
U =n
xX
i=1
X
i
y V =
n
yX
i=1
Y
i
Entonces la distribucion muestral de la diferencia de proporciones
p
x
� p
y
=U
n
x
� V
n
y
tendra aproximadamente (para n
x
y n
y
grandes) una distribucion normalcon media y desviacion estandar
µp
x
�p
y
= p
x
� p
y
�2
p
x
�p
y
=p
x
q
x
n
x
+p
y
q
y
n
y
p
x
� p
y
d! N
⇣µp
x
�p
y
,�2
p
x
�p
y
⌘.
Miguel Chong Inferencia
El problema de la estimacion puntual
La estimacion de parametros se divide en dos grandes grupos:
1 La estimacion puntual se concentra en obtener un unico valor,calculado a partir de las observaciones muestrales, y que esutilizado como estimacion del valor del parametro ✓.
2 En la estimacion por intervalos se obtienen dos valores: unlımite inferior L
i
y un lımite superior Ls
que definen unintervalo en los reales, el cual contendra con cierta confianzael valor del parametro ✓.
Miguel Chong Inferencia
Como suponemos que la poblacion esta representada por sufuncion de distribucion F (x ; ✓), donde ✓ es el parametropoblacional desconocido.
El estimador del parametro poblacional ✓ es una funcion de lamuestra aleatoria
✓ = g(X1
, . . . ,Xn
)
Cuando tenemos una muestra observada (x1
, . . . , xn
) se obtiene unvalor especıfico del estimador que recibe el nombre de estimaciondel parametro poblacional ✓
✓ = g(x1
, . . . , xn
)
El estimador es un estadıstico y ademas v.a. y el valor de estavariable aleatoria para una muestra dada (x
1
, . . . , xn
) es unaestimacion puntual. Como hemos visto, estimador ✓ tiene sudistribucion muestral y para diferentes realizaciones de unamuestra de tamano n se tendra un valor.
Miguel Chong Inferencia
Nuestro objetivo es seleccionar el estadıstico que usaremos comoestimador del parametro poblacional.
Por ejemplo, una propiedad deseable de un estadıstico es que paradiferentes realizaciones (x
1
, . . . , xn
), el estadıstico este en promedioconcentrado alrededor del verdadero valor del parametro ✓.
Miguel Chong Inferencia
Propiedades de los estimadores puntuales
Supongamos que la poblacion sigue una distribucion F (x ; ✓), endonde ✓ es un parametro poblacional desconocido, y lo queremosestimar vıa ✓ = g(X
1
, . . . ,Xn
) dada una muestra aleatoria detamano n, (X
1
, . . . ,Xn
).
Pero nos interesa encontrar un estadıstico g(X1
, . . . ,Xn
) que nosproporcione el mejor estimador del parametro desconocido ✓, unamedida deseable es calcular error cuadratico medio del estimador.
Miguel Chong Inferencia
Error cuadratico medio del estimador
ˆ✓.
Definimos el error cuadratico medio del estimador ✓, que lo notaremos por
ECM(
ˆ✓), como el valor esperado del cuadrado de la diferencia entre el
estadıstico
ˆ✓ y el parametro ✓ , es decir
ECM(
ˆ✓) = E⇣
ˆ✓ � ✓⌘2
�.
El ECM del estadıstico
ˆ✓ se puede descomponer en suma de dos cantidades no
negativas
ECM(
ˆ✓) = E⇣
ˆ✓ � ✓⌘2
�
= Var
⇣ˆ✓⌘+ B
2
⇣ˆ✓⌘,
B
⇣ˆ✓⌘= E
⇣ˆ✓⌘� ✓.
Notemos que ambas cantidades debe de ser tomadas en cuenta para obtener
propiedades deseables en un estimador.
Quisieramos que tanto la varianza como sesgo, sean lo mas pequenos posibles,
en otras palabras, serıa bueno que la distribucion muestral de
ˆ✓ se concentre al
rededor del parametro ✓.Miguel Chong Inferencia
¡Suena sencillo, bastarıa con tomar el estimador ✓ de ✓ con ECMmas pequeno de entre todos los posibles estimadores de ✓!
Lo que es difıcil es obtener entre todos los posibles estimadores de✓, el que nos de un ECM mınimo para todo ✓ 2 ⇥. En otraspalabras, no siempre existira un estimador ✓ que haga mınimo suECM para todo ✓ 2 ⇥2.
Puede pasar que un estimador ✓1
tenga ECM mınimo para algunosvalores del parametro ✓, mientras que otro estadıstico ✓
2
tenga unECM mınimo para otros valores de ✓.
Por lo tanto, el ECM como medida de eleccion de un buenestimador es insuficiente.
2
Al espacio parametral lo denotaremos por la letra ⇥, y es el conjunto de
todos los posibles valores que puede tomar ✓Miguel Chong Inferencia
Estimador insesgado
Hemos definido el sesgo del estimador ✓ como:
B
⇣✓⌘
= E⇣✓⌘� ✓.
en el ECM, que en el segundo sumando nos aparecıa el cuadrado del
sesgo, tambien decıamos que el ECM⇣✓⌘deberıa ser lo mas pequeno
posible y para ello era necesario que la varianza del estimador y elcuadrado del sesgo tambien fueran lo mas pequenos posibles.
Sera conveniente que el sesgo en valor absoluto sea lo mas chico posible,
siendo deseable que sea nulo, es decir E⇣✓⌘= ✓.
Decimos que un estimador ✓ es insesgado si E⇣✓⌘= ✓, de lo contrario
se dice que es sesgado.
Si E⇣✓⌘> ✓ estamos sobre estimando y si E
⇣✓⌘< ✓ caemos es
subestimacion.
Miguel Chong Inferencia
Proposicion
Si ✓1
y ✓2
son dos estimadores insesgados del parametro ✓,entonces el estimador ✓ definido como
✓ = �✓1
+ (1� �)✓2
, � 2 (0, 1)
es tambien un estimador insesgado del parametro ✓.
Miguel Chong Inferencia
Ejemplo Estimadores insesgados
Sea X
1
, . . . ,X10
una muestra aleatoria con media µ y varianza �2
considere los
siguientes estimadores para µ:
1
ˆ✓1
= X
1
,
2
ˆ✓2
=
X
1
+X
2
2
,
3
ˆ✓3
=
¯
X =
X
1
+X
2
+···+X
10
10
=
¯
X .
Las esperanzas y las varianzas de los estimadores anteriores son:
1 E⇣ˆ✓1
⌘= E (X
1
) = µ,
Var
⇣ˆ✓1
⌘= Var (X
1
) = �2
2 E⇣ˆ✓2
⌘= E
⇣X
1
+X
2
2
⌘=
1
2
E (X
1
+ X
2
) =
1
2
(E (X
1
) + E (X
2
)) =
µ+µ2
= µ,
Var
⇣ˆ✓2
⌘= Var
⇣X
1
+X
2
2
⌘=
1
4
(Var (X
1
+ X
2
)) =
1
4
(Var (X
1
) + Var (X
2
)) =
2�2
4
=
�2
2
.
3 E⇣ˆ✓3
⌘=
1
10
E (X
1
+ · · ·+ X
10
) =
10µ10
= µ,
Var
⇣ˆ✓3
⌘= Var
⇣X
1
+···+X
10
10
⌘=
1
100
(Var(X
1
+ · · ·+ X
10
)) =
1
100
(Var(X
1
) + · · ·+ Var(X
10
)) =
10�2
100
=
�2
10
.
respectivamente. Por lo tanto
ˆ✓1
, ˆ✓2
y
ˆ✓3
son estimadores insesgados de µ.ˆ✓3
es mas “eficiente”que
ˆ✓2
y
ˆ✓1
, puesto que
ˆ✓3
< ˆ✓2
< ˆ✓1
.
Miguel Chong Inferencia
Estimador insesgado de minima varianza
Si nos restringimos a los estimadores insesgados y de ese conjuntobuscamos el que tenga el error cuadratico medio, ECM(✓),mınimo. Es decir, si el estadıstico ✓ es insesgado, entonces
ECM(✓) = Var(✓)
por lo tanto, ahora buscamos un estimador, de entre todos losestimadores insesgados el que tenga la varianza mas chica. A esteestimador insesgado de varianza mınima lo llamaremos el estimadorinsesgado y uniformemente de mınima varianza (UMVUE).
Miguel Chong Inferencia
Definicion Estimador insesgado uniformemente de mınima varianza.
Diremos que el estimador insesgado ✓0
, es insesgado yuniformemente de mınima varianza (UMVUE) para el parametro ✓,si dado cualquier otro estimador insesgado ✓ de el y, se verifica que
Var(✓0
) Var(✓)
para todos los valores posibles de ✓.
Para llegar a obtener el UMVUE, si es que este existe, tendrıamosque calcular las varianzas de todos los estimadores insesgados para✓ y tomar el estimador que tenga la varianza mas chica.Afortunadamente existe un resultado3 que nos garantiza que existeuna cota inferior para la varianza de un estimador. Si bien no nosda este resultado el estimador de mınima varianza, sı nos dice sihemos alcanzado la cota o no.
3
Cota inferior de Cramer y Rao
Miguel Chong Inferencia
Cota inferior de Cramer y Rao
Sea (X
1
, . . . ,Xn
) una muestra aleatoria de tamafio n, de una poblacion con funcion de
densidad f (x ; ✓) . Entonces la funcion de densidad conjunta de la muestra
L (x
1
, . . . , xn
; ✓) = f (x
1
, . . . , xn
; ✓)
cumple con que
Z
R· · ·
Z
Rf (x
1
, . . . , xn
; ✓) dx1
. . . dxn
= 1.
Por otro lado, sea
ˆ✓ = g (X
1
, . . . ,Xn
) un estimador insesgado para el parametro ✓.
Y si se cumplen las condiciones de regularidad, entonces la varianza del estimador esta
acotada inferiormente de la siguiente manera
Var
⇣ˆ✓⌘
�1
nE⇣
@ ln f (x ;✓)@✓
⌘2
�
=
1
�nEh@2
ln f (x ;✓)@✓2
i .
A E⇣
@ ln f (x ;✓)@✓
⌘2
�se le conoce como la informacion de Fisher .
Miguel Chong Inferencia
Las condiciones de regularidad son:
i) El modelo f (x ; ✓) para la distribucion de la poblacion es tal queel soporte de f no depende de ✓.
ii) La funcion ln(f (x ; ✓)) es dos veces diferenciable y continua, esdecir, de clase C
2.
iii) Las operaciones de derivacion e integracion (o suma en casodiscreto) son intercambiables.
Miguel Chong Inferencia
Si el estimador ✓ hubiera sido sesgado, es decir
Eh✓i
= ✓ + B(✓),
en donde B(✓) es el sesgo del estimador, entonces la Cota Inferiorde Cramer y Rao tiene la forma
Var(✓) �
⇣1 + B
0⇣✓⌘⌘
2
nE⇣
@ ln f (x ;✓)@✓
⌘2
� ,
siendo B
0(✓) la derivada respecto de ✓ del sesgo del estimador.
Miguel Chong Inferencia
Observaciones
Si el modelo de poblacion, X es una variable aleatoriadiscreta, en vez de usar la funcion de densidad f (x ; ✓) usamosla funcion de masa de probabilidad P (X = x).
La Cota Inferior de Cramer Rao (CICR) nos da un lımiteinferior para la varianza del estimador ✓.
Miguel Chong Inferencia