lme 5806 - estat´ıstica matem´atica i estima¸c˜ao por ... · lme 5806 - estat´ıstica...
TRANSCRIPT
LME 5806 - Estatıstica Matematica I
Estimacao por intervalo
Profa. Roseli Aparecida Leandro
1 Introducao
A estimacao por ponto e bastante util, embora deixe alguma coisa a desejar, isto e, ela
nao da indicacao da precisao a ela associada. No caso em que a f.d.p. do estimador por
ponto, sob consideracao, for contınua a probabilidade de que o estimador seja igual ao valor
do parametro e zero. Portanto, parece desejavel que uma estimativa por ponto deva ser
acompanhada por alguma medida do possıvel erro da estimativa.
Seja X1, . . . , Xn uma a.a. da distribuicao normal com media µ e variancia σ2. Considere-
se uma simulacao do comportamento dos estimadores de maxima verossimilhanca para os
parametros µ e σ2 (Programa 1).
2
Programa 1
rm(list=ls(all=TRUE))
# X11() # ativa o display simultaneo de varios graficos
#Recording
res<-NULL
myfunc<-function(res,n,mu,dp,m)
for(i in 1:m)
x<-rnorm(n,mu,dp)
emv.mu<-mean(x)
emv.sigma2<-1/n*sum((x-mean(x))^2)
teste1<-(n-1)/n* 1/(n-1)* sum((x-mean(x))^2)
teste2<-((n-1)/n)*var(x)
teste3<-var(x)
res<-rbind(res,cbind(n,emv.mu,emv.sigma2,teste1,teste2,teste3))
return(res)
res<- myfunc(res,35,3,2,1000)
ts.plot(cbind(res[,2],res[,3]),col=c("red","blue"),lty=c(1,2))
abline(h=3,col="red",lwd=2)
abline(h=4,col="blue",lwd=2)
3
Portanto, parece desejavel que uma estimativa por ponto deva ser acompanhada por
alguma medida do possıvel erro da estimativa. Por exemplo, uma estimativa por ponto pode
ser acompanhada por algum intervalo em torno da estimativa por ponto junto com alguma
medida de seguranca de que o verdadeiro valor do parametro pertenca a esse intervalo. Da
mesma forma que estimacao por ponto, a estimacao por intervalo apresenta duas etapas:
1. O problema de encontrar estimadores por intervalo.
2. O problema de determinar estimadores por intervalo otimos.
1.1 Intervalos de confianca
Um estimador por intervalo e uma regra que especifica o metodo para usar as medidas
amostrais para calcular dois numeros que formam os extremos do intervalo. Idealmente,
gostarıamos que o intervalo resultante tivesse duas propriedades, a saber:
- que “cobrisse´´ o verdadeiro valor do parametro de interesse, θ.
- que o intervalo fosse relativamente pequeno.
Note que um dos ou ambos os extremos do intervalo sendo funcoes de medidas amostrais
irao variar de maneira aleatoria de uma amostra para outra. Entao, o comprimento e a
locacao sao quantidades aleatorias e nos nao temos certeza que o parametro θ caira realmente
entre os extremos de qualquer intervalo calculado a partir de uma unica amostra. (Programa
2)
4
2 Interpretacao de intervalo de confianca
DeGroot & Schvervish, pagina 412
Tirar xerox pagina 411-412 DeGroot
Suponha que X1, . . . , Xn forme uma a.a. da distribuicao que envolve o parametro descon-
hecido θ. Suponha, tambem, que duas estatısticas A(X1, . . . , An) e B(X1, . . . , An) possam
ser encontradas de tal forma que independente de qual seja o valor verdadeiro de θ seja
possıvel que:
P [A(X1, . . . , An) < θ < B(X1, . . . , An)] = γ (1)
em que γ e uma probabilidade fixa γ (0 < γ < 1). Se o valor observado de A(X1, . . . , An) e
B(X1, . . . , An) sao constantes conhecidas a e b, entao o intervalo (a, b) e chamado intervalo
de confianca para θ com coeficiente de confianca γ ou, em outras palavras, θ pertence ao
intervalo (a, b) com confianca γ.
Deve ser enfatizado que nao e correto afirmar que θ pertence ao intervalo (a, b) com
probabilidade γ. Antes que os valores das estatısticas A(X1, . . . , An) e a B(X1, . . . , Xn)
sejam observados estas estatısticas sao variavies aleatorias. Entao segue da expressao (1)
que θ pertence ao intervalo aleatorio com pontos extremos A(X1, . . . , An) e B(X1, . . . , An)
com probabilidade γ.
Depois que valores especıficos para A(X1, . . . , An) e B(X1, . . . , An) denotados por a e b
forem observados nao sera mais possıvel atribuir probabilidade ao evento que θ pertenca ao
intervalo especıfico (a, b) sem considerar θ como uma variavel aleatoria tendo, portanto, ela
propria uma distribuicao de probabilidade (Abordagem Bayesiana).
Nao e possıvel atribuir probabilidade γ ao intervalo e sim um coeficiente de confianca γ.
5
Objetivo: encontrar um estimador por intervalo que gere intervalos pequenos que incluam
θ com uma probabilidade alta.
6
Mood
Estimador por intervalo a que esta associada uma probabilidade recebe o nome de inter-
valo de confianca. Os limites inferior e superior de um intervalo de confianca sao chamados de
limite inferior e superior de confianca, respectivamente. A probabilidade de que o intervalo
de confianca contenha θ e chamada coeficiente de confianca.
Definicao: Seja X1, X2, . . . , Xn uma a.a. de uma densidade fX(x; θ), θ ∈ Ω.
Sejam T1 = t1(X1, · · · , Xn) e T2 = t2(X1, · · · , Xn) duas estatısticas tais que
T1 < T2. Dizemos que o intervalo aleatorio (T1, T2) e um intervalo de confianca
para θ com coeficiente de confianca (1− α), (0 < α < 1) se
P [T1 ≤ θ ≤ T2] = 1− α, ∀θ ∈ Ω
Tambem podemos dizer que T1 e T2 sao limites de confianca inferior e superior para θ,
respectivamente, com coeficiente de confianca (1− α) se para todo θ ∈ Ω temos:
P [T1 ≤ θ] = P [T1 ≤ θ < ∞] = 1− α
eP [θ ≤ T2] = P [−∞ < θ < T2] = 1− α
que sao chamados intervalos de confianca unilaterais.
7
Interpretacao: Suponha que o experimento aleatorio sob consideracao e conduzido
independentemente n vezes e se xj e o valor observado de Xj, j = 1, · · · , n, con-
strua o intervalo (T1, T2). Suponha agora que este processo e repetido indepen-
dentemente N vezes, obtendo-se, entao, N intervalos. A medida que N torna-se
maior e maior, pelo menos (1 − α)N dos intervalos cobrirao o valor verdadeiro
de θ.
8
Programa implementando no software R para obtencao de N intervalos aleatorios conside-
rando-se uma a.a. de tamanho n da distribuicao normal com media µ e variancia σ2.
Programa 1: Obtencao de N intervalos de confianca para µ com coeficiente de confianca
gamma = (1− α).
Calculos auxiliares
qnorm(0.90,0,1)
# [1] 1.281552
qnorm(0.975,0,1)
#[1]1.959964
qnorm(0.995,0,1)
#[1] 2.575829
rm(list=ls(all=TRUE))
f<-function(N, n, mu, sigma2,alpha)
r<-matrix(0,N,5)
for(i in 1:N)
zalpha2<-qnorm(1-alpha/2)
x <- rnorm(n, mu, sqrt(sigma2))
r[i, 1] <- mean(x)
r[i, 2] <- var(x)
r[i, 3] <- mean(x) - zalpha2 * sqrt(sigma2/n)
r[i, 4] <- mean(x) + zalpha2 * sqrt(sigma2/n)
if(mu >= r[i, 3] && mu <= r[i, 4])
r[i, 5] <- r[i, 5] + 1
soma <- sum(r[, 5])
cat("Numero de intervalos que cobriram o verdadeiro valor da
9
media:", soma, "\n")
#print("Numero de intervalos que cobriram o verdadeiro valor da
#media") # soma
return( list(mu=mu,resp=r, s=soma))
Resp<-f(100,30,3,4,0.05)
#Resp$s
plot(seq(min(Resp$resp[,3])-2,max(Resp$resp[,4])+2,length=100),seq(1,200,length=100),
type="n",ylab="",xlab="Intervalos de confianca") for(i in 1:100)
segments(x0=Resp$resp[i,3],y0=2*i,x1=Resp$resp[i,4],y1=2*i,col="blue")
for(i in 1:100) if(Resp$resp[i,5]==0)
segments(x0=Resp$resp[i,3],y0=2*i,x1=Resp$resp[i,4],y1=2*i,col="red",lwd=3)
abline(v=Resp$mu,col="red",lwd=3)
\newpage
rm(list=ls(all=TRUE))
f<-function(N, n, mu, dp,gama)
# N ===> numero de amostras
# n ===> tamanho de cada amostra
# mu ===> media
# dp ===> desvio padr~ao
# gama ===> coeficiente de confianca
# # Caso: sigma2 conhecido. #
m<-matrix(0,N,8)
for(i in 1:N)
10
x <- rnorm(n, mu, dp)
m[i, 1] <- mean(x)
m[i, 2] <- var(x)
m[i, 3] <- mean(x) - qnorm(gama+(1-gama)/2,0,1) * dp/sqrt(n)
m[i, 4] <- mean(x) + qnorm(gama+(1-gama)/2,0,1) * dp/sqrt(n)
if(mu >= m[i, 3] && mu <= m[i, 4])
m[i, 5] <- m[i, 5] + 1
#%%%%%%%%%%%%%%%%%%%%%
n<-length(x)
s2<-var(x)
#gama<-0.95
alpha<-(1-gama)/2
q1<-qchisq(alpha/2,n-1)
q2<-qchisq(gama+alpha/2,n-1)
m[i,6]<-(n-1)*s2/q2
m[i,7]<-(n-1)*s2/q1
if(dp^2 >= m[i, 6] && dp^2 <= m[i, 7])
m[i, 8] <- m[i, 8] + 1
soma1 <- sum(m[, 5])
soma2 <- sum(m[, 8])
list(m, soma1,soma2)
# Coeficiente de confianca 95%
f(100,20,5,2,0.95)
# Coeficiente de confianca 99%
f(100,20,5,2,0.99)
11
# Coeficiente de confianca 90%
f(100,20,5,2,0.90)
n<-length(x)
s2<-var(x)
gama<-0.95
alpha<-(1-gama)/2
q1<-qchisq(alpha/2,n-1)
q2<-qchisq(gama+alpha/2,n-1)
m[i,7]<-(n-1)*s2/q2
m[i,8]<-(n-1)*s2/q1)
soma2<- sum(m[,8])
Uma interpretacao semelhante pode ser feita para os intervalos unilaterais.
12
O comprimento l(X1, · · · , Xn) de um intervalo e
l(X1, · · · , Xn) = T2(X1, · · · , Xn)− T1(X1, · · · , Xn)
e seu valor esperado e E(L).
Existe mais de um intervalo de confianca com o mesmo coeficiente de confianca (1− α)
mas estaremos interessados em obter aquele que tem o menor comprimento dentro de uma
certa classe de IC.
Um metodo bastante util para se obter IC e chamado metodo pivotal. Este metodo
depende da obtencao de uma quantidade pivotal que possui duas caracterısticas:
( i) E uma funcao da a.a. e do parametro θ, onde θ e a unica quantidade desconhecida,
isto e, devemos obter Q = Q(X1, · · · , Xn, θ)
(ii) Tem uma f.d.p. que nao depende do parametro θ.
2.0.1 Exemplo 1
Seja X1, X2, . . . , Xn uma a.a. de uma distribuicao normal de media θ e variancia 9, isto e,
Xi i.i.d. N(θ, 9). Verifique se sao quantidades pivotais:
X − θ,X − θ
3/√
n,
X
θ
Solucao: Temos que se X ∼ N(θ, 9) entao X ∼ N(θ, 9/n).
( i) Logo, Q = X − θ depende da a.a. e de θ e alem disso: E(Q) = E(X) − θ = 0 e
V ar(Q) = V ar(X) =9
ne assim Q ∼ N(0, 9/n) . E portanto, por definicao, Q = X−θ
e uma quantidade pivotal.
( ii) Q =X − θ
3/√
ndepende da a.a. e de θ e alem disso: E(Q) = E
(X − θ
3/√
n
)= 0 e V ar(Q) =
V ar
(X − θ
3/√
n
)=
n
9V ar(X) = 1 e assim Q =
X − θ
3/√
n∼ N(0, 1). E portanto, por
definicao, Q = X − θ e uma quantidade pivotal.
13
(iii) Q =X
θdepende da a.a. e de θ e alem disso: E(Q) =
1
θE(X) = 1 e V ar(Q) =
1
θ2V ar(X) =
9
θ2ne assim Q =
X
θ∼ N(1, 9/θ2n). E portanto, por definicao, Q =
X
θnao e uma quantidade pivotal pois sua distribuicao depende de θ.
Se a quantidade pivotal tem f.d.p. conhecida, entao, para qualquer 0 < α < 1, existem
q1 e q2 dependendo de α tais que P [q1 < Q < q2] = 1 − α. Se para cada valor amostral
possıvel (x1, · · · , xn)
q1 < q(x1, · · · , xn; θ) < q2 ⇔ t1(x1, · · · , xn) < θ < t2(x1, · · · , xn)
para funcoes t1 e t2 (nao dependentes de θ), entao (T1, T2) e um IC a 100(1−α) para θ, onde
Ti = ti(X1, · · · , Xn), i = 1, 2.
Observacoes:
Tem-se que q1 e q2 sao independentes de θ pois a distribuicao de Q o e. Para qualquer α
fixado existem muitos pares possıveis (q1, q2) que podem ser selecionados tais que
P [q1 < Q < q2] = 1− α
GRAFICO 1:
Pares diferentes (q1, q2) produzirao diferentes (t1, t2). Queremos selecionar aquele par
(q1, q2) que produzira de alguma forma t1 e t2 mais proximos, isto e, por exemplo escolher
(q1, q2) de tal forma que torne o comprimento medio do intervalo o menor possıvel. Resu-
mindo:
Os passos para obtencao de um intervalo de confianca pelo metodo da quantidade pivotal
sao:
14
1. a partir de P [q1 < Q < q2] = 1− α obter atraves de operacoes algebricas simples
P [t1 < θ < t2] = 1− α.
2. Minimizar l = t2 − t1 sujeito a restricao∫ q2
q1fQ(q)dq = 1− α
2.0.2 Exemplo 2: Intervalo de confianca para a media µ da N(µ, σ2)
• σ2 conhecido.
Seja X1, X2, . . . , Xn uma a.a. da distribuicao normal N(µ, σ2). Obter um IC para µ,
considerando σ2 conhecido.
Sabemos que Q =
√n(X − µ)
σ∼ N(0, 1) e uma quantidade pivotal.
Para um dado α, existem q1 e q2, tais que:P [q1 < Q < q2] = 1− α isto e:
P
[q1 <
√n(X − µ)
σ< q2
]= 1− α =⇒
P
[σq1√
n< X − µ <
σq2√n
]= 1− α
=⇒ P
[X − σ√
nq2 < µ < X − σ√
nq1
]Entao,
(X − σ√
nq2, X − σ√
nq1
)e um IC a 100(1− α)% para µ. O comprimento do IC e
l =
(X − σ√
nq1
)−(
X − σ√n
q2
)= (q2 − q1)
σ√n
que sera o menor possıvel selecionando-se q1 e q2 tais que q2− q1 seja mınimo sob a restricao
de que
1− α = P [q1 < Q < q2]
Temos entao que minimizar
15
l = (q2 − q1)σ√n
(2)
sujeito a restricao ∫ q2
q1
fQ(q)dq = 1− α (3)
Para isso derivamos l em relacao a q1 (fazendo q2 em funcao de q1) e tomandodl
dq1
= 0, isto
e,
dl
dq1
=
(dq2
dq1
− 1
)σ√n
= 0 =⇒ dq2
dq1
= 1 (4)
e a partir da restricao podemos obterdq2
dq1
, isto e, derivando-se (3) em relacao a q1, temos:
d
dq1
∫ q2
q1
fQ(q)dq =d
dq1
(1− α) (5)
e lembrando-se que
d
dt
∫ h(t)
g(t)
f(x)dx = f(h(t))dh
dt− f(g(t))
dg
dt
(Mood, pag. 532) temos:
fQ(q2)dq2
dq1
− fQ(q1) = 0 =⇒ dq2
dq1
=fQ(q1)
fQ(q2)
Logo, usando-se (4) e (5) temos:
fQ(q1)
fQ(q2)= 1 =⇒ fQ(q1) = fQ(q2)
Como Q ∼ N(0, 1), fQ(q) e simetrica e portanto
q2 = q1 ou q2 = −q1
Mas
q2 = q1 =⇒∫ q2
q1
fQ(q)dq = 0 6= 1− α
16
Portanto q2 = −q1 e a solucao desejada e tal que q1 e q2 podem ser obtidos de uma dis-
tribuicao N(0, 1). Isso implica que o intervalo de confianca para µ e simetrico em relacao a
µ, considerando-se q1 = −zα/2 entao q2 = zα/2 e:
P
[X − σ√
nzα/2 < µ < X +
σ√n
zα/2
]= 1− α
(X − σ√
nzα/2, X +
σ√n
zα/2
)e um IC para µ com um coeficiente de confianca 100(1− α)%
• σ2 desconhecido.
Se σ2 e desconhecido mas dispomos de uma estimativa s2 para σ2 e estamos interessados
no intervalo de confianca para µ, o procedimento e semelhante, isto e, temos que:
Q =
√n(X − µ)
S∼ tn−1 em que S2 =
∑ni=1(Xi − X)2
n− 1
e uma quantidade pivotal e a partir disso obtemos:
P
[X − S√
ntα/2 < µ < X +
S√n
tα/2
]= 1− α
(X − S√
ntα/2, X +
S√n
tα/2
)e um IC para µ com um coeficiente de confianca 100(1− α)%
2.0.3 Exemplo 3: Intervalo de confianca para a variancia σ2 da N(µ, σ2) com µ
desconhecido
Sabemos que
Q =(n− 1)S2
σ2=
∑ni=1(Xi − X)2
σ2∼ χ2
n−1
independe de σ2 e portanto, Q e uma quantidade pivotal. Para um dado α existem q1 e q2
tais que:
17
Grafico 2:
P [q1 < Q < q2] = 1− α isto e,
P
[q1 <
(n− 1)S2
σ2< q2
]= 1− α =⇒
P
[1
q1
>σ2
(n− 1)S2>
1
q2
]= 1− α =⇒
P
[(n− 1)S2
q2
< σ2 <(n− 1)S2
q1
]= 1− α
e entao ((n− 1)S2
q2
,(n− 1)S2
q1
)e um IC a 100(1− α)% para σ2, onde q1 e q2 sao obtidos em tabelas de χ2
n−1, e tais que
P [q1 < Q < q2] = 1− α
sendo que q1 e q2 sao frequentemente selecionados tais que
P [Q < q1] = P [Q > q2] =α
2
sendo q1 = χ2n−1,α/2 e q2 = χ2
n−1,1−α/2. Um tal IC e algumas vezes referido como IC de caudas
iguais para σ2.
Podemos, porem, estar interessados em selecionar q1 e q2 tais que minimizam o compri-
mento l do IC, isto e, minimizem
18
l = (n− 1)S2
(1
q1
− 1
q2
)(6)
sujeito a restricao: ∫ q2
q1
fQ(q)dq = 1− α sendo Q ∼ χ2n−1 (7)
Entao, diferenciando (6) em relacao a q1 considerando-se q2 funcao de q1 temos:
dl
dq1
= (n− 1)S2
(− 1
q21
+1
q22
dq2
dq1
)= 0 =⇒ dq2
dq1
=q22
q21
(8)
e derivando-se (7) em relacao a q1, temos:
d
dq1
∫ q2
q1
fQ(q)dq =d
dq1
(1− α)
fQ(q2)dq2
dq1
− fQ(q1).1 = 0 =⇒ dq2
dq1
=fQ(q1)
fQ(q2)(9)
e pela comparacao de (8) e (9) temos:
q22
q21
=fQ(q1)
fQ(q2)=⇒ q2
1fQ(q1) = q22fQ(q2)
Lembre-se que:
fQ(q) =1
Γ((n− 1)/2)2(n−1)/2x((n−1)/2)−1e−x/2, 0 ≤ x < ∞
Parametrizacao da distribuicao qui-quadrado no R:
fn(x) =1
2n/2Γ(n/2)xn/2−1e−x/2
cuja solucao e obtida por ensaio e erro ou integracao numerica. Assim o comprimento do IC
sera minimizado se q1 e q2 sao selecionados tais que:
q21fQ(q1) = q2
2fQ(q2)
sujeito a restricao:
19
∫ q2
q1
fQ(q)dq = 1− α
myfunc.r<-function(x,gl) 1/(2^(gl/2)*gamma(gl/2))*x^(gl/2-1)*exp(-x/2)
myfunc.g<-function(x,n)1/(gamma((n-1)/2)*2^((n-1)/2))*x^(((n-1)/2)-1)* exp(-x/2)
# n e o tamanho amostral
IC<-function(q1,q2,n,S2) c( sqrt((n-1)*S2/q2),sqrt((n-1)*S2/q1))
#n=5 gl=4
# Intervalos com caudas iguais tem comprimento mınimo?
q1<-qchisq(0.025,4); q1
q2<-qchisq(0.975,4); q2
#No R diretamente
q1^2*dchisq(q1,4)
q2^2*dchisq(q2,4)
#No R com parametrizac~ao do R e Mood
q1^2*myfunc.r(q1,4)
q2^2*myfunc.r(q2,4)
# No R com parametrizac~ao do Gelman
#n= tamanho amostral
q1^2*myfunc.g(q1,4+1)
q2^2*myfunc.g(q2,4+1)
l1<-diff(IC(q1,q2,5,1))
#*****
20
# Encontrando q1 e q2 tal que o intervalo tenha comprimento mınimo
# Faca o grafico de uma qui-quadrado com 4 g.l. e por tentativa e
# erro encontre q1 e q2 que satisfaca as condic~oes desejadas.
q1<-0.6
q2<-22.5
q1^2*dchisq(q1,4)
q2^2*dchisq(q2,4)
q1^2*myfunc.r(q1,4)
q2^2*myfunc.r(q2,4)
q1^2*myfunc.g(q1,5)
q2^2*myfunc.g(q2,5)
l2<-diff(IC(q1,q2,5,1))
l1;l2
Programa MAPLE
Intervalo de Confianca para sigma2 considerando mu desconhecido
Considere que X ~N(mu,sigma2) e que Q ~ chi^2 com 5 graus de liberdade
Q:=(n-1)*S^2/sigma^2;
restart:
with(student):
#A func~ao de distribuic~ao de probabilidade de uma variavel aleatoria
#com distribuic~ao de chi^2 com n graus de liberdade e dada por:
#( 0< = x < infinito)
21
f:=(n,x)-> 1/(GAMMA((n-1)/2)* 2^((n-1)/2))*x^(((n-1)/2)-1)* exp(-x/2);
f(5,x); plot(f(5,x),x=0..20);
int(f(5,x),x=0..infinity);
simpson(f(5,x),x=0.5..10,50); evalf(%);
simpson(f(5,x),x=0.5..10,5550); evalf(%);
simpson(f(5,x),x=0.66..22.5,50); evalf(%);
simpson(f(5,x),x=0.66..22.5,5550); evalf(%);
evalf(0.6^2*f(5,0.6));
evalf(22.5^2*f(5,22.5));
#Tome cuidado com o numero de subintervalos considerados na integrac~ao
#numerica. Faca um teste para verificar se o valor esta sendo superestimado
#ou subestimado.
2.0.4 Exemplo 5: Intervalo de confianca para a diferenca de medias de distri-
buicoes normais
10 caso: Amostras independentes:
Seja X1, · · · , Xm uma a.a. de tamanho m de uma distribuicao normal com media µ1
e variancia σ2 e seja Y1, · · · , Yn uma a.a. de tamanho n de uma distribuicao normal com
media µ2 e variancia σ2. Supondo que as duas amostras sao independentes obtenha um IC
para µ2 − µ1.
X ∼ N
(µ1,
σ2
m
)Y ∼ N
(µ2,
σ2
n
)
E(Y − X) = E(Y )− E(X) = µ2 − µ1
(V arY − V arX) = V arY − V arX =σ
n− σ
m= σ2
(1
n+
1
m
)Portanto, Y − X ∼ N
(µ2 − µ1,
σ2
n+
σ2
m
)
22
(m− 1)S21
σ2∼ χ2
m−1 e(n− 1)S2
2
σ2∼ χ2
n−1
em que
s21 =
∑mi=1(Xi − X)2
n− 1s22 =
∑nj=1(Yj − Y )2
n− 1
Portanto,
(m− 1)S21
σ2+
(n− 1)S22
σ2=
1
σ2
[m∑
i=1
(Xi − X)2 +n∑
j=1
(Yj − Y )2
]∼ χ2
m+n−2
e finalmente
Q =
(Y − X)− (µ2 − µ1)√
σ2/m + σ2/n√∑mi=1(Xi − X)2 +
∑nj=1(Yj − Y )
σ2(m + n + 2)
=N(0, 1)√χ2
m+n−2
m + n− 2
∼ tm+n−2
Q =(Y − X)− (µ2 − µ1)√(
1
m+
1
n
)[∑mi=1(Xi − X)2 +
∑ni=1(Yi − Y )2
m + n− 2
] =(Y − X)− (µ2 − µ1)√(
1
m+
1
n
)S2
p
e uma quantidade pivotal.
Segue, entao, que
P(−tα/2 < Q < tα/2
)= 1− α =⇒
P
−tα/2 <(Y − X)− (µ2 − µ1)√(
1
m+
1
n
)S2
p
< tα/2
= 1− α =⇒
P
[(Y − X)− tα/2
√(1
m+
1
n
)S2
p < (µ2 − µ1) < (Y − X) + tα/2
√(1
m+
1
n
)S2
p
]= 1− α
23
e portanto,
P
[(Y − X)− tα/2
√(1
m+
1
n
)S2
p ; (Y − X) + tα/2
√(1
m+
1
n
)S2
p
]= 1− α
e um IC a 100(1− α)% para µ2 − µ1
20 Caso: Amostras pareadas
Seja (X1, Y1), · · · , (Xn, Yn) uma a.a. de uma distribuicao normal bivariada com parame-
tros dados por µ1 = E(X) , µ2 = E(Y ), σ21 = V ar(X), σ2
2 = V ar(Y ) e ρ =cov(X,Y )
σ1σ2
.
Obter um IC para (µ2 − µ1).
Seja Di = Yi −Xi, i = 1, · · · , n entao
Di ∼ N(µD = µ2 − µ1, σ2D = σ2
1 + σ22 − 2ρσ1σ2)
Supondo, agora que D1, D2, · · · , Dn e nossa a.a. recaımos no exemplo 2, obtendo o
seguinte IC a 100(1− α)% para µ2 − µ1.D − tα/2
√∑ni=1(Di − D)2
n(n− 1); D + tα/2
√∑ni=1(Di − D)2
n(n− 1)
sendo tα/2 o valor da tabela t com (n− 1) g.l. e s2
D =
∑ni=1(Di − D)2
n− 1
3 Metodos para encontrar intervalos de confianca
( i) Metodo da quantidade pivotal
(ii) Metodo Estatıstico
Ja descrevemos o metodo da quantidade pivotal mas uma questao permanece nao re-
spondida sera sempre e possıvel encontrar uma quantidade pivotal?
Observacao: Se X1, . . . , Xn e uma amostra aleatoria de fX(x; θ) com funcao de dis-
tribuicao acumulada FX(x; θ) contınua em X entao pela transformacao de probabilidade inte-
gral, FX(X; θ) tem distribuicao uniforme sobre (0, 1). Portanto, U = −logFX(X; θ) tem den-
sidade e−uI(0,∞)(u), ou seja, U ∼ Exp(1) e portanto, Y =∑n
i=1 Ui =∑n
i=1−logF (Xi; θ)
24
tem distribuicao gama com parametros r = n e λ = 1, considerando-se 0 < q1 < q2 < 1
tem-se:
P (− log q2 < Y < − log q1) = P
(− log q2 <
n∑i=1
− log F (Xi; θ) < − log q1
)=
P
(− log q2 <
n∑i=1
− log F (Xi; θ) < − log q1
)= P
(log q1 <
n∑i=1
log F (Xi; θ) < log q2
)=
P
(log q1 < log
n∏i=1
F (Xi; θ) < log q2
)= P
(q1 <
n∏i=1
F (Xi; θ) < q2
)Entao,
∏ni=1 F (Xi; θ) ou
∑ni=1− log F (Xi; θ) e uma quantidade pivotal.
A observacao acima mostra que sempre que amostramos de populacoes com funcao de
distribuicao acumulada contınua uma quantidade pivotal existe. Observe, entretanto que
esse fato nao implica que poderemos utiliza-la para encontrar intervalo de confianca. Se,
no entanto, F (X, θ) for monotona em θ para cada x, entao,∏n
i=1 F (Xi; θ) tambem sera
monotona em θ para cada x1, . . . , xn, e esta monoticidade permitira encontrar um intervalo
de confianca para θ.
GRAFICO pagina 389 MOOD.
Exemplo:
Seja X1, . . . , Xn uma amostra aleatoria da densidade f(x; θ) = θxθ−1I(0,1)(x); entao
F (x; θ) = xθI(0,1)(x) + I[1,∞)(x). Se 0 < q1 < q2 < 1 sao selecionados entao
25
γ = P (q1 <∏n
i=1 F (Xi; θ) < q2)
= P(q1 <
∏ni=1 Xθ
i < q2
)= P
(q1 <
∏ni=1 Xθ
i < q2
)= P (log q1 < θ log
∏ni=1 Xi < log q2)
= P (− log q2 < −θ log∏n
i=1 Xi < − log q1)
= P
(log q2
log∏n
i=1 Xi
< θ <log q1
log∏n
i=1 Xi
)rm(list=ls(all=TRUE))
theta<-7
u<-runif(35)
x<-exp(1/theta*log(u))
f<-theta*x^(theta-1)
plot(x,f,col="blue")
q1<-qgamma(0.025,length(x),1)
q2<-qgamma(0.975,length(x),1)
IC<-c(-q1/log(prod(x)),-q2/log(prod(x)))
IC
26
4 Propriedades otimas dos estimadores
Pagina 358 MOOD
Era tarefa!!!
O Teorema 8 entre outras coisas afirma:
Se a densidade f(x; θ) satisfaz certas condicoes de regularidade e se Θn e o esti-
amdor de maxima verossimilhanca de θ para uma amostra aleatoria de tamanho
θ de f(x; θ) entao:
Θn e tem distribuicao normal assintotica com media θ e variancia1
nE
[[∂
∂θlogf(X; θ)
]2]
Utilizando esse teorema sera possıvel encontrar intervalos de confianca aproximados para
θ.
Exemplos: