inferencia apostila

119

Upload: marcos-andrade

Post on 17-Dec-2015

97 views

Category:

Documents


6 download

DESCRIPTION

Curso de Inferencia

TRANSCRIPT

  • Inferncia Estatstica

    James Dean Oliveira dos Santos Jr.

    May 20, 2015

  • 2

  • Contents

    1 Introduo 5

    1.1 Notaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.2 Famlias de Distribuies e abordagens paramtrica e no paramtrica 7

    1.2.1 Famlia Exponencial . . . . . . . . . . . . . . . . . . . . . 8

    1.3 Inferncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.3.1 Inferncia Frequentista ou Bayesiana? . . . . . . . . . . . 10

    1.3.2 Isto tudo? . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    1.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2 Estatsticas 17

    2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.2 Sucincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.3 Estatsticas sucientes minimais . . . . . . . . . . . . . . . . . . . 23

    2.4 Estatsticas ancilares e estatsticas completas . . . . . . . . . . . 26

    2.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3

  • 3 Estimao Pontual 35

    3.1 Estimador, Estimativa e Bons Estimadores . . . . . . . . . . . . 35

    3.2 Estimao Pontual Frequenstista . . . . . . . . . . . . . . . . . . 37

    3.2.1 Mtodo dos Momentos . . . . . . . . . . . . . . . . . . . . 37

    3.2.2 Mtodo da Mxima Verossimilhana . . . . . . . . . . . . 41

    3.2.3 Melhores Estimadores No-Viesados . . . . . . . . . . . . 48

    3.3 Estimao Pontual Bayesiana . . . . . . . . . . . . . . . . . . . . 60

    3.3.1 Estimador de Bayes . . . . . . . . . . . . . . . . . . . . . 62

    3.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    4 Testes de Hipteses Paramtricos 67

    4.1 Testes de Hipteses Frequentistas . . . . . . . . . . . . . . . . . . 69

    4.1.1 Construo de um Teste Frequentista . . . . . . . . . . . 69

    4.1.2 Teste da Razo de Verossimilhanas . . . . . . . . . . . . 77

    4.1.3 Teste de Neyman-Pearson . . . . . . . . . . . . . . . . . . 83

    4.1.4 Testes Uniformemente Mais Poderosos . . . . . . . . . . . 86

    4.2 P-valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    4.3 Testes de Hipteses Bayesianos . . . . . . . . . . . . . . . . . . . 95

    4.3.1 Fatores de Bayes . . . . . . . . . . . . . . . . . . . . . . . 95

    4.3.2 Hipteses Precisas . . . . . . . . . . . . . . . . . . . . . . 97

    5 Estimao Intervalar 99

    4

  • 5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    5.2 Intervalos de Conana . . . . . . . . . . . . . . . . . . . . . . . 100

    5.2.1 Mtodo da Inverso . . . . . . . . . . . . . . . . . . . . . 101

    5.2.2 Mtodo da Quantidade Pivotal . . . . . . . . . . . . . . . 103

    5.2.3 Avaliando Intervalos . . . . . . . . . . . . . . . . . . . . . 104

    5.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    6 Teoria para Grandes Amostras 105

    6.1 Funo Escore e Informao de Fisher . . . . . . . . . . . . . . . 105

    6.2 Consistncia dos EMV . . . . . . . . . . . . . . . . . . . . . . . . 107

    6.3 Testes Assintticos . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    1

  • 2

  • Prefcio

    Este material est sendo construdo para servir como base para alunos do

    Mestrado em Matemtica da Universidade Federal do Amazonas. Em geral,

    estas notas so atualizadas sempre que o autor tem a oportunidade de ministrar

    o curso. A verso anterior continha muitos erros grosseiros, especialmente com

    relao escrita e notao. Alm disso, alguns resultados pareciam costurados

    e com falta de coeso.

    Esta verso est tentando corrigir estes erros. Ela passar por diversas mod-

    icaes, especialmente estruturais, ao longo deste ano. Assim, fortemente

    recomendado que este material no seja utilizado como nica fonte de estudo.

    Vale ressaltar tambm que muitos os jarges estatsticos so desconhecidos

    por alunos de outras reas. Deste modo, este material tenta suprir essas de-

    cincias.

    Qualquer dvida ou crtica poder ser reportada atravs do e-mail [email protected].

    Manaus, 08 de Fevereiro de 2014.

    3

  • 4

  • Chapter 1

    Introduo

    1.1 Notaes

    Ao longo deste texto, uma varivel aleatria sempre ser representada por le-

    tras maisculas, enquanto que seus respectivos valores observados sero repre-

    sentados por letras minsculas. A exceo ocorre na notao dos parmetros,

    que sempre sero representados por letras gregas minsculas

    1

    mesmo se forem

    considerados aleatrios. Em alguns momentos, letras gregas minsculas sero

    utilizadas no lugar de funes de variveis aleatrias, mas isto car claro no

    contexto.

    As funes densidade ou de probabilidade sero designadas por letras mins-

    culas e suas respectivas funes de distribuio sero representadas pelas suas

    respectivas letras maisculas. Por exemplo,

    f(x|) = ex,

    onde x, > 0 a densidade da distribuio exponencial e sua funo de dis-tribuio dada por

    F (x|) = 1 ex,onde > 0. A funo de probabilidade da distribuio Poisson

    f(x|) = ex

    x!,

    1

    Esta conveno bastante aceita na literatura

    5

  • onde x = 0, 1, 2, . . . e > 0, e sua funo de distribuio

    F (x|) =xy=0

    ey

    y!,

    onde > 0. Optou-se por esta notao para manter a uniformidade dos di-versos teoremas que valem tanto para o caso discreto quanto para o contnuo.

    Tradicionalmente, funes de probabilidade de uma varivel aleatria discreta

    X so descritas como P (X = x). Por exemplo, a funo de probabilidade dadistribuio Poisson dada por

    P (X = x|) = ex

    x!,

    onde > 0. A mudana de notao foi proposta para evitar a descrio defunes de probabilidade da forma,

    P ( = |x),que faz sentido no contexto bayesiano mas no comum nos textos que tratam

    especicamente desta tipo de inferncia. Contudo, a notao P (X = x) aindaser utilizada em alguns casos quando houver a necessidade real de explicitar o

    evento aleatrio em questo.

    Sob o ponto de vista no paramtrico, funes de densidade, probabilidade e

    distribuio sero apresentadas sem a condicioanl sobre o parmetro. Exemplos:

    f(x) e F (x). Sob o ponto de vista baysiano, a mesma notao ser utilizadapara representar a distribuio marginal de X, como por exemplo

    f(x) =

    f(x|)dF ().

    Quando necessrio, o suporte de uma varivel aleatria ser denotado por

    sua verso caligrca. Por exemplo, os suportes de X e Y sero X e Y. Paraum vetor aleatrio X = {X1, . . . , Xn} tambm ser utilizada a mesma notaoX . Uma exceo ocorrer com o conjunto com todos os valores possveis doparmetro que, independente de ser aleatrio ou no, sempre ser representado

    por sua respectiva letra grega maiscula. Por exemplo, o conjunto dos possveis

    valores de representado por .

    A seguintes notaes sero utilizadas para designar certas estatsticas:

    Mdia amostral:X =

    ni=1

    Xin, (1.1)

    6

  • Varincia amostral:S2 =

    ni=1

    (Xi X)2n 1 , (1.2)

    Estatsticas de ordem: para uma coleo X1, X2, . . . , Xn a i-sima es-tatstica de ordem, denotada por X(i), o i-simio valor da amostra or-denada em ordem crescente. Em particular, X(1) = min{X1, . . . , Xn} eX(n) = max{X1, . . . , Xn}

    1.2 Famlias de Distribuies e abordagens paramtrica

    e no paramtrica

    Sob o ponto de vista estatstico, a amostra X1, . . . , Xn proveniente de umafuno de distribuio F (desconhecida), suposta pertencer uma famlia F defunes de distribuio. Considerando F como sendo o conjunto com todas asfunes de distribuio, um primeiro desao seria identicar qual funo em Ffoi a geradora da amostra.

    A busca por um bom modelo dentro de F que capture a informao contidana amostra pode, dependendo do contexto, ser uma tarefa rdua. Em vez disso,

    usual procurar por um modelo que explique bem a amostra dentro de um

    subconjunto de F. O modo como este subconjunto gera duas abordagens (nomutualmente exclusivas): a paramtrica e a no paramtrica.

    A abordagem paramtrica supe que a funo de distribuio est completa-

    mente especicada por certa quantidade, no observvel, denominada parmetro.

    Usualmente, parmetros so representados letras gregas e neste material a letra

    ser utilizada sempre que possvel para se referir ao de interesse. Sem maioresprejuzos s especicidades das inferncias frequentista e bayesiana, pode-se

    dizer que a distribuio de X depende do conhecimento prvio de , ou seja, adistribuio de X| conhecida.

    Uma vez xado o modelo F (.|), o conjunto de todos os valores possveisdo parmetro que permitem que F (.|) seja uma funo de distribuio de-nominado espao paramtrico. Por exemplo, se X1, . . . , Xn uma coleo devariveis aleatrias independentes com distribuio Poisson(), ento o espaoparamtrico ser = (0,).

    A famlia F dita ser paramtrica se apenas o conhecimento de necessriopara especicar a funo de distribuio, ou seja

    F = {F (.|) : }.

    7

  • Deste modo, a abordagem paramtrica substitui o problema de lidar com Fdentro do espao de todas as funes de distribuio para lidar com .

    A abordagem no paramtrica

    2

    tenta contemplar um amplo conjunto de

    funes de distribuio com restries brandas, como por exemplo, o conjunto

    de todas as variveis aleatrias com varincia nita, dado por{F (.) F :

    x2dF (x)

  • Fazendo h(x) = I(x R) = 1, c(, 2) = (2pi2)1/2e2/22 , t1(x) = x2,t2(x) = x, w1(,

    2) = 1/22 e w2(, 2) = /22, temos que X pertence famlia exponencial.

    Denio 1.2. Se = w(), a decomposio dada na Denio 1.1 pode serreescrita como

    f(x|) = h(x)c?() exp(

    ki=1

    iti(x)

    ), (1.4)

    onde

    c?()1 =Xh(x) exp

    (ki=1

    iti(x)

    )dx.

    Esta nova decomposio denominada forma cannica e denominadoparmetro cannico.

    1.3 Inferncia

    Considere uma distribuio de probabilidade P , responsvel pela gerao daamostra X1, . . . , Xn. Em geral, a distribuio P desconhecida e o objetivo dainferncia estatstica utilizar a amostra observada para fazer alguma conjectura

    sobre P .

    A inferncia pode ser dividida em trs grandes problemas:

    Estimao pontual: neste problema, existe interesse em fazer infernciassobre alguma quantidade proveniente do modelo P . Por exemplo, pode-sequerer estimar a mdia de P , denida por

    (P ) =

    xdP.

    Estimao por regies: neste problema, existe o interesse em encontraruma regio A na qual pode-se fazer a inferncia A, onde representaalguma quantidade de interesse. Em particular, se A for um intervalo nareta o problema conhecido como estimao intervalar.

    Testes de hipteses: neste problema, existe alguma hiptese do tipo Ae o objetivo determinar se aceitamos ou no esta hiptese.

    9

  • Em relao ao mtodo, existem duas principais abordagens para fazer infer-

    ncias: frequentista e bayesiana.

    1.3.1 Inferncia Frequentista ou Bayesiana?

    As inferncias frequentista e bayesiana so baseadas em interpretaes distintas

    de probabilidade. Primeiramente, considere a probabilidade frequentista.

    Denio 1.3 (Probabilidade Frequentista). Suponha que um mesmo ex-

    perimento repetido um grande nmero de vezes sob condies idnticas. Ento

    a probabilidade de um evento equivalente a sua frequncia relativa. Esta prob-

    abilidade denominada frequentista.

    Os resultados da inferncia frequentista baseiam suas propriedades em ter-

    mos de frequncias relativas: se o experimento for replicado innitas vezes, a

    melhor estratgia a que possui bom desempenho na maioria das vezes.

    Exemplo 1.3. Seja X1, . . . , Xn uma amostra de vaiid com Xi| Bernoulli()e considere o problema de estimar o valor de sob o ponto de vista frequentista.Neste caso, considere a varivel aleatria

    T =

    ni=1

    Xin.

    Observe que

    E[T |] =ni=1

    E

    (Xin

    ) = 1nE(

    ni=1

    Xi

    )

    = .

    Uma ilustrao de uma possvel funo de probabilidade para T dada abaixo.

    10

  • tf(t)

    0 1

    Note que os valores de T com maior probabilidade esto prximos de . Agora,suponha que foi observada a amostra x = {x1, . . . , xn} e calculado

    t =

    ni=1

    xin. (1.5)

    Se innitas amostras tivessem sido retiradas e, para cada uma fosse associada

    seu respectivo valor de t, ento os valores da sequncia t1, t2, . . . com maiorfrequncia relativa seriam aqueles prximos de . Portanto, associar o valor tobtido a partir da amostra observada com o valor de uma estratgia combons resultados na maioria das vezes.

    A inferncia bayesiana baseada na probabilidade pessoal, ou subjetiva.

    Denio 1.4 (Probabilidade Subjetiva). A probabilidade proveniente de

    um julgamento pessoal sobre a ocorrncia de certo evento denominada proba-

    bilidade subjetiva.

    Na inferncia bayesiana a incerteza sobre a quantidade quanticadaatravs de uma distribuio de probabilidade f() denominada priori. Estaquanticao feita de modo pessoal, traduzindo o grau de crena do indivduo

    em relao aos valores possveis de . Em seguida, uma amostra de X| ob-servada. A atualizao das crenas do indivduo em conjunto com as evidncias

    11

  • da amostra feita atravs do Teorema de Bayes

    f(|x) = f(x|)f()f(x)

    .

    A distribuio de |x denominada posteriori.

    Exemplo 1.4. Seja X1, . . . , Xn uma amostra de vaiid com Xi| Bernoulli()e considere o problema de estimar o valor de sob o ponto de vista bayesiano.Como sabido que (0, 1) e considerando que no existem outras informaessobre disponveis, razovel assumir inicialmente que

    Uniforme(0, 1).

    Isto implica que, sem analisar qualquer amostra, voc cr que cada subintervalo

    de (0, 1) com o mesmo comprimento possui a mesma chance de representar seuconhecimento sobre . A distribuio de aps observar a amostra x seria

    f(|x) f(x|) f() =ni=1

    f(xi|) f()ni=1

    xi(1 )1xi 1 = ni=1 xi(1 )n

    ni=1 xi .

    Reconhecendo a ltima expresso acima como o ncleo de uma densidade beta,

    tem-se que |x Beta(ni=1 xi + 1, n ni=1 xi + 1). A gura abaixo mostraum exemplo com a densidade (subjetiva) de antes e depois da amostra x tersido observada. Perceba como os dados modicaram a probabilidade subjetiva

    em relao .

    12

  • f(x)

    0 1

    Densidade Uniforme

    Densidade Beta

    Ao observar o grco acima, pode-se notar que a densidade subjetiva sobre a posteriori est concentrada em torno da mdia, sendo esta um nmero que

    pode estimar (representar) . Assim, uma estimativa pontual para

    E[|x] =ni=1 xi + 1

    n+ 2.

    Neste ponto, importante ressaltar que, embora as duas inferncias citadas

    acima sirvam para resolver os mesmos problemas, a interpretao dos resultados

    diferente. Por este motivo, nestas notas de aula, comparaes sobre perfor-

    mances entre inferncias sero evitadas. Do que foi discutido acima, pode-se

    notar que existe um ponto em comum entre as duas inferncias: ambas utilizam

    a informao de uma amostra X1, . . . , Xn proveniente de um modelo f(.|). Nocaso frequentista, o modelo f(.|) foi utilizado para encontrar a distribuio deT e no caso bayesiano o modelo foi utilizado em conjunto com a distribuio apriori para encontrar a distribuio a posteriori de . Este modelo denomi-nado verossimilhana.

    Denio 1.5. Seja X1, . . . , Xn uma amostra de variveis aleatrias com den-sidade/funo de probabilidade conjunta dada por

    f(x|).

    A funo L : [0,)L() = f(x|)

    13

  • denominada funo de verossimilhana. Em particular, se X1, . . . , Xn foremvariveis independentes, tem-se que

    L() =

    ni=1

    f(xi|).

    Falar em que momento retornaremos a discursar sobre o papel da verossim-

    ilhana.

    1.3.2 Isto tudo?

    Os Exemplos 1.3 e 1.4 mostraram a anlise do mesmo modelo paramtrico sob

    o ponto de vista frequentista e o bayesiano. Naturalmente, existem os mesmos

    pontos de vista para modelagens no paramtricas. Entender as diferenas entre

    cada metodologia o objetivo destas notas de aula. Contudo, a cincia no se

    limita a pontos de vista isolados. Existem situaes nas quais solues frequen-

    tistas so utilizadas em tcnicas bayesianas e vice-e-versa, alm de situaes nas

    quais parte do modelo paramtrico e a outra parte no paramtrica.

    1.4 Exerccios

    1.1. Seja X1, . . . , Xn uma amostra de variveis aleatrias independentes com

    f(x|) = h(x)c() exp(

    ki=1

    wi()ti(x)

    ).

    Prove que a distribuio conjunta da amostra pertence famlia exponencial.

    1.2. Seja X uma varivel aleatria com funo densidade/probabilidade dadapor

    f(x|) = h(x)c?() exp (x) .Considere ainda que o espao paramtrico H aberto.

    (a) Prove que

    MX(s) =c?()

    c?( + s).

    (b) Prova que

    E(X) = dd

    log c?().

    14

  • 1.3. Prove que as seguintes distribuies pertencem famlia exponencial e

    encontre sua forma cannica:

    1. Distribuio gama, com densidade dada por

    f(x|, ) =

    ()x1 exp{x},

    com x, , > 0.

    2. Distribuio beta, com densidade dada por

    f(x|, ) = x1(1 x)1B(, )

    ,

    com 0 < x < 1, > 0 e > 0.

    3. Distribuio Poisson, com funo de probabilidade dada por

    f(x|) = ex

    x!,

    onde > 0 e x = 0, 1, 2, . . ..

    4. Distribuio binomial negativa (com r conhecido), com funo de proba-bilidade dada portanto

    f(x|) =(r + x 1

    x

    )r(1 )x,

    com 0 < < 1 e x = 0, 1, 2, . . .

    Seo 1.3.1

    1.4. (Fcil) Seja X1, . . . , Xn uma amostra de variveis aleatrias indepen-dentes com Xi| Poisson().

    (a) Mostre que T =ni=1Xi| Poisson(n).(b) Mostre que E[T/n|] = .(c) Baseado no item anterior, se retirarmos innitas amostras de tamanho n, oque podemos esperar ao observar T/n?

    (d) Considere a amostra observada x = {11, 10, 4, 13, 7}. Calcule

    t

    5=

    5i=1

    xi5.

    O que este resultado representa?

    15

  • 1.5. (Fcil) Seja X1, . . . , Xn uma amostra de vaiid com Xi| Poisson().

    (a) Considere que a informao a priori sobre pode ser expressada atravscomo Exponencial(1). Encontre a distribuio a posteriori de .(b) Considere a amostra observada x = {11, 10, 4, 13, 7}. Quanto vale E[|x]?O que este resultado representa?

    1.6. (Mdio) Seja X1| Exponencial(). Considere a seguinte hiptese: 1.

    (a) Se a hiptese verdadeira, mostre que, para qualquer a > 0

    P (X a|) 1 ex.

    (b) Se a hiptese verdadeira, encontre o valor de a tal que

    P (X a|) 0, 95.

    (c) Considere a inferncia Rejeita-se a hiptese quando x observado maior quea. Se retirarmos innitas amostras de tamanho 1 e observarmos quantasvezes ocorreu x > a, qual a proporo de amostras nas quais a hiptese verdadeira, mas rejeitada?

    (d) Observa-se x = 17. Neste caso deve-se rejeitar a hiptese? Interprete adeciso.

    1.7. (Mdio)Seja X1| Exponencial(). Considere a seguinte hiptese: 1.

    (a) Considere a informao a priori Exponencial(log(2)). Calcule a prob-abilidade

    P ( 1).Interprete este resultado.

    (b) Mostre que a distribuio a posteriori |x Gama(2, x+ log(2)).(c) Observa-se x = 17. Calcule

    P ( 1|x).Compare esta probabilidade com a obtida no item (a). Interprete este re-sultado.

    16

  • Chapter 2

    Estatsticas

    2.1 Introduo

    Seja X1, . . . , Xn uma amostra de varveis aleatrias com Xi F (.) e considereo problema de fazer inferncias sobre alguma quantidade (F ). razovel crerque a amostra carrega informao sobre (.), uma vez que ela foi gerada a partirde F (.).

    Denio 2.1. O conjunto Xn representa o espao de todas as amostras pos-sveis de tamanho n e denominado espao amostral.

    Torna-se necessrio criar um mecanismo que retire informaes relevantes

    da amostra, de modo a facilitar o processo de inferncia. Tais mecanismos so

    denominados estatsticas.

    Denio 2.2. Qualquer funo T : Xn Rn T Rm denominadaestatstica.

    Informalmente, uma estatstica T qualquer funo da amostra. imediatoque estatsticas so variveis aleatrias e suas distribuies so denominadas

    distribuies amostrais. Para uma amostra aleatria X = {X1, . . . , Xn}, serutilizada a notao T (X) se for relevante ressaltar que T funo de X e, emcaso contrrio, ser utilizada simplesmente a notao T . De modo anlogo, paraa amostra observada x = {x1, . . . , xn} sero utilizadas as notaes T (x) ou t.

    As estatsticas procuram sumarizar a informao da amostra. Uma das prin-

    cipais caractersticas de uma estatstica o particionamento do espao amostral,

    17

  • que pode gerar a reduo da informao da amostra.

    Exemplo 2.1. Seja X1, . . . , Xn uma amostra de vaiid com X1 Gama(1, ).O espao amostral o conjunto Xn = Rn+. Considere a estatstica T (X) =ni=1Xi. A distribuio amostral de T uma Gama(n, ) e T = R+. A estats-tica T reduziu a informao da amostra, de dimenso n, para uma informaoescalar.

    Em princpio, sempre possvel gerar uma estatstica com dimenso menor

    que o tamanho da amostra. Neste captulo sero apresentados alguns conceitos

    sobre a qualidade destas redues para algumas estatsticas.

    2.2 Sucincia

    Considere que existe uma estatstica T tal que X|T (X) no depende de (nosentido de que a distribuio de X|T (X) no depende de ). Este tipo deestatstica denominada suciente.

    Denio 2.3. Uma estatstica T (X) dita ser suciente para se a dis-tribuio X|T (X) no depende de .Exemplo 2.2. Seja X1, . . . , Xn uma amostra iid de X1 Poisson(). Con-sidere a estatstica T (X) =

    ni=1Xi. Sabendo que T (X) Poisson(n), tem-seque

    f(x|T (x)) = f(x, T (x))f(T (x))

    = f(x)

    /en(n)t

    t!

    = t!

    ni=1 e

    xi/xi!en(n)t

    = t!ni=1 xi

    ni=1 1/xi!

    (n)t=

    t!

    ntni=1 xi!

    .

    logo, T (X) =ni=1Xi uma estatstica suciente.

    Exemplo 2.3 (Estatstica Suciente Trivial). A amostra sempre suciente

    para . De fato, note que

    f(x|x,) = f(x,x|)f(x|) = 1.

    18

  • Avaliar se uma estatstica suciente atravs da Denio 2.3 pode ser uma

    tarefa rdua. O teorema a seguir uma importante ferramenta para a busca de

    estatsticas sucientes.

    Teorema 2.4 (Critrio da Fatorao). Seja X uma amostra aleatria cujadistribuio depende de . Ento, T (X) um estatstica suciente para se esomente se existem funes h(x) e g(T (X),) tais que

    f(x|) = h(x)g(T (x),). (2.1)Proof. Ser demonstrado apenas o caso discreto. Primeiro, seja T (X) umaestatstica suciente. Ento

    f(x|) = f(x, T (x)|)= f(x|T (x),)f(T (x)|) e como T suciente,= f(x|T (x))f(T (x)|) (2.2)

    A decomposio (2.1) pode ser obtida fazendo h(x) = f(x|t) e g(T,) =f(t|). Agora, suponha que a decomposio (2.1) verdadeira para algumaestatstica T . Ento,

    f(x|T (x),) = f(x, T (x)|)f(T (x)|)

    =f(x|)

    yXn:T (y)=T (x) f(y|)

    =h(x)g(T (x),)

    yXn:T (y)=T (x) h(y)g(T (y),)

    =h(x)

    yXn:T (y)=T (x) h(y).

    Portanto, como X|T (X) no depende de , tem-se que T (X) suciente para.

    Corolrio 2.5. Considere a decomposio

    f(x|) = h(x)g(t,).Ento, f(t|) g(t,).Corolrio 2.6. Se T uma estatstica suciente e T = T (U(X)), ento Utambm suciente.

    19

  • Corolrio 2.7. Se T uma estatstica suciente e g 1:1, ento g(T) tambm suciente.

    Exemplo 2.4. SejaX1, . . . , Xn uma amostra de vaiid comXi Exponencial(),cuja densidade conjunta dada por

    f(x|) = neni=1 xi .

    Fazendo h(x) = 1 e g(T (x), ) = neni=1 xi, tem-se que T (X) =

    ni=1Xisuciente para . Observando a forma de g(t, ), pode-se notar que esta proporcional densidade da distribuio Gama(n, ), dada por

    f(t|) = n

    (n)tn1et.

    Portanto, pelo Corolrio 2.5 tem-se que

    ni=1Xi Gama(n, ). Exemplo 2.5. SejaX1, . . . , Xn uma amostra de vaiid comXi Uniforme(0, ),cuja densidade conjunta

    f(x|) = 1n

    ni=1

    I(xi ).

    O produtrio acima igual a um se e somente se todas as observaes forem

    menores ou iguais que . Para que isto ocorra, basta que a maior das observaesseja menor que . Assim,

    f(x|) = 1nI(x(n) ),e, fazendo h(x) = 1 e g(t, ) = f(x|), tem-se que T (X) = X(n) sucientepara . Fica como exerccio ao leitor mostrar que a distribuio amostral deX(n)

    fX(n)(t|) = nf(t|)n1 =n

    ntn1I(0 < t ),o que implica que X(n)/ Beta(n, 1).

    Existem situaes nas quais existe mais de uma estatstica suciente para o

    mesmo parmetro, ou uma estatstica suciente est associada a dois ou mais

    parmetros. Em ambos os casos, dizemos que a estatstica conjuntamente

    suciente para o(s) parmetro(s).

    Exemplo 2.6. Seja X1, . . . , Xn uma amostra de vaiid com Xi Gama(, ).Ento,

    f(x|) =ni=1

    ()x1i e

    xi = ()nn(

    ni=1

    xi

    )1eni=1 xi .

    Assim, T (X) = {ni=1Xi,ni=1Xi} uma estatstica suciente bidimensionalpara (alternativamente, tambm correto dizer que T1(X) =

    ni=1Xi e

    T2(X) =ni=1 so estatsticas conjuntamente sucientes para ).

    20

  • Exemplo 2.7. SejaX1, . . . , Xn uma amostra de vaiid comX1 Normal(, 2).Fazendo = (, 2) tem-se,

    f(x|) =ni=1

    12pi2

    exp

    { (xi )

    2

    22

    }(

    1

    2

    )n/2exp

    { 1

    22

    ni=1

    (xi )2}

    =

    (1

    2

    )n/2exp

    { n

    22(x )2

    }exp

    {n 1

    22s2},

    onde foi utilizada a identidade

    ni=1

    (xi )2 =ni=1

    (xi x)2 + n(x )2 = (n 1)s2 + n(x )2. (2.3)

    Assim, a estatstica {X, S2} so conjuntamente sucientes para {, 2}. No-tando que

    1 exp{ n

    22(x )2

    } proporcional densidade de uma Normal(, 2/n), cuja densidade dada por

    f(x|, 2) =n

    2pi2exp

    { n

    22(x )2

    }.

    Pode-se ainda observar que

    f(x|) =( n

    2pi2

    )1/2exp

    { n

    22(x )2

    }(

    1

    2pi2

    )n12

    exp

    {n 1

    22s2}.

    A ltima parcela do produto acima proporcional densidade da distribuio

    Gama((n 1)/2,(n 1)/22), cuja densidade dada por

    f(s22) =

    (n 122

    )n12 1

    (n 1)(s2)

    n12 1 exp

    {n 1

    22s2},

    tem-se que a densidade conjunta da amostra pode ser reescrita como

    f(x|) = h(x)g1(x,)g2(s2, 2),

    onde g1(x,) a densidade da Normal(, 2/n), g2(s

    2, 2) a densidade daGama((n 1)/2,(n 1)/22) e

    h(x) =(n 1)

    (pis2)0,5(n1).

    Portanto, pelo Corolrio 2.5 temos que

    21

  • X Normal(, 2/n), S2 Gama((n 1)/2, (n 1)/22) X e S2 so independentes.

    Fica como exerccio para o leitor mostrar que

    (n 1)S2

    2 2n1.

    Em alguns exemplos acima, a amostra proveniente de uma distribuio na

    famlia exponencial. Abaixo segue um importante teorema relacionando esta

    famlia com as estatsticas sucientes.

    Teorema 2.8. Se X1, . . . , Xn so vaiid provenientes de uma distribuio nafamlia exponencial, ento

    T (X) =

    {ni=1

    T1(xi), . . . ,

    ni=1

    Tk(xi)

    } suciente para .

    Proof. Segue diretamente da Proposio ??.

    possvel estender a noo de estatstic suciente para a abordagem no

    paramtrica.

    Denio 2.9. Seja X = {X1, . . . , Xn} uma amostra aleatria com X F (.).Uma estatstica dita ser suciente para F se a distribuio X|T (X) nodepende de F (.).

    Exemplo 2.8. Seja FD a famlia de todas as distribuies cujo suporte umconjunto D Z. Seja T (X) = {nz(X), z Z}, onde nz(X) o nmero devezes que ocorreu o valor z na amostra X (tambm denominado frequncia dez na amostraX). Por ltimo, sejaX uma amostra de vaiid com X1 F FD.Ento

    f(x) =

    ni=1

    f(xi) =zD

    f(z)nz(x).

    Portanto, pelo Critrio da Fatorao, T (X) = {nz(X), z Z} suciente paraF .

    O exemplo acima tem uma importante implicao: a frequncia dos valores

    de uma amostra sempre suciente para o modelo F . Utilizando o Corolrio2.7, temos que as frequncias relativas, denidas por nz(X)/n tambm sosucientes para F .

    22

  • Exemplo 2.9. Seja X1, . . . , Xn uma amostra iid de X1 F . Seja

    T = {X(1), . . . , X(n)},

    onde X(i) a i-sima coordenada de X ordenado em ordem crescente (as coor-denadas de T so denominadas estatsticas de ordem). Ora, as estatsticas deordem so sucientes para F . Para mostrar este fato, ser considerado apenaso caso no qual X uma varivel discreta. Neste caso,

    f(x|T (x)) = f(x1, . . . , xn, T (x))f(T (x))

    .

    Note que o numerador acima diferente de zero apenas quando alguma permu-

    tao de x igual t. Como as variveis so iid, todas as permutaes tem amesma probabilidade. Assim,

    f(x1, . . . , xn, T (x)) =1

    n!f(t)

    e

    f(x|T (x)) = 1n!,

    o que mostra que T suciente para F .

    2.3 Estatsticas sucientes minimais

    Para um mesmo problema podem existir diversas estatsticas sucientes, como

    ser ilustrado no Exemplo 2.10. interessante que a informao da amostra

    possa ser sumarizada em poucos valores, o que implica em procurar pela estats-

    tica suciente com a menor dimenso possvel. Tais estatsticas so denominadas

    minimais.

    Denio 2.10. Uma estatstica suciente T (X) denominada minimal se,para qualquer outra estatstica suciente T (X), T (X) funo de T (X).

    Exemplo 2.10. SejaX1, . . . , Xn uma amostra de vaiid comX1 Uniforme(, )e > 0. A densidade conjunta da amostra dada por

    f(x|) =ni=1

    1

    2I( xi )

    23

  • Considere as seguintes fatoraes:

    f(x|) = 1(2)n

    ni=1

    I( x(i) ),

    f(x|) = 1(2)n

    I( x(1))I(x(n) ),

    f(x|) = 1(2)n

    I(maxi|Xi| )

    Na primeira fatorao temos que a estatstica T1 = {X(1), . . . , X(n)} su-ciente para . Na segunda, a estatstica T2 = {X(1), X(n)} suciente para e na ltima, a estatstica T3 = max{|X1|, . . . , |Xn|} suciente para . Clara-mente, T3 uma estatstica suciente com a menor reduo possvel, bastandomostrar que T3 minimal. Por outro lado, pela Denio 2.10 T1 no poderiaser minimal. De forma anloga,

    T3 = max{|X1|, . . . , |Xn|} = max{|X(1)|, |X(n)|} = T3(T2(X)),

    logo T2 no poderia ser minimal.

    O seguinte Teorema til descobrir se uma estatstica suciente minimal.

    Teorema 2.11. Suponha que existe uma funo T (X) tal que, para cada parde amostras x e y, a razo f(x|)/f(y|) constante como funo de se esomente se T (x) = T (y). Ento T (X) uma estatstica suciente minimal.

    Proof. A prova ser dada apenas para o caso discreto. Primeiro, para qualquer

    estatstica T , temos que

    f(x|) = f(x|)f(T (x)|)f(T (x)|)

    = f(T (x)|) f(x|)yXn:T (y)=T (x) f(y|)

    = f(T (x)|) yXn:T (y)=T (x)

    f(y|)f(x|)

    1 .Agora, se as condies do Teorema 2.11 esto satisfeitas para a estatstica T ,ento para todo T (x) = T (y) a razo f(x)|/f(y|) no depende de . Assim,o termo

    yXn:T (y)=T (x)

    f(y|)f(x|)

    1 := h(x).24

  • constante em relao , o que implica em

    f(x|) = f(T (x)|)h(x).

    Logo, pelo Teorema 2.4, temos que T suciente.

    Agora, seja W outra estatstica suciente, com o ponto (x,y) implicandoem W (x) = W (y). Ento, pelo Teorema 2.4,

    f(x|)f(y|) =

    h(x)g(w(x),)

    h(y)g(w(y),)=h(x)

    h(y),

    logo, a razo constante em e, pelas condies do Teorema 2.11 tem-se queT (x) = T (y). Ento, para qualquer W W = {W (x) : x Xn} existe umnico elemento T T , o que implica em T :W T .

    Exemplo 2.11 (Estatstica minimal para a normal). SejaX1, . . . , Xn umaamostra aleatria de X1 Normal(, 2). Sabe-se que

    f(x|) =(

    1

    22pi

    )n2

    exp

    { n

    22(x )2 n 1

    22s2x

    },

    logo, T = {X, S2X} uma estatstica suciente para . Considere agora duasamostras, x e y. Ento

    f(x|)f(y|) = exp

    { n

    22[(x )2 (y )2] n 1

    22[s2x s2y]

    }= exp

    { 1

    22[n(x )2 n(y )2 + (n 1)(s2x s2y)

    ]}= exp

    { 1

    22

    [n(x )2 n(y )2 + (

    ni=1

    x2i nx2 ni=1

    y2i + ny2)

    ]}

    = exp

    { 1

    22

    [2n(x y) + (

    ni=1

    x2i ni=1

    y2i )

    ]}

    A razo acima no depender de se e somente se x = y e seni=1 x

    2i =

    ni=1 y

    2i ,

    o que implica qye {X,ni=1X2i } suciente minimal para (, 2). Fica comoexerccio a demonstrao de que T tambm uma estatstica suciente minimalpara = (, 2).

    Exemplo 2.12 (Estatstica minimal para a uniforme). SejamX1, . . . , Xnvaiid com Xi Uniforme(0, ), cuja densidade conjunta dada por

    f(x|) = nI(x(n) ).

    25

  • Pelo Teorema 2.4, X(n) uma estatstica suciente para . Considere duasamostras x e y. Ento,

    f(x|)f(y|) =

    I(x(n) )I(y(n) ) .

    Sem perda de generalidade, assuma que x(n) > y(n). Ento, existe uma cons-tante c > 0 tal que x(n) = y(n) + c. A razo das indicadoras como funo de

    I(y(n) + c )I(y(n) ) =

    {1, y(n) + c0, y(n) < y(n) + c ,

    e a razo no constante em nesta situao. Pode-se chegar na mesmaconcluso se x(n) < y(n). Assim, para razo ser constante necessrio quex(n) = y(n), e, portanto, X(n) uma estatstica suciente minimal para .

    Exemplo 2.13. Seja X1, . . . , Xn uma amostra de vaiid com X1 F . J vimosque as estatsticas de ordem so sucientes para F . Para mostrar que T (X) ={X(1), . . . , X(n)} tambm minimal, considere a razo

    f(x)

    f(y)=f(x(1), . . . , x(n))

    f(y(1), . . . , y(n)).

    Se T (x) = T (y) ento a razo constante em relao a f . Alm disso, comoF F, o nico modo da ra ao

    f(x(1), . . . , x(n))

    f(y(1), . . . , y(n))

    ser constante em relao a um f qualquer fazer T (x) = T (y).

    2.4 Estatsticas ancilares e estatsticas completas

    Existem estatsticas que no carregam informao sobre . Tais estatsticas sodenominadas ancilares.

    Denio 2.12. Uma estatstica dita ser ancilar para se sua distribuiono depende de .

    Estatsticas ancilares so importantes para inferncia estatstica, como ser

    observado ao longo do texto. Abaixo, seguem alguns exemplos.

    26

  • Exemplo 2.14. SejaX1, . . . , Xn uma amostra de vaiid comX1 Normal(, 2).No Exemplo 2.7 mostrou-se que

    X Normal(,2

    n

    )e

    S2 Gama((n 1)/2, (n 1)/22).Como a distribuio de S2 no depende de , tem-se que esta uma estatsticaancilar para . Considere que conhecido. Ento

    nX

    Normal(0, 1)e

    n 12

    S2 Gama((n 1)/2, 1/2) 2n1.Tambm foi mostrado que X e S2 so independentes. Portanto,

    T =nX S

    tn1.

    Como conhecido, temos que T uma estatstica cuja distribuio no de-pende de 2, logo, T ancilar. Este resultado ser muito utilizado posterior-mente.

    Exemplo 2.15. Seja (Y1, X1), . . . , (Yn, Xn) uma amostra de variveis aleatriasindependentes com Yi|xi Normal(0 + 1xi, 2). Neste caso, tem-se que

    E[Yi|xi] = 0 + 1xi,ou seja, o valor mdio de Yi uma funo linear de xi. Este modelo denominadoregresso linear simples e um dos objetivos principais fazer inferncias sobre 0e 1. Note que o vetor X considerado xado. Como justicativa para xarX, feita a suposio de que X f(.|), onde so parmetros no relacionadoscom 0, 1 e

    2, ou seja, X ancilar em relao a estes parmetros. Assim,

    f(y,x|0, 1, 2, ) = f(y|x, 0, 1, 2, )f(x|0, 1, 2, )= f(y|x, 0, 1, 2)f(x|),logo, dado x, a distribuio de Y |x suciente para 0 e 1 e, neste caso, ainformao ancilar de fundamental importncia para fazer inferncias para 0e 1.

    Exemplo 2.16. Posto uma transformao na qual o valor da varivel

    substitudo por sua respectiva posio na amostra ordenada. Por exemplo,

    considere as observaes

    x = (3, 1; 5, 2; 2, 7; 7, 8).

    Ento

    27

  • x(1) x(2) x(3) x(4)Amostra ordenada 2,7 3,1 5,2 7,8

    Posio 1 2 3 4

    assim, o vetor de postos ser r = (2, 3, 1, 4). Seja X1, . . . , Xn uma amostra devaiid com Xi F , onde F uma funo de distribuio contnua. Seja R ovetor com os postos de X. Como a amostra iid, condicionado x, R podeassumir, com igual probabilidade, qualquer permutao possvel de {1, . . . , n}.Ento,

    p(r) =

    p(r|x)f(x)dx = 1

    n!

    f(x)dx =

    1

    n!.

    Como R no depende de F , tem-se que R uma estatstica ancilar. Muitos testesno paramtricos so construdos utilizando esta estatstica.

    Ao se utilizar uma estatstica T , deseja-se que a amostraX seja decompostaem {T,U}, onde T contm toda a informao sobre e U ancilar para .Contudo, nem sempre possvel garantir que T independente de U . De fato, amaioria das estatsticas incapaz de separar a parte informativa da amostra da

    parte ancilar. A prxima denio mostra um conjunto particular de estatsticas

    que consegue tal separao.

    Denio 2.13. Seja FT a famlia de distribuies da estatstica suciente T .Esta famlia denominada completa se para qualquer funo real g tem-se queE(g(T )) = 0 para todo implica que g(T ) nula em quase toda parte. Nestecaso, a estatstica denominada completa.

    Conforme anunciado anteriormente, uma das vantagens de uma estatstica

    completa a capacidade de separar a informao sobre de qualquer estatsticaancilar, como mostra o teorema abaixo.

    Teorema 2.14 (Teorema de Basu). Estatsticas sucientes completas so in-

    dependentes de quaisquer estatsticas ancilares.

    Proof. A demonstrao ser feita apenas para o caso contnuo (o caso discreto

    anlogo). Sejam U e T uma estatstica ancilar e uma estatstica completa para. Como U ancilar, a funo de probabilidade f(u) no depende de . Almdisso, como T suciente, teremos que f(u|t) tambm no depende de . Faag(t) = f(u|t) f(u). Ento

    E[g(T )|] = ET |[f(u|T )] ET |[f(u)] =f(u|t)f(t|)dt f(u)

    = f(u) f(u) = 0,.

    28

  • Como T completa, tem-se que g(t) = 0 em quase toda parte e

    g(t) = 0 f(u|t) = f(u) = 0 f(u|t) = f(u),logo T independente de U .

    Exemplo 2.17 (Estatstica completa para a Uniforme(0,)). SejaX umaamostra aleatria de vaiid com X1 Uniforme(0, ). Sabe-se que T = X(n) suciente para (Exemplo 2.5) e que T/ Beta(n, 1). Ser mostrado que X(n) completa. Primeiro, se inf < a() < b() < inf so funes diferenciveis,tem-se que

    1

    d

    d

    b()a()

    f(x|)dx = f(b()|) ddb() f(a()|) d

    da() +

    b()a()

    d

    df(x|)dx.(2.4)

    Para uma funo g(t) qualquer

    d

    dE[g(T )] =

    d

    d

    0

    g(t)n

    ntn1dt =

    n

    g() +

    0

    ng(t)tn1d

    dndt

    =n

    g() n

    0

    n

    ng(t)tn1dt =

    n

    g() n

    E[g(T )].

    Agora, suponha que E(g(T )) = 0. Ento d/dE[g(T )] = 0 e a equao acimase reduz a g() = 0 para todo > 0. Portanto, T completa.

    Antes de mostrarmos mais alguns exemplos, consideremos o seguinte Teo-

    rema.

    Lema 2.15 (Lei do Cancelamento de Lerch). Sejam f1(t) > 0 e f2(t) > 0funes reais positivas e contnuas com domnio em R+, onde

    0

    fi(x)etxdx

  • Exemplo 2.18 (Exponencial). Seja X1, . . . , Xn uma amostra de vaiid comX1 Exponencial(1/). A densidade conjunta de X dada por

    f(x|) = n exp {nx} ,

    o que implica, pelo Teorema 2.4. Utilizando o Corolrio 2.5, pode-se mostrar

    que X Gama(n, n). Assim, para qualquer g(x), tem-se que

    E[g(X)] =

    0

    g(x)n

    (n)xn1 exp {nx} dx

    =

    0

    g(x)nxn1

    (n)exp {nx} dx.

    Assim, a integral acima a transformada de Laplace da funo

    c(t) = g(t)n

    (n)tn1.

    Se E[g(X)] = 0, ento a existe a transformada de Laplace da funo c(x) e,pela Lei do Cancelamento de Lerch, tem-se que c(x) = 0, o que ocorre, paraqualquer n e , apenas quando g(x) = 0. Por outro lado, se g(x) = 0 para todox, ento E[g(X)] = 0. Portanto, E[g(X)] = 0 se e somente se g(x) = 0 paratodo x e X uma estatstica completa.

    O Teorema abaixo nos d condies necessrias para que um membro da

    famlia exponencial tenha uma estatstica completa.

    Teorema 2.16 (Estatstica completa na famlia exponencial). Sejam X1, . . . , Xnvaiid de uma fd ou fp da forma

    f(x|) = h(x)c() exp kj=1

    wj()tj(x)

    , (2.6)Ento, a estatstica T (X) = (

    ni=1 T1(Xi), . . . ,

    ni=1 Tk(Xi)) completa se

    {w1(), . . . , wk() : } contm um conjunto aberto em Rk.

    Proof. Uma demonstrao deste teorema pode ser encontrada em Brown (1986,

    Theorem 2.12) e utiliza a unicidade da transformada de Laplace.

    No Teorema 2.16, a restrio que {w1(), . . . , wk() : } contenha umconjunto aberto em Rk necessria para garantir a unicidade da transformadade Laplace. Os dois exemplos abaixo mostram que esta restrio necessria.

    30

  • Exemplo 2.19. Seja X1, . . . , Xn vaiid com X1 Normal(, 2).Note que,

    f(x|) =(

    1

    2pi2

    )n2

    exp

    { 1

    22

    ni=1

    (xi )2}

    =

    (1

    2pi2

    )n2

    exp

    { 1

    22

    ni=1

    x2i +nx

    1

    2

    }

    =

    (1

    2pi2

    )n2

    exp

    {1

    2

    }exp

    { 1

    22

    ni=1

    x2i +nx

    }

    o que implica que a distribuio deX pertence famlia exponencial. Como T =(X,

    ni=1X

    2i ), cuja dimenso 2, e como o conjunto {2, 1 : R} possuidimenso 1, tem-se que as condies do Teorema 2.16 no esto satisfeitas.

    De fato, nestas condies possvel encontrar uma funo g(x,ni=1 x

    2i ) nonula cuja esperana nula. Por exemplo, pelo Exemplo 2.7 sabemos que X Normal(, 2/n). Assim,

    E[X2] = V ar(X) + E(X)2 =2

    n+ 2 = 2

    1 + n

    n

    e

    E

    [ni=1

    X2i

    ]= nE[X21 ] = n(V ar(X1) + E(X1)

    2) = 2n2.

    Fazendo

    g(t) =n

    n+ 1X 1

    2n

    ni=1

    X2i

    pode-se notar que g no nula para todo T , mas E[g(T )] = 0, o que implicaque T no completa.

    Exemplo 2.20. Seja X1 Binomial(2, ), onde = {1/4, 3/4}. Ora, X1 suciente, pertence famlia exponencial e ca como exerccio mostrar que as

    condies do Teorema 2.16 no esto satisfeitas. Para mostrar que X1 no completa, considere g(0) = g(2) = 3 e g(1) = 5. Ento

    E[g(T )] = g(0)(1 )2 + 2g(1)(1 ) + g(2)2= 162 16 + 3 = 0

    para . Logo, X1 no completa.

    O teorema a seguir mostra que estatsticas sucientes completas so mini-

    mais.

    Teorema 2.17. Se T suciente e completa, ento T tambm minimal.

    31

  • Proof. Seja T uma estatstica suciente e completa e seja T uma estatsticaminimal. Ento, por denio, T = f(T ) para alguma funo real f . Construa

    g(T ) = E[T |T ]

    (a funo g acima no depende de porque T suciente). Ento

    E[g(T )] = E[E[T |T ]] = E[T ]

    e

    E[T g(T )] = E[T ] E[g(T )] = 0.Contudo, T g(T ) = T g(f(T )), o que implica o termo na primeira esperanaacima funo da estatstica completa T e, portanto,

    E[T g(T )] = 0 T g(T ) = 0,

    e T = g(T ) em quase toda a parte. Como T = f(T ) para algum T e T = g(T ),tem-se que existe f1. Como transformaes 1:1 de estatsticas minimais sominimais (ver Exerccio 2.13), tem-se que T deve ser minimal.

    2.5 Exerccios

    Seo 2.1

    2.1. Seja X1, X2 uma amostra de vaiid com X1| Uniforme(0, ) e sejamT1 = X1/X2 e T2 = maxX1, X2 duas estatsticas.

    (a) Encontre a distribuio amostral de T1 e T2.

    (b) Qual destas duas estatsticas voc utilizaria para realizar inferncias sobre

    ? Justique sua resposta.

    Seo 2.2

    2.2. Seja X1 uma nica observao com X1 Normal(0, 2). A estatstica|X1| suciente?

    2.3. Seja X1, . . . , Xn uma amostra de variveis independentes com densidades

    f(xi|) = exp{i xi}I(xi i).

    Prove que T = min{X1, X2/2, . . . , Xn/n} uma estatstica suciente para .

    32

  • 2.4. Seja X1, . . . , Xn uma amostra de variveis independentes com densidades

    f(xi|) = 12i

    I(i( 1) < xi < i( + 1)).

    onde > 0. Ache uma estatstica suciente bidimensional para .

    2.5. Seja X1, . . . , Xn uma amostra de vaiid com densidade

    f(x|, ) = 1

    exp{(x )/},

    onde < x < e > 0. Encontre uma estatstica suciente bidimensionalpara (, ).

    2.6. Seja X1, . . . , Xn uma amostra de vaiid com Xi Gama(, ). Encontreuma estatstica suciente bidimensional para (, ).

    2.7. Seja (X,Y ) um vetor aleatrio com distribuio uniforme no retngulo decanto inferior esquerto (1, 2) e canto superior direito (3, 4) (ou seja 1 < 3 e2 < 4). Seja (X1, Y1), . . . , (Xn, Yn) uma amostra aleatria desta distribuio.Encontre uma estatstica 4-dimensional para = {1, 2, 3, 4}.

    2.8. Prove o Corolrio 2.6.

    2.9. Termine o Exemplo 2.7, mostrando que

    (n 1)S2

    2 2n1.

    2.10. Seja X1, . . . , Xn uma amostra de vaiid com densidade

    f(x|, ) =(

    2pix3

    ) 12

    exp

    {(x )

    2

    2x2

    },

    com R, x, > 0 (essa distribuio denominada gaussiana inversa). Utilizeo Corolrio 2.5 para mostrar que

    (a)

    X Gaussiana Inversa(, n)

    (b)

    T =

    ni=1

    (1

    Xi 1X

    ) Gama

    (n 1

    2,n

    2

    )(c) X e T so independentes.

    (d) X e T so independentes.

    33

  • Seo 2.3

    2.11. Mostre que a estatstica suciente encontrada no Exerccio 2.5 minimal.

    2.12. Seja X1, . . . , Xn uma amostra de vaiid com X1 Bernoulli(). Encontreuma estatstica suciente minimal para .

    2.13. Prove que, se T uma estatstica suciente minimal e W = g(T ), ondeg uma funo 1:1, ento W minimal. Utilize este resultado para terminar oExemplo 2.11.

    2.14. Seja FD a famlia de distribuies com suporte D Z. Prove que asfrequncias so estatsticas sucientes minimais para F .

    2.15. Seja F = {F1, F2}. Isto implica que os dados podem vir exclusivamentede dois modelos. Podemos transformar a escolha entre os dois modelos em um

    problema paramtrico. Seja um parmentro que vale 1 se F1 for o verdadeiromodelo e que vale 2 se F2 for o verdadeiro modelo. Ento

    f(x|) = f1(x)I(=1)f2(x)I(=2)

    (a) Notando que I( = 2) = 1I( = 1), prove que a razo de verossimilhanas

    T (X) =f1(X)

    f2(X)

    uma estatstica suciente minimal para .

    (b) Generalize o resultado quando F = {F1, . . . , Fk}.

    Seo 2.4

    2.16. Utilize os Teoremas 2.16 e 2.17 para provar que, se X1, . . . , Xn umaamostra de vaiid pertencentes famlia de distribuies exponenciais k-paramtricascom {w1(), . . . , wk() : } contendo um conjunto aberto em Rk, ento ex-iste uma estatstica suciente completa e minimal para .

    2.17. SejaX1, . . . , Xn uma amostra de vaiid com funo de probabilidade dadapor

    f(x|) = (1 )x1,onde x = 1, 2, . . . , e 0 < < 1. Encontre uma estatstica suciente completa eminimal para .

    2.18. Para cada uma das densidades abaixo, seja X1, . . . , Xn uma amostra devaiid. Encontre uma estatstica suciente completa e minimal para em cadacaso.

    34

  • (a) f(x|) = 2x I(0 < x < ), com > 0.(b) f(x|) =

    (1+x)1+, com x, > 0.

    (c) f(x|) = log 1 x, com x (0, 1) e > 1.

    Classicar depois...

    2.19. Para cada distribuio a seguir, encontre sua estatstica suciente e sua

    respectiva distribuio

    1. Poisson()

    2. Gama(5, )

    3. Uniforme(0, )

    4. Pareto(, )

    5. Exponencial deslocada: f(x|, ) = exp{(x )}, x > , > 0, )I( R)I( > 0), ento X(1) Exponencial(n) e

    ni=1(XiX(1)) Gama(n, ) e X(1) e

    ni=1(XiX(1)so independentes.

    (b) SeX Gama(, ), entoni=1Xi Gama(n, ),X/ni=1Xi Dirichlet(, . . . , )e

    ni=1Xi e X/

    ni=1Xi so independentes.

    (c) SeX|, Binomial(, ), entoni=1Xi Binomial(n, ) eX1, . . . , Xn|ni=1 Hipergeomtrica multivariada(), cuja fp dada por

    p(x|,ni=1

    xi) =

    ni=1

    (xi

    )(nni=1 xi

    ) I( x(n))2.21. Seja X1, . . . , Xn uma amostra aleatria com Xi f(x ). Mostre quea estatstica T (X) = (X(2) X(1), . . . , X(n) X(n1)) ancilar para .2.22. Seja X1 Bernoulli(), com = {1/4, 3/4}.

    (a) Mostre que X1 no satisfaz as condies do Teorema 2.16

    (b) Mostre que X1 completa.

    35

  • 36

  • Chapter 3

    Estimao Pontual

    3.1 Estimador, Estimativa e Bons Estimadores

    Considere a amostra X1, . . . , Xn F (.|). O problema da estimao pontual encontrar alguma estatstica para representar uma funo de .

    Denio 3.1. Qualquer estatstica cujo objetivo estimar () denominadaestimador para () e seu valor observado denominado estimativa de ().

    A noo de bom estimador est associada com a proximidade da varivel

    aleatria T com a quantidade (). Esta noo motiva o uso de uma funode perda, na qual tem-se perda zero sempre que T igual a e tem-se perdapositiva em caso contrrio

    1

    .

    Denio 3.2. Considere um estimador T (X) para o parmetro . Ento,uma funo de perda qualquer funo L : Xn [0,) que satisfaz

    L(T (X),) ={

    0, T (X) = > 0, caso contrrio.

    A quantidade L(T (X),) uma varivel aleatria para cada valor de xado. Na Teoria da Deciso, a qualidade do estimador T medida atravs dovalor esperado da perda, denominado funo risco.

    1

    Na Teoria da Deciso a funo de perda tambm pode ser negativa, implicando que existe

    ganho no lugar de perda. Contudo, para os objetivos destas notas, a Denio 3.2 ser

    suciente

    37

  • Denio 3.3. A funo risco do estimador T dada por

    R() = EX|[L(T (X),)] (3.1)Exemplo 3.1 (O Erro Quadrtico Mdio). Considere a funo de perda

    quadrtica

    L(T, ) = (T )2. (3.2)Sua respectiva funo de risco, denominada Erro Quadrtico Mdio,

    R() = ET |[(T )2].Doravante, esta funo ser denotada por EQMT (). Esta funo de risco podeser decomposta como segue:

    EQMT () = ET |[(T )2] = ET |[(T E(T |))2]= ET |[(T E(T |))2 + (E(T |) )2 2(T E(T |))(E(T |) T )]= ET |[(T E(T |))2] + (E(T |) )2= V arT |[(T ] + (Vis())2

    onde Vis() = E(T |) .

    A funo risco mede a perda esperada do estimador para cada valor de

    xado. Considere ento dois estimadores, T1 e T2, com funes de riscodadas por R1() e R2(). Sob o ponto de vista da inferncia frequentista, seR1() < R2() para todo , ento, em mdia, o estimador T1 produzuma perda menor que o estimador T2 e, por este critrio, melhor utilizar T1como estimador. Sob o ponto de vista da inferncia bayesiana, um estimador

    avaliado atravs do risco de bayes.

    Denio 3.4. O risco de bayes do estimador T dado por

    rT =

    R()pi()d.

    No risco de Bayes, a funo risco ponderada pelo peso de dado pela priori.Assim, considerando a informao dada a priori, ser prefervel o estimador

    com menor risco de Bayes. Considere novamente dois estimadores T1 e T2 comfunes de risco dadas por R1() e R2(). ento, se R1() < R2() para todo , ento rT1 < rT2 . Portanto, a existncia de um estimador T tal queRT () RT () para todo importante para as duas inferncias. Istomotiva a denio de estimadores admissveis.

    Denio 3.5. Um estimador T com funo de risco RT () dito ser inad-missvel se existe outro estimador T com funo de risco RT () satisfazendo

    RT () RT (), .Em caso contrrio o estimador T dito ser admissvel.

    38

  • 3.2 Estimao Pontual Frequenstista

    Na estimao frequentista, a qualidade de um estimador est associada com sua

    respectiva funo de risco. Dentre as possvesi funes de risco, o erro quadrtico

    mdio a mais utilizada. No Exemplo 3.1, foi mostrado que

    EQMT () = V ar(T ) +Vis()2,

    onde a funo Vis() = E(T ) denominado vis, ou vcio, de um esti-mador e a funo

    V ar(T ) recebe o nome de erro-padro do estimador T . Oproblema de encontrar um estimador admissvel para um problema pode ser

    uma tarefa rdua. Em vez disto, a maioria dos resultados clssicos da inferncia

    frequenstista so baseados na classe de estimadores no viciados.

    Denio 3.6. Um estimador T dito ser no viciado (ou no viesado) seVisT () = 0, o que implica em E(T ) = . Um estimador est na classe deestimadores no viciados se ele for no viciado.

    Para qualquer estimador T na classe de estimadores no viciados, tem-seque

    EQMT () = V ar(T ),

    Isto motiva a denio de um melhor estimador dentro desta classe.

    Denio 3.7. Dizemos que T o melhor estimador no viciado de varinciauniformemente mnima (ENVVUM) se

    V ar(T ) V ar(T ), .

    para qualquer estimador T no viciado.

    Nesta seo so apresentados dois mtodos para encontrar estimadores: o

    mtodo dos momentos e o mtodo da mxima verossimilhana. Tambm so

    apresentados alguns resultados que asseguram a existncia de um ENVVUM.

    Como ltima nota, na inferncia frequenstista comum o uso da notao ,onde (X) uma estatstica, para designar um estimador para . Esta notaofoi utilizada nestas notas de aula.

    3.2.1 Mtodo dos Momentos

    Primeiro ser considerado o problema de estimar o k-simo momento de umavarivel aleatria X dado por E[Xk] = (k).

    39

  • Denio 3.8. Seja X1, . . . , Xn uma amostra de vaiid. O k-simo momentoamostral dado por

    T (k) =

    ni=1

    Xkin.

    Teorema 3.9. Seja X1, . . . , Xn uma amostra de vaiid. Ento:

    (a) T (k) um estimador no viciado para (k) (apenas se E[Xk]

  • Seja o vetor soluo deste novo sistema. As coordenadas de so denomi-nadas estimadores de momentos para .

    O mtodo dos momentos uma ferramenta relativamente simples para en-

    contrar estimadores. Existem situaes nas quais outros estimadores no esto

    disponveis, ou so necessrios estimativas iniciais para construir novos esti-

    madores. Em ambos os casos o mtodo dos momento til.

    Quando dim() = 2 o estimadores via mtodo dos momentos podem ser obti-dos trocando T (2) por S2 no sistema. O motivo dado na seguinte proposio.

    Proposio 3.11. Seja X1, . . . , Xn uma amostra de vaiid com E[X1] = eV ar[X1] =

    2. Ento:

    (a) Os sistemas(E[X]E[X2]

    )=

    (

    2 + 2

    ),

    (E[X]V ar[X]

    )=

    (2

    )so equivalentes.

    (b) S2 no viciado para 2

    Proof. (a) Basta notar que existe a transformao 1:1(1 0 1

    )(E[X]E[X2]

    )=

    (2

    ).

    (b)

    E(S2) =n

    n 1E(

    1

    n

    ni=1

    (Xi X)2)

    =n

    n 1E(

    1

    n

    ni=1

    X2i X2)

    =n

    n 1[E(X2) E(X2)]

    =n

    n 1[V ar(X) + E(X)2 (V ar(X) + E(X)2)]

    =n

    n 1[V ar(X) V ar(X)] = n

    n 1[V ar(X) 1

    nV ar(X)

    ]= V ar(X) = 2.

    Exemplo 3.3. Seja X1, . . . , Xn uma amostra iid de X1 Exponencial(1/),com verossimilhana dada por

    L() =

    ni=1

    f(xi|) = 1n

    exp{nx}.

    41

  • Como

    L() (n

    )n 1(n)

    xn1 exp{nx},

    pelo Corolrio 2.5 tem-se que X Gama(n, n/). Como dim() = 1, o sistemado mtodo dos momentos

    X =

    e, portanto, tem-se que = X o estimador para obtido via mtodo dosmomentos. Este estimador no viciado e sua varincia

    V ar() =

    n.

    Novamente, o erro quadrtico deste estimador diminui com o aumento do tamanho

    da amostra.

    No exemplo acima, pde-se construir um estimador no viesado atravs do

    mtodo dos momentos. Alm disso, o estimador tambm funo da es-tatstica suciente. O prximo exemplo mostra que os estimadores obtidos via

    mtodo dos momentos no necessariamente so estatsticas sucientes.

    Exemplo 3.4. Seja X1, X2 uma amostra de vaiid com Xi Uniforme(0, ).Como

    E[X] =

    2,

    o estimador para obtido via mtodo dos momentos = 2X. Pode-se mostrarque

    f(x|) = 22{min{, 2xmax{0, 2x }}} ,onde 0 < x . Como no possvel obter a expresso acima atravs doCorolrio 2.5, tem-se que o estimador de momentos no uma estatstica su-

    ciente para .

    Uma crtica mais severa ao mtodo do momentos que estes podem pro-

    duzir estimativas que no esto no espao paramtrico, como mostra o exemplo

    abaixo.

    Exemplo 3.5. SejaX1, . . . , Xn uma amostra de vaiid comX1 Binomial(, ),onde o espao paramtrico = (, ) {1, 2, 3, . . .} (0, 1). Sabe-se que

    E(X1) = ,

    V ar(X1) = (1 ).Assim, os estimadores obtidos via mtodo dos momentos para (, ) so

    =X

    X S2 ,

    42

  • e = X S2.Pode-se notar que dicilmente ser um nmero natural. Alm disso, no existegarantia de que 0 1 e que > 0. De fato, considere a seguinte amostra:x = {0, 0, 1, 2, 3}. Neste caso, x = 1, 2 e S2 = 1, 7, o que produz = 2, 4 e = 0, 5.

    3.2.2 Mtodo da Mxima Verossimilhana

    Seja a probabilidade de sair cara em certa moeda e sejaX o nmero de caras em5 lanamentos. O modelo apropriado para esta situao X Binomial(5, ).Suponha que o espao paramtrico = {0, 1; 0, 2; . . . ; 0, 9}. Ao observar x,tem-se a seguinte verissimilhana

    L() = f(x|) =(

    5

    x

    )x(1 )5x.

    Considere que x = 3. Os valores possveis para esta funo de verossimilhanaso dados abaixo:

    .1 .2 .3 .4 .5 .6 .7 .8 .9L() 0,0081 0,0512 0,1323 0,2304 0,3125 0,3456 0,3087 0,2048 0,0729

    Os possveis valores da funo de verossimilhana podem ser interpretados da

    seguinte forma: se 0 for o verdadeiro valor do parmetro , ento, em innitasrepeties do experimento, a probabilidade de observar a amostra x L(0).

    Ao realizar um experimento, espera-se observar uma amostra tpica. Neste

    caso, interessante adotar a estratgia de procurar qual valor de maxi-miza L(). No caso acima, pode-se adotar = 0, 6 como estimador para . Este o princpio do mtodo da estimao via maximizao da funo de verossim-

    ilhana.

    Denio 3.12. O valor tal que L() L() para todo denom-inado estimador de mxima verossimilhana (EMV) para .

    Os estimadores de mxima verossimilhana possuem algumas vantagens em

    relao aos estimadores obtidos via mtodo dos momentos. Algumas destas

    propriedades so dadas abaixo.

    Proposio 3.13 (Propriedades do EMV). Seja o estimador de mximaverossimilhana para . Ento:

    43

  • 1. .

    2. Se uma estatstica suciente, ento ele tambm minimal.

    Proof. As demonstraes seguem abaixo:

    1. Imediato da Denio 3.12.

    2. Se T qualquer estatstica suciente. Ento, pelo Teorema 2.4,

    L() = h(x)g(t,) g(t,).

    Logo, a maximizao de L() depende de x somente atravs da estatstica

    suciente T (x), o que implica que escrito como funo de qualquer

    estatstica suciente. Portanto, se tambm for suciente, ento pelaDenio 2.10 ele tambm ser minimal.

    Exemplo 3.6 (EMV para a Uniforme(0, )). SejaX1, . . . , Xn uma amostrade vaiid com X1 Uniforme(0, ). Sua funo de verossimilhana dada por

    L() =

    ni=1

    f(xi|) =ni=1

    1

    I(0 < xi ) = 1

    nI(0 < x(n) ),

    O grco desta funo de verossimilhana dado abaixo

    44

  • X (n)

    L()

    Ao notar que a verossimilhana montona decrescente a partir do ponto x(n),

    valendo 0 em caso contrrio, conclui-se que = X(n) EMV para .

    comum maximizar logL() no lugar de . Uma vez que o logaritmo uma funo montona crescente, o mesmo valor em maximizar as duasfunes. Esta transformao facilita tanto a obteno de estimadores em sua

    forma analtica quanto na estabilidade de mtodos numricos. O logaritmo da

    funo de verossimilhana ser denotado por l().

    Exemplo 3.7 (EMV para o modelo Poisson). SejaX1, . . . , Xn uma amostraaleatria de X Poisson(). Sua funo de verossimilhana dada por

    L() =

    ni=1

    f(xi|) =ni=1

    exi

    xi!=en

    ni=1 xin

    i=1 xi!,

    45

  • logo,

    l() =

    ni=1

    xi log() n

    d

    dl() = 0

    ni=1 xi

    n = 0 = xd2

    d2l()|= =

    ni=1 xi

    2= n

    x< 0,

    portanto, = X o EMV para e sua varincia dada por

    V ar() = V ar(X) =V ar(X1)

    n=

    n.

    Exemplo 3.8 (EMV para o modelo normal). SejamX1, . . . , sXn Normal(, 2).Ento

    l() n2

    log(2) n22

    (x )2 n 122

    S2.

    Para encontrar os pontos crticos e mostrar que estes so pontos de mximos

    deve-ses:

    1. Encontrar as derivadas parciais e encontrar os pontos crticos .

    2. Mostrar que pelo menos uma das derivadas parciais de segunda ordem,

    aplicadas em negativa.

    3. O determinante da matriz Hessiana deve ser positivo.

    Pontos crticos:

    l() = 0 1

    2(x ) = 0 = X

    2l() = 0 n

    22+

    1

    (22)2((n 1)S2 + n(x )) = 0

    2 = n 1n

    S2

    Derivadas de segunda ordem:

    2

    2l()|= =

    X

    2< 0

    2

    (2)2l()|= =

    n

    2(2)2 (n 1)S

    2

    (2)3=

    n

    2(2)2 n

    (2)3

    = n(22)2

    < 0

    2

    2|= = 0

    46

  • Determinante da matriz Hessiana: n2 00 n2(2)2 = n2

    2(2)3

    Portanto, (X, (n 1)S2/n) o EMV para (, 2).

    Existem situaes nas quais deseja-se estimar alguma funo = (). Aprxima proposio mostra que basta conhecer o EMV para para obter o EMVde .

    Teorema 3.14 (Invarincia dos EMVs). Seja o EMV para e seja =

    (), onde uma funo real. Ento = () EMV para .

    Proof. Por didtica, ser demonstrado primeiro o caso no qual uma funo1:1. Neste caso, tem-se

    L() = L(1())

    e pode-se denir a verossimilhana em funo de como

    L?() = L(1()) = L(). (3.3)

    Se o EMV para , e fazendo = (), tem-se que

    L?() = L() L() = L(1()) = L?(),

    para todo . Portanto, EMV para .

    No caso de no ser uma funo 1:1, no possvel denir a verossimilhancaem (3.3). Para contornar este problema, considere o conjunto = { : = ()}. Naturalmente, a coleo de conjuntos para todo formauma partio de . Dena a funo de verossimilhana de como

    L?() = sup

    L(). (3.4)

    A funo acima denominada funo de verossimilhana induzida e garante que

    L?() o maior valor possvel xado. Note agora que

    sup

    L?() = sup

    (sup

    L()

    )= sup

    L() = L(),

    onde o EMV para . Mas, pertence a um nico conjunto, denotado aquipor = { : = ()}. Portanto, como todos os valores de levamao mesmo valor , o estimador de mxima verossimilhanca para = ().

    47

  • A invarincia dos estimadores de mxima verossimilhana uma ferramenta

    importante para construir novos estimadores. Abaixo seguem dois exemplos que

    utilizam esta propriedade.

    Exemplo 3.9 (Chances). Seja X1, . . . , Xn uma amostra de vaiid com X1 Bernoulli(). A funo de verossimilhana dada por

    L() =

    ni=1

    f(xi|) =ni=1

    xi(1 )1xi = ni=1 xi(1 )n

    ni=1 xi . (3.5)

    A funo de log-verossimilhana dada por

    l() =

    ni=1

    xi log() + (nni=1

    xi) log(1 ).

    Como a funo acima duas vezes diferencivel, pode-se chegar concluso de

    que = X o EMV para . A funo

    =

    1 (3.6)

    denominada chance e existem alguns procedimentos estatsticos que so volta-

    dos para o parmetro . Observe que = /(1 +), logo, a verossimilhana em(3.5) poderia ser escrita como

    L() =

    (

    1 +

    )ni=1 xi

    (1

    1 +

    )nni=1 xi,

    e, atravs das aplicaes de clculo, pode-se encontrar o EMV para . Alterna-tivamente, como o EMV para j conhecido, pode-se utilizar diretamente oTeorema 3.14 para mostrar que

    =X

    1 X ,

    o EMV para .

    Exemplo 3.10 (Probabilidades na binomial). SejaX1, . . . , Xn uma amostrade vaiid com X1 Binomial(2, ). A funo de verossimilhana dada por

    L() =

    ni=1

    f(xi|) =[ni=1

    (2

    xi

    )]ni=1 xi(1 )2n

    ni=1 xi ,

    e a funo de log-verossimilhana dada por

    l() =

    ni=1

    log

    (2

    xi

    )+

    ni=1

    xi log() +

    (2n

    ni=1

    xi

    )log(1 ).

    48

  • A funo acima duas vezes diferencivel e o EMV dado por = X/2.Considere o problema de estimar

    = f(1|) = 2(1 ),com (0, 1/4]. como a funo acima no 1:1, no possvel escrever averossimilhana de . De fato, para cada , pode assumir os valores0, 5 0, 51 2. Para ns de maximizao, pode-se denir a verossimilhanainduzida

    L?() = max

    {L

    (1

    2 1

    2

    1 2

    ), L

    (1

    2+

    1

    2

    1 2

    )}e a maximizao desta verossimilhana conduzir ao EMV de . Contudo,pode-se utilizar diretamente o Teorema 3.14 para mostrar que

    = 2X

    2

    (1 X

    2

    ) o EMV para .

    Embora os estimadores de mxima verossimilhana sejam preferveis aos es-

    timadores obtidos via mtodo dos momentos, existem situaes nas quais estes

    primeiros no produzem resultados satisfatrios. Os exemplos abaixo ilustram

    os problemas que podem ocorrer com os estimadores de mxima verossimil-

    hana.

    Exemplo 3.11 (Inexistncia do EMV - I). Seja X1, . . . , Xn uma amostraaleatria com X1 Uniforme(0, ), com funo de verossimilhana dada por

    L() =1

    nI(x(n) ),onde o suporte de X o intervalo (0, ]. Foi mostrado no Exemplo 3.6 que oEMV para X(n). Por outro lado, a verossimilhana poderia ter sido denidacomo

    L() =1

    nI(x(n) < ),

    onde o suporte de X o intervalo (0, ). Observe que a diferena entre as duasuniformes est na possibilidade de x(n) = , logo, as duas so equivalentes excetoeste conjunto, que tem medida nula. Entretanto, a segunda uniforme denida

    no possui um ponto de mximo. Exemplo 3.12 (Innitos EMV). Sejam X1, . . . , Xn variveis aleatrias in-dependentes e identicamente distribudas com X1 Uniforme( 1, + 1). Afuno de verossimilhana dada por

    L() = 2nni=1

    I( 1 < xi < + 1) = 2nI(x(n) 1 < < x(1) + 1).

    Neste caso, a verossimilhana atingir o seu mximo para qualquer no intervalo(X(n) 1, X(1) + 1).

    49

  • Exemplo 3.13. SejaX1, . . . , Xn uma amostra aleatria comX1 Binomial(, 1/2),com n = 1, 2, . . .. Neste caso,

    Exemplo 3.14 (Complexidade aumentando com n). SejamX1, . . . , Xn vaiidcom X1 Cauchy(, 1), cuja densidade dada por

    f(x|) = [pi(1 + (x )2)]1Ento, a funo de log-verossimilhana

    l() = n log pi ni=1

    log(1 + (xi )2)

    ),

    e

    d

    dl() = 0

    ni=1

    2(xi )1 + (xi )2 = 0

    2ni=1(xi )

    i 6=j [1 + (xj )2]n

    i=1[1 + (xi )2]= 0

    ni=1

    (xi )i 6=j

    [1 + (xj )2] = 0.

    Como o polinmio da ltima equao de ordem 2n 1, temos que existem2n 1 razes. Assim, o nmero de pontos crticos crescem com o tamanho daamostra, tornando a obteno do EMV trabalhosa. Entretanto, este estimador

    ainda possui propriedades interessantes (ver Bai and Fu (1987)).

    3.2.3 Melhores Estimadores No-Viesados

    Seja C = {T : E(T ) = ()} a classe de estimadores no-viesados para ().Foi discutido anteriormente, na Seo 3.1 que a minimizao do erro quadrtico

    mdio nesta classe implica em encontrar o estimador no viesado para () commenor varincia. Estes estimadores so o alvo de discusso desta seo.

    Denio 3.15 (ENVVUM). O estimador T , no viesado para () ditoser o melhor estimador no viesado com varincia uniformemente mnima (ENVVUM)

    para () se V ar(T ) V ar(T ) qualquer outro estimador T no viesado e paratodo .

    Mesmo na classe reduzida dos estimadores no viesados, a obteo de um

    ENVVUM pode ser uma tarefa rdua. Suponha que possvel encontrar uma

    cota inferior para a varincia dos estimadores em C. Ento, se existe um es-timador no viesado cuja a varincia atinge a cota inferior, este estimador

    um ENVVUM para (). O teorema a seguir apresenta a cota inferior para avarincia para um subconjunto de estimadores em C.

    50

  • Teorema 3.16 (Limite Inferior de Cramr-Rao). Seja X1, . . . , Xn uma amostrade variveis aleatrias com densidade conjunta dada por f(x|), com = (,)e seja T (X) qualquer estimador satisfazendo

    d

    dE(T (X)) =

    [T (x)f(x|)] dx (3.7)

    e

    V ar[T (X)]

  • Considerando a Equao (3.10) com X = T e Y = log(f(X|))/, tem-seque

    V ar(T ) Cov(T, log f(X|)

    )2V ar

    ( log f(X|)

    ) = Cov (T, log f(X|))2E((

    log f(X|)

    )2)=

    {E[T (X) log f(X|)

    ] E (T (X))E [ f(X|)]}2E((

    log f(X|)

    )2)=

    (ddE(T )

    )2E[(

    log f(X|)

    )2]Corolrio 3.17. Seja X1, . . . , Xn uma amostra de vaiid com densidade (oufuno de probabilidade) conjunta dada por f(x|). Se as condies do Teorema3.16 estiverem satisfeitas, ento

    V ar(T ) [ddE(T )

    ]2nE[(

    log f(X1|)

    )2]Proof. Exerccio.

    Corolrio 3.18. Seja X1, . . . , Xn uma amostra de vaiid com densidade (oufuno de probabilidade) conjunta dada por f(x|). Se as condies do Teorema3.16 estiverem satisfeitas, e se T for no viesado para , ento

    V ar(T ) 1n

    {E

    [(

    log f(X1|)

    )2]}1Proof. Exerccio.

    Para a aplicao do Teorema 3.16 necessria a troca da ordem dos op-

    eradores derivada e integral(ou somatrio). Esta troca sempre possvel na

    famlia de distribuies exponenciais (ver Exerccio ??).

    Exemplo 3.15 (ENVVUM para Poisson). Seja X1, . . . , Xn uma amostrade vaiid com X1 Poisson(). Ento

    d

    dlog f(x1|) = d

    d

    [log

    (ex1

    x1!

    )]=

    d

    d[ + x1 log log(x1!)]

    = 1 + x1

    52

  • eE

    [(d

    dlog f(X1|)

    )2]= E

    [(1 + X1

    )2]= E

    [1 +

    X212 2X1

    ]= 1 +

    E(X21 )

    2 2E(X1)

    =1

    ,

    Como a Poisson pertence famlia de distribuies exponenciais, as condies

    do Corolrio 3.18 esto satisfeitas e uma cota inferior para a varincia dos

    estimadores no viesados para

    V ar(T ) n.

    Contudo, no Exemplo 3.7 foi mostrado que

    V ar(X) =

    n.

    Como a varincia de X atinge o limite inferior de Cramr-Rao, conclui-se queX ENVVUM para .

    O prximo resultado til para os clculos envolvidos na aplicao do Teo-

    rema 3.16.

    Lema 3.19. Se f(x|) satisfazd

    dE

    (

    log f(X|)

    )=

    [(

    f(x|)

    )f(x|)

    ]dx,

    ento,

    E

    ((

    f(X|)

    )2)= E

    (2

    2log f(X|)

    ).

    Dentre as distribuies que satisfazem as condies deste lema esto aquelas na

    famlia de distribuies exponenciais.

    Exemplo 3.16. SejaX1, . . . , Xn uma amostra de vaiid comX1 Normal(, ).Para manter a consonncia com a notao do Teorema 3.16, considere =(, ). Como a normal pertence famlia de distribuies exponenciais, entoas condies do Corolrio 3.18 esto satisfeitas. Notando que

    log f(x1|) =

    log

    (12pi

    exp

    { 1

    2(x1 )2

    })=

    (1

    2log 2pi 1

    2log 1

    2(x1 )2

    )= 1

    2+

    1

    22(x1 )2

    53

  • e que

    2

    2log f(x1|) = 1

    22 13

    (x1 )2

    logo, pelo Lema 3.19, tem-se que

    E

    ((

    log f(X1|)

    )2)= E

    (2

    2log f(X1|)

    )= E

    (1

    22 13

    (x1 )2)

    =1

    22.

    Portanto, uma cota inferior para os estimadores no viesados para dada por

    V ar(T ) 2n.

    Entretanto, at o presente momento, no foi encontrado um estimador para que tenha varincia igual ao limite inferior de Cramr-Rao.

    O Exemplo 3.16 mostra, mesmo obtendo o limite inferior de Cramr-Rao,

    ainda existe o problema de procurar o estimador no viesado que possui varin-

    cia com valor correspondente. Contudo, existem situaes nas quais no existe

    estimador no viesado cuja varincia igual ao limite inferior de Cramr-Rao.

    O seguinte corolrio apresenta um mtodo para encontrar estimadores que sat-

    isfazem o limite inferior de Cramr-Rao.

    Corolrio 3.20. Seja X1, . . . , Xn uma amostra de viid de f(x|), onde f satis-faz as condies do Teorema 3.16. Se T um estimador no viesado para (),ento T atinge o limite inferior de Cramr-Rao se e somente se

    a()[T ()] = l()

    para alguma funo a().

    Proof. Exerccio.

    Exemplo 3.17 (ENVVUM para Bernoulli). SejaX1, . . . , Xn uma amostrade vaiid com X1 Bernoulli(). Como a distribuio Bernoulli pertence

    54

  • famlia exponencial, as condies do Teorema 3.16 esto satisfeitas. Como

    d

    dl() =

    d

    dlog

    (ni=1

    xi(1 )1xi)

    =d

    dlog(ni=1 xi(1 )n

    ni=1 xi

    )=

    d

    d

    (ni=1

    xi log() + (nni=1

    xi) log(1 ))

    =

    ni=1 xi

    nni=1 xi

    1

    =1

    (1 )

    [ni=1

    xi(1 ) (n

    ni=1

    xi

    )]=

    n

    (1 ) (x )

    logo, pelo Corolrio 3.20, X o estimador no viesado para que atinge o limiteinferior de Cramr-Rao, sendo, portanto, o ENVVUM para .

    Exemplo 3.18 (Concluso do Exemplo 3.16). SejaX1, . . . , Xn uma amostrade vaiid com X1 Normal(, ), com = (, ). Ento,

    l() =

    log

    ((1

    2pi

    )n2

    exp

    { 1

    2

    ni=1

    (xi )2})

    =d

    d

    (n

    2log(2pi) n

    2log 1

    2

    ni=1

    (xi )2)

    = n2

    +1

    22

    ni=1

    (xi )2

    Atravs da equao acima, possvel mostrar que

    l() =

    n

    22

    (1

    n

    ni=1

    (xi )2 ),

    logo, pelo Corolrio 3.20,

    T =1

    n

    ni=1

    (Xi )2

    no viesado para e sua varincia atinge o limite inferior de Cramr-Rao.Contudo, como desconhecido, T no uma estatstica e, portanto, noexiste estimador no viesado para cuja varincia atinge o limite inferior deCramr-Rao.

    A partir do Corolrio 3.20 pode-se notar que a coleo de estimadores no

    viesados que atingem o limite inferior de Cramr-Rao muito restrita. O prx-

    imo teorema mostra que, se existe um estimador no viesado para (), ento

    55

  • possvel melhor-lo, isto , obter outro estimador no viesado com uma var-

    incia menor.

    Teorema 3.21 (Rao-Blackwell). SejaW qualquer estimador no viesado para() e seja T uma estatstica suciente para . Dena (T ) = E(W |T ). EntoE(T ) = () e V ar((T )) V ar(W ) para todo .

    Proof. Primeiro, como T suciente, tem-se que (T ) = E(W |T ) funoapenas da amostra, sendo portanto uma estitistica. Alm disso,

    E[(T )] = E[E(W |T )] = E[W ],

    logo, (T ) um estimador no viesado para (). Por ltimo,

    V ar(W ) = V ar[E(W |T )] + E[V ar(W |T )]= V ar(T ) + E[V ar(W |T )] V ar(T ).

    concluindo a demonstrao.

    Exemplo 3.19 (Melhorando um estimador). SejaX1, . . . , Xn uma amostrade vaiid com X1 Binomial(2, ). Como

    L() =

    ni=1

    (2

    xi

    )xi(1 )2xi =

    [ni=1

    (2

    xi

    )] (1 )2n

    (

    1 )n

    i=1

    ,

    tem-se que Tni=1Xi uma estatstica suciente para . Considere o problemade encontrar um estimador no viesado para

    = () = f(1|) = 2(1 ).

    Seja W a ferquncia relativa do resultado 1 na amostra, ou seja

    W =

    ni=1

    I(Xi = 1)

    n.

    Note que

    E[W ] =

    ni=1

    E[I(Xi = 1)]

    n= E[I(X1 = 1)] = f(1|) = ,

    56

  • logo, W no viesado para . Como

    E[W |T = t] = E[

    ni=1

    I(Xi = 1)

    n|T = t

    ]= E [I(X1 = 1)|T = t] = f(1|t, )

    =P (X1 = 1, T = t|)

    P (T = t|) =P (X1 = 1,

    ni=1Xi = t|)

    P (T = t|)=P (X1 = 1|)P (

    ni=2Xi = t 1|)

    P (T = t|)

    =2(1 )(2(n1)t1 )t1(1 )2(n1)t+1(

    2nt

    )t(1 )2nt

    =2n

    2n 12(t

    2n

    )(1 t

    2n

    ),

    logo, aplicando o Teorema 3.21, tem-se que

    (T ) =2n

    2n 12(X

    2

    )(1 X

    2

    ) um estimador no viesado com varincia menor que W (compare o estimadoreste exemplo com o estimador obtido no Exemplo 3.10).

    At este momento foram discutidas tcnicas para:

    1. Identicar se existe um ENVVUM atravs do Teorema do limite inferior

    de Cramr-Rao

    2. Melhorar um estimador no viesado atravs do Teorema de Rao-Blackwell.

    Os prximos resultados mostraro que:

    1. Se existe um ENVVUM ele nico.

    2. Estimadores no viesados baseados unicamente em estststicas sucientes

    completas so ENVVUM.

    Teorema 3.22 (Unicidade do ENVVUM). Se T um melhor estimadorno-viesado para (), ento ele nico.

    Proof. Suponha que T eW so dois ENVVUMs para para (). Ento, V ar(T ) =V ar(W ) e o estimador

    H =1

    2(T +W )

    57

  • tambm um estimador no viesado para (). Utilizando o fato de que, paraquaisquer X e Y com varincias nitas,

    Cov(X,Y ) V ar(X)V ar(X)

    mostra-se que

    V ar(H) =1

    4V ar(T +W )

    =1

    4V ar(T ) +

    1

    4V ar(W ) +

    1

    2Cov(T,W )

    14V ar(T ) +

    1

    4V ar(W ) +

    1

    2

    V ar(T )V ar(W )

    = V ar(T )

    Mas, como T um ENVVUM, necessrio que V ar(H) = V ar(T ). Entretanto,para que ocorra a igualdade necessrio que T seja funo linear de W . Logo,existem a() e b() tais que

    T = a()W + b().

    Neste caso,

    Cov(T,W ) = Cov(a()W + b(), T )

    = a()Cov(W,T )

    = a()V ar(T ).

    Contudo, como T e W possuem a mesma varincia, Cov(T,W ) = V ar(T ), oque implica em a() = 1. Alm disso, W no viesado, logo

    E(W ) = E(T ) + b() = E(T )

    faz com que b() = 0. Portanto, W = T e T o nico ENVVUM.

    O prximo Teorema d as condies necessrias e sucientes para que um

    estimador para () seja o ENVVUM.

    Teorema 3.23. Seja T um estimador no viesado para (). Ento T ser omelhor estimador no-viesado se e somente se ele for no correlacionado com

    todos os estimadores no viesados para 0.

    Proof. ()Se T o ENVVUM para (), ento para qualquer estimadorW noviesado para zero o estimador

    H = T + aW

    no viesado para (). Disto, tem-se que

    V ar(H) = V ar(T ) + a2V ar(W ) + 2aCov(T,W ),

    58

  • A funo acima duas vezes diferencivel em a e pode-se mostrar que V ar(H) minimizada em

    a = Cov(T,W )V ar(W )

    ,

    e o menor valor da varincia de H dado por

    V ar(H) = V ar(T ) +

    (Cov(T,W )

    V ar(W )

    )2V ar(W ) + 2

    (Cov(T,W )

    V ar(W )

    )Cov(T,W )

    = V ar(T ) Cov(T,W )2

    V ar(W )

    o que implica em

    V ar(H) V ar(T ).Mas, como T ENVVUM, a varincia de H no pode ser menor que a varinciade T , logo, tem-se que V ar(H) = V ar(T ), o que implica em Cov(T,W ) = 0.

    () Suponha que T um estimador no viesado para (). Suponha aindaque T no correlacionado com todos os estimadores no viesados para 0. SejaH outro estimador no viesado para (). Ento, fazendo H = T + (H T ),tem-se que E(H T ) = 0 eV ar(H) = V ar(T ) + V ar(H T ) + Cov(T,H T ) = V ar(T ) + V ar(H T ).Como V ar(HT ) 0, sempre verdade que V ar(H) V ar(T ) para qualquerH no viesado para (). Portanto, T o ENVVUM para ().

    O Teorema 3.23 mostra que um estimador o ENVVUM se e somente se

    ele for no correlacionado com qualquer estimador no viesado para zero. Na

    prtica, impossvel vericar se um estimador no viesado qualquer atende este

    pr-requesito. Reconsidere ento que uma estatstica T completa se E[g(T )] =0 implica em g(T ) = 0 em quase toda parte. Em outras palavras, o estimadorg(T (X)) = 0 o nico no viesado para 0 baseado em T . Isto motiva o seguinteteorema.

    Teorema 3.24 (Lehmann-Sche). Seja T uma estatstica suciente com-pleta para e seja (T ) qualquer estimador no viciado para (). Ento (T ) o ENVVUM para ().

    Proof. Seja W qualquer estimador no viciado para (). Como T suciente,pelo Teorema de Rao-Blackwell, o estimador (T ) = E[W |T ] no viciado para() e

    V ar((T )) V ar(W ).Mas, como T completa,

    E[(T ) (T )] = 0 (T ) = (T ).Portanto, (T ) ENVVUM para ().

    59

  • Corolrio 3.25. Seja h(X) qualquer estimador no viesado para (). Se T uma estatstica suciente completa, ento (T ) = E[h(X)|T ] ENVVUM para().

    O Corolrio 3.25 utiliza o Teorema de Rao-Blackwell (Teorema 3.21) e o

    Teorema de Lehmann-Sche para mostrar que estimadores no viciados basea-

    dos em estatstica suciente completas so os melhores estimadores no viesados

    com varincia uniformemente mnima.

    Exemplo 3.20 (ENVVUM para o zero da Poisson). SejaX1, . . . , Xn umaamostra de vaiid com X1 Poisson() e considere o problema de encontrar oENVVUM para

    () = f(0|).Para tanto, considere o estimador

    W (X) =1

    n

    ni=1

    I(Xi = 0),

    que no viesado para (). Como a distribuio Poisson pertence famliade distribuies exponenciais, tem-que T (X) =

    ni=1Xi uma estatstica su-ciente completa. Ento,

    E[W |T = t] = E[I(X1 = 0)|T = t] = P (X1 = 0|ni=1

    Xi = t)

    =P (X1 = 0,

    ni=1Xi = t)

    P (ni=1Xi = t)

    =P (X1 = 0,

    ni=2Xi = t)

    P (ni=1Xi = t)

    =P (X1 = 0)P (

    ni=2Xi = t)

    P (ni=1Xi = t)

    = e e(n1)[(n 1)]t

    t!

    /en[n]t

    t!

    =

    (n 1n

    )t,

    portanto, pelo Corolrio 3.25, o ENVVUM para f(0|)

    (T ) = E[W |T ] =(n 1n

    )T.

    Consideraes sobre o ENVVUM

    Neste ponto, importante rediscutir alguns aspectos sobre a estimao pontual.

    Primeiro, o objetivo da estimao pontual entregar um valor prximo de na

    60

  • maioria das vezes. Esta noo de proximidade pode ser realizada pela escolha

    de uma funo de perda. Ao escolher a perda quadrtica, o usurio deve ter

    em mente que valores de T distantes de so penalizados de forma quadrtica.Logicamente, esta escolha possui apelo da decomposio

    EQMT () = V ar(T ) +Vis()2.

    Tanto o vis do estimador quanto sua varincia so caractersticas fceis de

    interpretar como ao se escolher um estimador, espera-se que ele esteja prximo

    do parmetro e que sua variabilidade seja baixa. Menos fcil de interpretar o

    balano entre vis e varincia. Como o objetivo minimizar o erro quadrtico

    mdio, talvez seja mais interessante escolher um estimador viesado com uma

    varincia menor. A escolha de busca pelo melhor estimador dentro da classe de

    estimadores no viesados pode levar a estimadores que no minimizam o erro

    quadrtico mdio. Como ilustrao, considere o exemplo abaixo.

    Exemplo 3.21 (Estimadores para Varincia). SejaX1, . . . , Xn uma amostrade vaiid com X1 Normal(, 2). A distribuio normal est na famlia dedistribuies exponenciais e as estatsticas

    ni=1X

    2i e X so sucientes e com-pletas. Na Proposio 3.11 foi mostrar que S2 no viesado para 2. Noteque

    S2 =1

    n 1ni=1

    (Xi X)2 = 1n 1

    ni=1

    (X2i + X2 2XiX)

    =1

    n 1

    (ni=1

    X2i nX2)

    =n

    n 1

    (ni=1

    X2in X2

    ),

    logo, como S2 baseado em uma estattica suciente e completa, tem-se que S2

    ENVVUM para 2 e seu erro quadrtico mdio

    EQMS2(2) = V ar(S2).

    No Exemplo 2.7 foi deixado como exerccio mostrar que

    n 12

    S2 2n1.

    A varincia da distribuio 2n1 2(n 1), logo

    V ar(S2) = V ar

    (2

    n 1n 12

    S2)

    =4

    (n 1)2V ar(n 12

    S2)

    =4

    2(n 1) .

    61

  • Considere agora o EMV para 2, obtido no Exemplo 3.8, e reproduzido abaixo:

    2 =1

    n

    ni=1

    (Xi X)2 = n 1n

    S2.

    O valor esperado de 2

    E[2] =n 1n

    E(S2) =n 1n

    2,

    sendo, portanto, um estimador viesado para 2. Alm disso,

    V ar(2) =

    (n 1n

    )2V ar(S2) =

    n 12n2

    4.

    Com os resultados acima, tem-se que

    EQM2(2) = V ar(2) + (E(2) 2)2

    =n 12n2

    4 +

    (n 1n

    2 2)2

    =4

    n2

    (n 1

    2+ 1

    )=4(n+ 1)

    2n2,

    logo,

    EQMS2(2)

    EQM2(2)=

    4

    2(n 1) 2n2

    4(n+ 1)

    =n2

    n2 1 > 1.

    Por tanto, se o critrio para escolha do melhor estimador for o erro quadrtico

    mdio, 2 a melhor escolha, mesmo sendo o estimador S2 o ENVVUM para2.

    3.3 Estimao Pontual Bayesiana

    Na inferncia bayesiana uma estimativa pontual para tem o objetivo de suma-rizar a informao subjetiva sobre aps a observao dos dados, representadapela distribuio a posteriori. Antes de discutir alguns mtodos de estimao,

    importante discutir como o processo de atualizao da informao atravs do

    Teorema de Bayes preserva algumas boas caractersticas estudadas no Captulo

    2.

    62

  • Teorema 3.26. Seja X1, . . . , Xn uma amostra de variveis aleatrias com dis-tribuio conjunta representa por f(x|) e seja f() a distribuio a prioripara . Ento, para qualquer estatstica suciente minimal T , a distribuio aposteriori de escrita como funo da amostra atravs de T .

    Proof. Seja T uma estatstica suciente qualquer. Pelo Teorema do Critrio daFatorao (Teorema 2.4) tem-se que

    f(x)| = h(x)g(T (x),).

    Ento,

    f(|x) h(x)g(T (x),)f() g(t|)f(),logo, a distribuio a posteriori funo da amostra atravs de T .

    Portanto, inferncias baseadas na distribuio a posteriori sempre so baseadas

    em estatsticas sucientes.

    Uma vez que aleatrio, utilizamos estimadores bayesianos para represen-tar um valor tpico de . Exemplos de estimadores so:

    max f(|x) E|x(|x) Mediana(|x).

    Note que todos os estimadores acima realmente so estatsticas (no dependem

    de termos desconhecidos). O primeiro recebe o nome de mximo posteriori

    (MAP). Na seo ?? vimos que estimadores baseados em estatsticas sucientes

    possuem boas propriedades. Uma das vantagens de utilizarmos a distribuio

    a posteriori para realizar inferncias e que ela sempre baseada em estatisticas

    sucientes.

    Proposio 3.27. Seja T (X) uma estatistica suciente para . Ento |x e|T (x) tem a mesma distribuio.

    Proof. Exerccio.

    Vimos anteriormente que um estimador podia ser avaliado por uma funo

    de perda. No caso frequentista o EQM foi utilizado e a avaliao de seu valor

    sob era recomendada. A denio abaixo mostra um anlogo bayeisano aoEQM

    63

  • Denio 3.28 (EQMP). Seja T (X) um estimador para h(). Erro quadrticomdio da posteriori deste estimador

    E|x[(T (x) h())2].Exemplo 3.22. Notemos que o EQMP pode ser reescrito como

    E|x[(T (x) h())2] = (T (x) E|x(h()))2 + E|x[h() E|x(h())]2.Consideremos X1, . . . , Xn| Normal(, 1) e Normal(, 1) e seja h() = .Ento,

    EQMP (T, ) = (T E|x())2 + E|x[ E|x()]2.Claramente, o estimador T que minimiza o EQMP dado por T = E|x().Notando que

    f(|x) exp{n

    2( x)2 1

    2( )2

    } exp

    {n+ 1

    2( nx+

    n+ 1)

    },

    teremos que |x Normal(nx/(n+1)+/n+1, 1n+1 ) e o estimador que minimizao EQMP ser

    T (X) = nx

    n+ 1+

    n+ 1.

    Por ltimo, suponha que queremos realizar alguma inferncia em relao

    = h(). Ento, devemos utilizar nosso conhecimento de probabilidade paracalcular f(|x) baseado da distribuio de |x.Exemplo 3.23. Seja X| Bernoulli() e suponha que queremos fazer infer-ncias sobre = /(1 ). Copnsiderando a conjugada Beta(1, 1), teremos

    f(|x) ni=1 xi(1 )n

    ni=1 xi ,

    logo |x Beta(ni=1 xi + 1, nni=1 xi + 1) ef(|x) =

    ni=1 xi

    [B(

    ni=1

    xi + 1, nni=1

    +1)(1 + )n+2

    ]1.

    3.3.1 Estimador de Bayes

    Na seo XXX havamos denido uma funo de perda como sendo uma funo

    que media o quo distante um estimador T estava de . Em especial, deni-mos a perda quadrtica como sendo (T )2 e seu respectivo valor esperadofoi denominado Erro Quadrtico Mdio - e sob esta medida, realizamos nossa

    discusso sobre estimadores pontuais na inferncia clssica.

    64

  • Poderamos ter desenvolvido a inferncia pontual a partir de outra funo

    de perda, obtendo assim resultados diferentes. Assim, seja P(T, ) uma funode perda associada ao estimador T , com o objetivo de estimar .

    Denio 3.29. Denimos como risco de T o valor esperado

    R(T, ) = EX|[P(T, )]. (3.11)

    Assim, por exemplo, o EQM o risco do estimador T associado a perdaquadrtica. Se voltarmos Seo XXX, lembraremos que o EQM podia variar

    para cada valor de . Aqui, podemos marginalizar o efeito de , gerando aseguinte denio.

    Denio 3.30. Considere a funo de perda P(T, ). Denimos o risco deBayes de T como sendo a funo

    BR(T ) = E[R(T, )]. (3.12)

    O estimador com o menor risco prefervel. Isto nos motiva seguinte

    denio.

    Denio 3.31. O estimador T que minimiza BR(T ) denominado estimadorde Bayes.

    Dentre todos os estimadores, o estimador de Bayes aquele com o menor

    risco, sendo assim um candidato natural a sumarizar a varivel .

    Proposio 3.32. Suponha que a funo de perda P(T, ) contnua em T eque podemos trocar a ordem das esperanas. Ento, igual a

    argmaxTE|x[P(T, )] o estimador de Bayes.

    Proof. Notemos que

    BR(T ) = EEX|[P(T, )] = EX,P(T, ) P(T, )f(x|)f()dxd =

    P(T, )f(|x)df(x)dx

    = EXE|X[P(T, )].Mas, para todo T , a relao abaixo verdadeira

    E|XP(T, ) E|XP(T , ) EXE|XP(T, ) EXE|XP(T , ),logo, o valor de T que maximiza E|xP(T, ) tamb maximiza BR(T ).

    65

  • 3.4 Exerccios

    Seo 3.1

    3.1. Seja X1 Geometrica(). Mostre que T (X) = I(X = 0) um estimadorno viesado para . Encontre o vis e a varincia deste estimador e discutasobre sua qualidade em termo de erro quadrtico mdio.

    Seo 3.2.1

    3.2. Demonstre o Teorema 3.9.

    3.3. Quando a distribuio tem dois parmetros, comum