encontro anipes 2014

Upload: pedro-albuquerque

Post on 11-Oct-2015

22 views

Category:

Documents


0 download

DESCRIPTION

Palestra sobre Imputação de dados em pesquisas amostrais.

TRANSCRIPT

  • 5/20/2018 Encontro Anipes 2014

    1/65

    Curso de ImputaoPedro Albuquerque

    Universidade de Braslia

  • 5/20/2018 Encontro Anipes 2014

    2/65

    Agenda

    1) Introduo a imputao de dados.

    2) Conceitos bsicos de amostragem.

    3) Conceitos bsicos de imputao de dados.

    4) Vis resultante da no-resposta.

    5) Principais mtodos para o tratamento de no-resposta

  • 5/20/2018 Encontro Anipes 2014

    3/65

  • 5/20/2018 Encontro Anipes 2014

    4/65

  • 5/20/2018 Encontro Anipes 2014

    5/65

  • 5/20/2018 Encontro Anipes 2014

    6/65

  • 5/20/2018 Encontro Anipes 2014

    7/65

  • 5/20/2018 Encontro Anipes 2014

    8/65

  • 5/20/2018 Encontro Anipes 2014

    9/65

  • 5/20/2018 Encontro Anipes 2014

    10/65

  • 5/20/2018 Encontro Anipes 2014

    11/65

  • 5/20/2018 Encontro Anipes 2014

    12/65

  • 5/20/2018 Encontro Anipes 2014

    13/65

  • 5/20/2018 Encontro Anipes 2014

    14/65

  • 5/20/2018 Encontro Anipes 2014

    15/65

  • 5/20/2018 Encontro Anipes 2014

    16/65

  • 5/20/2018 Encontro Anipes 2014

    17/65

  • 5/20/2018 Encontro Anipes 2014

    18/65

  • 5/20/2018 Encontro Anipes 2014

    19/65

  • 5/20/2018 Encontro Anipes 2014

    20/65

  • 5/20/2018 Encontro Anipes 2014

    21/65

  • 5/20/2018 Encontro Anipes 2014

    22/65

  • 5/20/2018 Encontro Anipes 2014

    23/65

    No-resposta

    A imputao surge como uma ferramenta para o tratamentoresposta.

    O primeiro passo no sentido de obter a participao de uma

    na amostra de uma pesquisa fazer contato. Se isso nopossvel, voc tem no-resposta devido falta de cont

    Encontrada a observao de interesse essa pode ou no colcom a pesquisa, caso essa no colabore, voc tem um caso resposta, devido recusa.

  • 5/20/2018 Encontro Anipes 2014

    24/65

    No-resposta

    Mesmo que a pessoa amostrada deseje colaborar, isso nempossvel, devido a doenas, problemas de linguagem ou instNesse caso a no-resposta devido a incapacidade drespondente.

    E o ltimo caso ocorre quando o indivduo selecionado se reresponder, ou no sabe, a informao de alguma(s) pergunt

    especficas: Voc a favor ou contra a legalizao do aborto ? Voc a favor da reduo da maioridade penal ? Qual a sua renda ? Voc j cometeu algum crime ?

  • 5/20/2018 Encontro Anipes 2014

    25/65

    No-resposta na estimao demedidas. Suponha que a populao em geral fique constrangida a r

    ser favorvel a legalizao do aborto.

    Nesse caso, pode acontecer da maioria da no-reposta ser dfavorveis a legalizao do aborto, e se essa parcela da popumaior do que a parcela contrria, os resultados obtidos podum vis.

    Consequentemente, o pesquisador chegaria a concluses ercaso a no-reposta no fosse adequadamente tratada.

  • 5/20/2018 Encontro Anipes 2014

    26/65

    Qual a sua renda ?

  • 5/20/2018 Encontro Anipes 2014

    27/65

    Informaes do responden

    Carro Casa

  • 5/20/2018 Encontro Anipes 2014

    28/65

    Imputao de dados.

    Um mtodo de tratamento de no-resposta de item a imp

    qual fornece meios de substituir o valor faltante de uma varinteresse por um valor imputado (ou esperado) para o mesmindivduo.

    Ento, no nosso exemplo, caractersticas como: Carro usado. Tamanho da casa. Nmero de quartos. Trabalho exercido

    Podem fornecer pistas quanto ao valor da renda omitido peparticipante.

  • 5/20/2018 Encontro Anipes 2014

    29/65

    Evitando a no-resposta.

    Melhor do que imputarvalores as variveis pesquisadas e evitarque essa no-reposta ocorra.

    Nesse sentido, h alguma estratgias que podem ser utilizad

    Aumento do tamanho amostral.

    Callbacks e Follow-ups.

    Subamostras de no-respondentes.

    Respostas randomizadas.

  • 5/20/2018 Encontro Anipes 2014

    30/65

    Aumento do tamanho amostral.

    Suponha que a amostra calculada necessria para a pesquis1000 respondentes, considere ainda que na cidade em quesum percentual histrico de 30% de no-respostas, ento, o ?

    Nesse caso, uma soluo bvia aumentar o tamanho da am30%, esperando obter uma amostra total efetiva de 1000

    respondentes ? Ser que essa abordagem reduz o vis de constrangimento o

    em reponder ?

  • 5/20/2018 Encontro Anipes 2014

    31/65

    Callbacks e Fol low -up s.

    Callbacks Nas pesquisa pessoais, o primeiro

    contato com um potencialrespondente pode ser sem sucessopor uma variedade de razes.

    Por exemplo, ningum pode estar

    em casa, a pessoas selecionadapode estar doente, ou viajando.

    Caso o primeiro contato seja semsucesso, e comum ligar para aresidncia e insistir na visita.

    Follow-ups Nas pesquisas por cart

    (correspondncia), segcartas at seus destinoinsiste-se no preenchimquestionrio, em geralsugesto de sorteios opara aqueles que respocompletamente o ques

  • 5/20/2018 Encontro Anipes 2014

    32/65

    Callbacks e Fol low -ups .

    Algumas questes:1) Por que no podemos simplesmente substituir a observao deseseu vizinho se no conseguimos encontr-la ?

  • 5/20/2018 Encontro Anipes 2014

    33/65

    Callbacks e Fol low -ups .

    Algumas questes:2) A distribuio de brindes e sorteios para quem preencher compo questionrio pode enviesar a pesquisa ?

    Em princpio, alguns estudos sugerem que a distribuio de brindes instrumentos de motivao na resposta de questionrios no afeta ada pesquisa e ainda fornece um tamanho amostral efetivo maior.

    Ex: Goritz, A. (2004). The impact of material incentives on responseresponse quality, sample composition, survey outcome and cost inaccess panels.INTERNATIONAL JOURNAL OF MARKET RESEARCH., 4

    Proposta de processo para amostra

  • 5/20/2018 Encontro Anipes 2014

    34/65

    Proposta de processo para amostraVerificar a elegibilidade da unidade amostral.

    Contatar a unidade amostral selecionada.

    Determine os possveis informantes da unidade selecionada.

    Selecione o respondente.

    Contate entrevistado e avalie a sua capacidade de responder.

    Realize a entrevista.

    Utilize de persuaso para evitar a relutncia em responder.

  • 5/20/2018 Encontro Anipes 2014

    35/65

    Subamostras de no-respondentes.

    Uma outra proposta dividir o plano amostral em mais de u

    etapa, selecionando uma subamostra de no-respondentetentar novamente resposta ao questionrio.

    Caso seja muito oneroso ir a campo e tentar encontrconvencer os respondentes faltantes, pode-se fazer uma adas observaes faltantes.

    Conjunto dosNo-repondentes

    Subamostra dosNo-repondentes

  • 5/20/2018 Encontro Anipes 2014

    36/65

    Subamostras de no-respondente

    Observaes: preciso corrigir os pesos amostrapara os elementos dessa subamo

    Um cadastro atualizado e bem ajuspode evitar a no-reposta por faltacontato.

  • 5/20/2018 Encontro Anipes 2014

    37/65

    Respostas randomizadas.

    E quanto as questes sensveis ?

    Voc a favor da legalizao do aborto ?

    Voc contra a legalizao das drogas ?

    A maioridade penal deveria ser reduzida ?

  • 5/20/2018 Encontro Anipes 2014

    38/65

    Respostas randomizadas.

    Uma das formas de incentivar a resposta sincera sobre ques

    sensveis na pesquisa garantindo que os respondenteesses no sero identificados, e portanto, annimos.

    Uma sugesto complementar o uso de respostas randomi

    (randomized response).

    A ideia do mtodo fornecer certa anonimicidade em relaentrevistador.

  • 5/20/2018 Encontro Anipes 2014

    39/65

    Respostas randomizadas.

    Por exemplo, suponha que a pergunta sensvel a um entreviVoc usou drogas ilcitas esse ms ?.

    Antes que o entrevistado responda, pedimos a ele que lancemoeda.

    Pedimos a ele que responda SIM se sair CARA na moeda, e VERDADE se sair COROA na moeda.

  • 5/20/2018 Encontro Anipes 2014

    40/65

    Respostas randomizadas.

    S o respondente tem acesso ao lanamento da moeda, en

    somente ele sabe se a resposta que ele deu devido ao resmoeda ou de sua experincia.

    muito importante assumir que as pessoas que tiraram COmoeda vo responder a verdade, caso contrrio, o entrevist

    ser capaz de especular a resposta real.

    Admitindo uma moeda honesta, metade dos respondentes CARA e a outra metade COROA.

  • 5/20/2018 Encontro Anipes 2014

    41/65

    Respostas randomizadas.

    Portanto, metade das pessoas iro responder "sim",

    independentemente de terem usado drogas ou no. A outrair responder a verdade segundo sua experincia.

    Ento uma vez obtida a proporo de nos na pesquisa, aestimativa populacional ser o dobro desse valor, porque asque as duas metades so igualmente provveis.

    Por exemplo, se 20% da populao pesquisada disse "no",verdadeira proporo daqueles que no usaram drogas no ms de 40%.

  • 5/20/2018 Encontro Anipes 2014

    42/65

    Respostas randomizadas.

    SIM

    SIM

    No

    50%

    50%

    20%

    80%

  • 5/20/2018 Encontro Anipes 2014

    43/65

    Imputao de dados.

    Nem sempre possvel evitar a no-resposta no incio da pe

    usualmente, por ser muito oneroso ou o perodo de cter sido encerrado.

    Nesse caso, precisamos trabalhar com as observaesefetivamente obtidas.

    Os questionrios sem nenhuma resposta so perdidaqueles questionrios com respostas parciais podeimputados.

    H alguns padres clssicos para

  • 5/20/2018 Encontro Anipes 2014

    44/65

    H alguns padres clssicos parano-respostas em pesquisas:

    Padro montono. Padro no-montono.

  • 5/20/2018 Encontro Anipes 2014

    45/65

    Imputao de dados.

    Quando um conjunto de dados no nem mone nem no-montono ele denominado :padarbitrrio de valores faltantes.

    Essa tipologia importante, pois os mtodos dimputao disponveis na maioria dos softwadepende da estrutura apresentadaou assumios dados da pesquisa.

  • 5/20/2018 Encontro Anipes 2014

    46/65

    Imputao de dados.

    Outras caractersticas possveis so:

    1. Missing at RandomNesse caso a ausncia de valoressomente das variveis observadas na pesquisa.

    2. Missing Completely at RandomNesse caso, a ausncvalores na pesquisa no depende de qualquer varivel obsepesquisa.

    3. Not Missing at RandomNesse caso, assume-se que oausentes dependem tanto de informaes observadas na pebem como valores no observados.

  • 5/20/2018 Encontro Anipes 2014

    47/65

    Qual a sua renda ?

    I f d d

  • 5/20/2018 Encontro Anipes 2014

    48/65

    Informaes do responden

    Carro Casa

    I t d d d

  • 5/20/2018 Encontro Anipes 2014

    49/65

    Imputao de dados.

    O mtodo mais simples e antigo para tratar no resposta o

    Consiste basicamente de deletar da base de dados todas aobservaes que contenham pelo menos um valor faltante

    Fonte: Allison, P. D. (2001). Missing Data. Sage University PaSeries on Quantitative Applications in the Social Sciences. 07Thousand Oaks, CA: Sage.

    I t d d d

  • 5/20/2018 Encontro Anipes 2014

    50/65

    Imputao de dados.

    O problema do mtodo listwise evidente:

    1) Pode reduzir em muito o tamanho amostral.

    2) Pode induzir em vis, caso o subgrupo de no-respondenapresente uma caracterstica distinta das observaes restabase de dados.

    J os pontos a favor so: 1) Facilidade de implementao.

    2) Ausncia de estimadores complexos.

    I t d d d

  • 5/20/2018 Encontro Anipes 2014

    51/65

    Imputao de dados.

    Outra abordagem simplista para a imputao de dados a

    substituio dos valores faltantes pela mdia obseramostra para a varivel de interesse:

    Observao Idade Gnero Renda Anual

    1 29 H R$ 40,000.002 45 H R$ 36,000.003 81 H --missing--

    4 22 --missing-- R$ 16,000.005 41 H R$ 98,000.006 33 M R$ 60,000.007 22 M R$ 24,000.008 --missing-- M R$ 81,000.009 33 M R$ 55,000.0010 45 M R$ 80,000.00

    I t d d d

  • 5/20/2018 Encontro Anipes 2014

    52/65

    Imputao de dados.

    No exemplo apresentado, substitumos o valor da renda falt

    R$ 54,444.44, a idade faltante por 39e o gnero faltante peM.

    Observao Idade Gnero Renda Anual1 29 H R$ 40,000.002 45 H R$ 36,000.003 81 H R$ 54,444.44

    4 22 M R$ 16,000.005 41 H R$ 98,000.006 33 M R$ 60,000.007 22 M R$ 24,000.008 39 M R$ 81,000.009 33 M R$ 55,000.0010 45 M R$ 80,000.00

    I t d d d

  • 5/20/2018 Encontro Anipes 2014

    53/65

    Imputao de dados.

    A ideia por detrs do mtodo mean imputation a de subst

    valor faltante por algum outro valor que no prejudique asestimativas totais populacionais.

    Dessa forma, no precisaramos deletar a observao comfaltante, isso particularmente til quando tem-se um tamaamostral reduzido.

    Fonte: Donders, A. Rogier T., et al. "Review: a gentle introduimputation of missing values." Journal of clinical epidemiolo(2006): 1087-1091.

    I t d d d

  • 5/20/2018 Encontro Anipes 2014

    54/65

    Imputao de dados.

    O problema do mtodo de imputao pela mdia :

    1) Abordagem ingnua que no considera demais covarive

    2) Como a mdia afetada por valores extremos, o valor impode estar comprometido.

    J os pontos a favor so:

    1) Facilidade de implementao. 2) Ausncia de estimadores complexos.

    3) Mantm-se todas as observaes na base de dados.

    Imputao de dados

  • 5/20/2018 Encontro Anipes 2014

    55/65

    Imputao de dados.

    Podemos estender a ideia do mtodo anterior utilizando um

    condicional. Por exemplo, considere novamente o nosso exemplo :

    Sabendo dessas informaespodemos estimar uma renda

  • 5/20/2018 Encontro Anipes 2014

    56/65

    podemos estimar uma rendamdia ?Carro Casa

    Imputao de dados

  • 5/20/2018 Encontro Anipes 2014

    57/65

    Imputao de dados. De igual modo, considerando a base de dados:

    E admitindo que a renda anual possa ser prevista por meio da temos:

    Observao Idade Gnero Renda Anual

    1 29 H R$ 40,000.002 45 H R$ 36,000.003 81 H --missing--4 22 --missing-- R$ 16,000.005 41 H R$ 98,000.006 33 M R$ 60,000.007 22 M R$ 24,000.00

    8 --missing-- M R$ 81,000.009 33 M R$ 55,000.0010 45 M R$ 80,000.00

    Imputao de dados

  • 5/20/2018 Encontro Anipes 2014

    58/65

    Imputao de dados.

    R$ 0.00

    R$ 20,000.00

    R$ 40,000.00

    R$ 60,000.00

    R$ 80,000.00

    R$ 100,000.00

    R$ 120,000.00

    20 25 30 35 40 45

    Idade x Renda

    Imputao de dados

  • 5/20/2018 Encontro Anipes 2014

    59/65

    Imputao de dados.

    y = 2096.2x - 19622

    R$ 0.00

    R$ 20,000.00

    R$ 40,000.00

    R$ 60,000.00

    R$ 80,000.00

    R$ 100,000.00

    R$ 120,000.00

    20 25 30 35 40 45

    Idade x Renda

    R$ 120,000.00Idade x Renda

  • 5/20/2018 Encontro Anipes 2014

    60/65

    R$ 0.00

    R$ 20,000.00

    R$ 40,000.00

    R$ 60,000.00

    R$ 80,000.00

    R$ 100,000.00

    20 30 40 50 60 70

    Imputao de dados

  • 5/20/2018 Encontro Anipes 2014

    61/65

    Imputao de dados.

    Ento, o ideal considerar mtodos de imputao mltiplos

    fornecem ferramentas adequadas dependendo do padro dapresentado pelas bases de dados.

    Devido a capacidade do processo de imputao mltipla deincorporar tcnicas estatisticamente sofisticadas e amostrar

    plausveis para as observaes faltantes considerando variaintroduzida pelo processo de seleo essa abordagem a mpara se imputar valores faltantes.

    Literatura indicada

  • 5/20/2018 Encontro Anipes 2014

    62/65

    Literatura indicada

    Rubin, Donald B. Multiple imputation for nonresponse in surveysJohn Wiley & Sons, 2004.

    Literatura indicada

  • 5/20/2018 Encontro Anipes 2014

    63/65

    Literatura indicada

    Srndal, Carl-Erik, and Sixten Lundstrm. Estimation in surveys wnonresponse. John Wiley & Sons, 2005.

    Literatura indicada

  • 5/20/2018 Encontro Anipes 2014

    64/65

    Literatura indicada

    Groves, Robert M., and Mick P. Couper. Nonresponse in househointerview surveys. John Wiley & Sons, 2012.

    Curso de Imputao (Parte 2)

  • 5/20/2018 Encontro Anipes 2014

    65/65

    Curso de Imputao (Parte 2)

    1) Viso Geral de um Sistema de crtica e imputao. 2) Introduo metodologia utilizada pelo CANCEIS (Softwa

    Crtica e Imputao) .

    3) Exemplos de utilizao do CANCEIS para crtica e imputapesquisas do IBGE (Censo, Censo Agropecurio, PNAD e POF

    4) Exemplo prtico de utilizao do CANCEIS para crtica e imde dados em um subconjunto da PNAD 2012.