universidade federal de minas gerais instituto de ciências exatas curso de estatística laís...
TRANSCRIPT
Universidade Federal de Minas GeraisInstituto de Ciências Exatas
Curso de Estatística
Laís Araújo Lopes de Souza Samantha Faasen Vagner Júnio Ferreira Prof.: Glaura Franco
Belo Horizonte, 11 de junho de 2012.
Roteiro
o Regressão Múltipla
o Resíduos
o Resíduos Estudentizados
o Ajuste do Modelo
o Exemplo
o Bootstrap nos resíduos
o Algoritmo Bootstrap resíduos
o ANOVA
o Gráficos
o Coeficientes
o Exercício
o Bibliografia
Regressão Múltipla
o Técnicas estatísticas para construir modelos que descrevem de
maneira razoável relações entre várias variáveis explicativas de um
determinado processo.
o Alguns objetivos:
Descrever a relação entre variáveis para entender um processo ou
fenômeno
Prever o valor de uma variável a partir do conhecimento de outras
variáveis
Substituir a medição de uma variável pelo conhecimento de outras
variáveis
Controlar os valores de uma variável em uma faixa de interesse
Regressão Múltipla
o Modelo
o valores das variáveis explicativas, isto é, constantes desconhecidas
o são parâmetros ou coeficientes da regressão
o erro aleatório do modelo, com média zero e variância
Suposições do Modelo
Suposições:
i) O erro tem média zero e variância desconhecida
ii) Os erros são não correlacionados
iii) Os erros têm distribuição normal
iv) As variáveis regressoras assumem valores fixos
Significado dos coeficientes de regressão
o O parâmetro 0 é o intercepto do plano de regressão
o O parâmetro 1 indica a mudança na resposta média E(Y) por unidade de acréscimo em X1 quando X2 é mantido constante. Da mesma forma 2 indica a mudança na resposta média por unidade de aumento em X2 quando X1 é mantido constante e assim sucessivamente
7
Modelo de regressão linear múltipla em termos matriciais
... 1,122110 ipipiii XXXY
A expressão do modelo linear geral de regressão é dada por:
Em termos matriciais, precisamos definir:
n
ppnn
p
p
n XX
XX
XX
Y
Y
Y
.
.
.
.
.
..1
.....
.....
.....
..1
..1
.
.
2
1
1
1
0
1 x p
1,1
1,221
1,111
pn x
2
1
1n x 1n x
εβXY
8
Em termos matriciais, o modelo de regressão linear geral é dado
por: εXβY e é um vetor de variáveis aleatórias independentes e normalmente
distribuídas com esperança (média), E()=0 e matriz de variância-covariância dada por:
2
2
2
2
.00
....
0.0
0.0
)(
εσ
Assim, o vetor das observações Y tem esperança e variância dadas por:
IYσXβYE 22 )()( n x n1 x n
=2I
Resíduos
o Diagnóstico para a variável resposta é realizado através
de uma análise de resíduos. Os resíduos são definidos
como:
o Os resíduos podem ser considerados como erros
observados, para distingui-los do erro verdadeiro
desconhecido i no modelo de regressão:
Resíduos
o Para o modelo de regressão, temos a seguinte
pressuposição:
o Se o modelo é adequado, os resíduos devem refletir
essas propriedades
),0( 2~ Niid
i
Propriedades dos resíduos
o Média
o Variância
o Se o modelo está adequado, o QME é um estimador
não tendencioso da variância do erro
Propriedades dos resíduos
o Os resíduos não são variáveis aleatórias
independentes pois eles envolvem os valores os
quais são baseados na mesma equação de regressão
o Quando o tamanho da amostra é grande, o efeito de
dependência entre os resíduos é relativamente sem
importância e pode ser ignorado.
Resíduos Estudentizados
Vantagens
o Os resíduos estudentizados tem variâncias constantes e iguais a 1, o que consequentemente torna muito prática a procura por outliers
o Apropriado para verificar normalidade dos erros e homogeneidade
Desvantagem
o Dificuldade de detectar violações do modelo, uma vez que esses resíduos são menores
Ajuste do Modelo
o Análise Gráfica dos Resíduos
o 1. Gráfico dos resíduos versus variáveis preditoras
o 2. Gráfico dos resíduos absolutos ou quadráticos versus
variáveis preditoras
o 3. Gráficos dos resíduos versus valores ajustados (estimados)
o 4. Gráfico normal de probabilidades dos resíduos.
o Testes Estatísticos
Exemplo
o Dados referentes à doença de Chagas
o Variável resposta - Prazo para chegar ao hospital
o Variáveis explicativas – Tempo e Distância
Modelo:
Bootstrap nos resíduos
o 1- Ajustar o modelo e reter os valores ajustados e os resíduos
, i=1,...,n.
o 2- Para cada par na qual x é a variável explicativa
(possivelmente multivariada)adicionar um resíduo reamostrado
residual, para a variável resposta aleatoriamente .Em outras
palavras, criar variáveis respostas sintéticas , para a variável
resposta, , onde j é selecionado aleatoriamente a partir
da lista para cada i.
o 3- Volte a colocar o modelo usando as variáveis de resposta fictícios
e manter as quantidades de interesse (muitas vezes os
parâmetros estimada a partir dos sintéticos ).
o 4- Repetir os passos 2 e 3 um número estatisticamente significativo
de vezes.
Algoritmo Bootstrap resíduos
ANOVA
Diagrama de Dispersão
Gráfico resíduos versus valores ajustados
o Homocedasticidade isto é, constante
Gráfico resíduos Estudentizados versus valores ajustados
o Homocedasticidade
Gráfico resíduos versus Casos
o Independência
Gráfico resíduos Estudentizados versus Casos
o Independência
Gráfico resíduos versus Distância
o Independência
Gráfico resíduos Estudentizados versus Distância
o Independência
Gráfico de Probabilidade Normal dos resíduos
o Resíduos Normais
Gráfico de Probabilidade Normal dos resíduos Estudentizados
o Resíduos não Normais
Teste de Normalidade Resíduos
Teste de Normalidade resíduos Estudentizados
Coeficientes
Exercício
o Realize o Bootstrap conforme o procedimento descrito anteriormente e calcule o vício dos parâmetros.
Bibliografia
o Chernick, M. R., Labudde, R. A., 2011. An Introduction to Bootstrap Methods with Applications to R. John Willey and Sons
o Efron B, Tibshirani R. 1993. An Introduction to the bootstrap. New York: Chapman and Hall