multicolinearidade - ufprniveam/ce071/aula6mrlm.pdf · desempenho de entrevistadores em uma...
TRANSCRIPT
MULTICOLINEARIDADE
Se mais de duas covariáveis são altamente correlacionadas (2 a 2), multicolinearidade está presente nos dados
Exemplo teórico:Duas covariáveis perfeitamente correlacionadas: x
i1 = -10 + 2x
i2
(i = 1, 2, 3, 4)
→ não é possível, pelo método de MQ, ajustar um MRLM para esses dados→ por outro lado, dois modelos tem um ajuste perfeito
Modelo 1: Y = -87 + x1 + 18 x2
Modelo 2: Y = -7 + 9 x1 + 2 x2
( yi= yi ):
Problemas:
1) Multicolinearidade perfeita
→ ρ = 1 (entre todas as covariáveis, 2 a 2) → X' X não é inversível
2) Alto grau de multicolinearidade→ X' X é inversível mas mal condicionada (algoritmo pode ou não ser capaz de calcular a inversa aproximada)
* A inversa aproximada, pode ser altamente sensível a pequenas variações dos dados (devido aos efeitos de magnitude dos erros por arredondamento)
* Mesmo que (X' X)-1 seja estável, a presença de multicolineari-dade talvez continue sendo um problema
Outras consequências da Multicolinearidade:
1) estimação de βj pode ser muito imprecisa (sem acurácia), e
como o erro padrão de um afetado tendem a ser grande:
pode levar a não rejeitar H0: β
j = 0
eIC (β
j ) pode ser mais largo do que deveria ser
β j
2) MULTICOLINEARIDADE não vicia, de fato, as estimativas de β
j , mas:
se há qualquer outro problema que introduz vício, a multicolinearidade pode multiplicar
(em magnitude) os efeitos desse vício
Técnicas para identificar multicolinearidade:
1) Diagrama de dispersão de Xi e Xj (i ≠ j)→ pontos do gráfico ao redor de uma reta imaginária
2) Matriz de correlação amostral das covariáveis
→ , com rij = Corr
(Xi , Xj ) ; i ≠ j
3) Quando o sinal de alguma estimativa de βj é contrario ao
teoricamente suposto, multicolinearidade pode estar presente
rXX=[1 r12 … r 1 p
r12 1 … r 2 p
⋮ ⋮ ⋮ ⋮r p 1 r p 2 … 1 ]
|rij|≈1
4) Fator de inflação de variância (VIFj)
é o coeficiente de determinação parcial de Xj em relação as demais covariáveis (j = 1, 2, … , p)
Se Xj é linearmente depende das demais covariáveis:
regra prática:se VIFj > 10 então βj está pobremente estimado devido a multicolinearidade
VIF j = 1
1−R pj2
R pj2≈1⇒VIF j grande
R pj2
5) Análise dos autovalores da matriz rXXλ1, λ2, ... , λp → autovalores de rXX
Se covariáveis linearmente dependentes então um λj (ou mais) próximo(s) de zero
regra prática:Analisar k, o número de condição da matriz rXX :
solução da equação: det (rXX - λI)
k=max (λ1,λ2, ... ,λ p)
min(λ1,λ2, ... ,λ p)
k<100⇒ não existem problemas de multicolinariedade
100≤k≤1000⇒ moderada a forte multicolinearidadek>1000⇒ acentuada multicolinearidade
Exemplo 5:Desempenho de entrevistadores em uma pesquisa de aceitação de determinado produto Y : número de horas trabalhadasX1 : quantidade de entrevistas completadasX2 : percurso percorrido, em milhas
n = 14 entrevistadores
> summary(ajust)
Call:lm(formula = y ~ x1 + x2)⁞Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 0.7259 4.2984 0.169 0.869x1 1.8440 1.1275 1.635 0.130x2 0.6816 0.5154 1.323 0.213
Residual standard error: 5.969 on 11 degrees of freedomMultiple R-squared: 0.9077, Adjusted R-squared: 0.8909 F-statistic: 54.07 on 2 and 11 DF, p-value: 2.039e-06
Nenhum coeficiente foi significativo a 5%, mas o R2m
é alto
→ indícios de colinearidade entre X1 e X
2 :
*pode ser que o erro padrão de seja grande, e por consequência pode levar a não rejeitar H
0: β
j = 0
β j
5 10 15 20
10
20
30
40
50
X1
X2
Identificando colinearidade entre X1 e X
2
Figura 1 - Diagrama de dispersão de X1 e X2
Matriz de correlação amostral das duas covariáveis
Ajuste do modelo com X1 e X2 :
Y = 0,7259 + 1,8440x1 + 0,6816x2 (não indica colinearidade)
k = 48,42 < 100 (não indica colinearidade)
rXX=[ 1 0,95950,9595 1 ]
VIF 1 =VIF 2 = 12,61>10
#Exemplo 5 (Multicolinearidade no MRLM)x1 <- c(17, 6, 13, 11, 23, 16, 15, 5, 10, 12, 20, 12, 8, 8)x2 <- c(35.7, 11.4, 28.6, 25.8, 50.6, 27.2, 31.3, 10.0, 18.9, 25.2, 39.9, 32.5, 13.6, 19.0)y <- c(52.1, 24.6, 49.2, 30, 82.2, 42.4, 55.7, 21.1, 27.7, 36.3, 69.1, 38.8, 22.8, 34.7)dados<-data.frame(cbind(y,x1,x2))
#grafico de dispersao de X1 e X2plot(x1,x2,xlab=expression(X[1]),ylab=expression(X[2]),pch=20,cex=1.2)#matriz de correlação entre X1 e X2r_xx<-cor(dados[-1])r_xx
#Ajuste modelo com X1 e X2ajust <- lm(y~x1+x2) ; ajust
#Cálculo dos fatores de aumento da variânciarequire(car)vif(ajust)
#Cálculo dos autovalores da matriz de correlações das regressorasauto<-eigen(r_xx)autovalores<-auto$valuesk=max(autovalores)/min(autovalores)k
Contornando o problema da multicolinearidade:
1) Coleta adicional de dadosquando há poucas observações, pode-se tentar solucionar ou amenizar o problema de uma falsa relação linear entre X
i e X
j
*coletando mais dados pode desconfigurar a falsa relação linear entre as covariáveis*se for uma característica inerente as covariáveis, não resolve
Um exemplo que não resolve:Em um estudo de famílias, o interesse está em relacionar gasto mensal em alimentação (Y) com renda familiar (X1) e área útil da residência urbana (X2)
X1 e X2 estão fortemente correlacionados e é muito improvável encontrar uma família com renda alta e residência muito pequena
2) Reespecificação do modelo2a) redefinição de covariáveis → combinar duas ou mais covariáveis em uma, usando componentes principais ou medidas já conhecidas
Por exemplo: Índice de Massa Corporal = peso (kg) /altura (m)2)
Vantagem: preserva a informação contida nas covariáveis
2b) Eliminação de uma ou mais covariáveis → altamente efetiva, MAS há perda de informação
Por exemplo:Se X1, X2 e X3 forem multicolineares, eliminar X3, ou outra covariável pode ser útil, MAS em alguns casos pode afetar o efeito preditivo do modelo
Exemplo 5 (cont.)Analisando modelo com uma covariável de cada vez
> summary(ajust1)
Call:lm(formula = y ~ x1)⁞Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.7370 4.4306 0.166 0.871 x1 3.2749 0.3273 10.007 3.56e-07 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.153 on 12 degrees of freedomMultiple R-squared: 0.893, Adjusted R-squared: 0.8841 F-statistic: 100.1 on 1 and 12 DF, p-value: 3.555e-07
Comparando erro padrão de em dois modelos:
→ ajuste do modelo só com X1
Y = 0,737+ 3,2749x1
→ ajuste do modelo com X1 e X2 Y = 0,7259 + 1,8440x1 + 0,6816x2
erro padrão ^(β1)=0,3273
erro padrão ^(β1)=1,1275
β 1
Grá
fico
s de
res
íduo
– m
odel
o só
com
X1
20 30 40 50 60 70
-10
-50
5
Diagrama de Dispersão
Predito
Res
iduo
-1 0 1
-10
-50
5
Q-Q Plot Normal
Quantis N(0,1)
Qua
ntis
Am
ostr
ais
20 30 40 50 60 70
-1.5
-0.5
0.5
Diagrama de Dispersão
Predito
Res
iduo
pad
roni
zado
20 30 40 50 60 70
-2.0
-1.0
0.0
1.0
Diagrama de Dispersão
Predito
Res
iduo
stu
dent
izad
o
6
>summary(ajust2)
Call:lm(formula = y ~ x2)⁞Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.5509 4.4313 0.576 0.575 x2 1.4904 0.1549 9.620 5.43e-07 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.372 on 12 degrees of freedomMultiple R-squared: 0.8852, Adjusted R-squared: 0.8757 F-statistic: 92.55 on 1 and 12 DF, p-value: 5.432e-07
Comparando erro padrão de em dois modelos:
→ ajuste do modelo só com X2
Y = 0,737+ 3,2749x2
→ ajuste do modelo com X1 e X2 Y = 0,7259 + 1,8440x1 + 0,6816x2
erro padrão ^(''β2 '')=0,1549
erro padrão ^(β2)=0,5154
β 2
Grá
fico
s de
res
íduo
– m
odel
o só
com
X2
20 30 40 50 60 70 80
-10
-50
5
Diagrama de Dispersão
Predito
Res
iduo
-1 0 1
-10
-50
5
Q-Q Plot Normal
Quantis N(0,1)
Qua
ntis
Am
ostr
ais
20 30 40 50 60 70 80
-2.0
-1.0
0.0
1.0
Diagrama de Dispersão
Predito
Res
iduo
pad
roni
zado
20 30 40 50 60 70 80
-2-1
01
Diagrama de Dispersão
Predito
Res
iduo
stu
dent
izad
o
12