multicolinearidade - ufprniveam/ce071/aula6mrlm.pdf · desempenho de entrevistadores em uma...

MULTICOLINEARIDADE

Se mais de duas covariáveis são altamente correlacionadas (2 a 2), multicolinearidade está presente nos dados

Exemplo teórico:Duas covariáveis perfeitamente correlacionadas: x

i1 = -10 + 2x

i2

(i = 1, 2, 3, 4)

→ não é possível, pelo método de MQ, ajustar um MRLM para esses dados→ por outro lado, dois modelos tem um ajuste perfeito

Modelo 1: Y = -87 + x1 + 18 x2

Modelo 2: Y = -7 + 9 x1 + 2 x2

( yi= yi ):

Problemas:

1) Multicolinearidade perfeita

→ ρ = 1 (entre todas as covariáveis, 2 a 2) → X' X não é inversível

2) Alto grau de multicolinearidade→ X' X é inversível mas mal condicionada (algoritmo pode ou não ser capaz de calcular a inversa aproximada)

* A inversa aproximada, pode ser altamente sensível a pequenas variações dos dados (devido aos efeitos de magnitude dos erros por arredondamento)

* Mesmo que (X' X)-1 seja estável, a presença de multicolineari-dade talvez continue sendo um problema

Outras consequências da Multicolinearidade:

1) estimação de βj pode ser muito imprecisa (sem acurácia), e

como o erro padrão de um afetado tendem a ser grande:

pode levar a não rejeitar H0: β

j = 0

eIC (β

j ) pode ser mais largo do que deveria ser

β j

2) MULTICOLINEARIDADE não vicia, de fato, as estimativas de β

j , mas:

se há qualquer outro problema que introduz vício, a multicolinearidade pode multiplicar

(em magnitude) os efeitos desse vício

Técnicas para identificar multicolinearidade:

1) Diagrama de dispersão de Xi e Xj (i ≠ j)→ pontos do gráfico ao redor de uma reta imaginária

2) Matriz de correlação amostral das covariáveis

→ , com rij = Corr

(Xi , Xj ) ; i ≠ j

3) Quando o sinal de alguma estimativa de βj é contrario ao

teoricamente suposto, multicolinearidade pode estar presente

rXX=[1 r12 … r 1 p

r12 1 … r 2 p

⋮ ⋮ ⋮ ⋮r p 1 r p 2 … 1 ]

|rij|≈1

4) Fator de inflação de variância (VIFj)

é o coeficiente de determinação parcial de Xj em relação as demais covariáveis (j = 1, 2, … , p)

Se Xj é linearmente depende das demais covariáveis:

regra prática:se VIFj > 10 então βj está pobremente estimado devido a multicolinearidade

VIF j = 1

1−R pj2

R pj2≈1⇒VIF j grande

R pj2

5) Análise dos autovalores da matriz rXXλ1, λ2, ... , λp → autovalores de rXX

Se covariáveis linearmente dependentes então um λj (ou mais) próximo(s) de zero

regra prática:Analisar k, o número de condição da matriz rXX :

solução da equação: det (rXX - λI)

k=max (λ1,λ2, ... ,λ p)

min(λ1,λ2, ... ,λ p)

k<100⇒ não existem problemas de multicolinariedade

100≤k≤1000⇒ moderada a forte multicolinearidadek>1000⇒ acentuada multicolinearidade

Exemplo 5:Desempenho de entrevistadores em uma pesquisa de aceitação de determinado produto Y : número de horas trabalhadasX1 : quantidade de entrevistas completadasX2 : percurso percorrido, em milhas

n = 14 entrevistadores

> summary(ajust)

Call:lm(formula = y ~ x1 + x2)⁞Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 0.7259 4.2984 0.169 0.869x1 1.8440 1.1275 1.635 0.130x2 0.6816 0.5154 1.323 0.213

Residual standard error: 5.969 on 11 degrees of freedomMultiple R-squared: 0.9077, Adjusted R-squared: 0.8909 F-statistic: 54.07 on 2 and 11 DF, p-value: 2.039e-06

Nenhum coeficiente foi significativo a 5%, mas o R2m

é alto

→ indícios de colinearidade entre X1 e X

2 :

*pode ser que o erro padrão de seja grande, e por consequência pode levar a não rejeitar H

0: β

j = 0

β j

5 10 15 20

10

20

30

40

50

X1

X2

Identificando colinearidade entre X1 e X

2

Figura 1 - Diagrama de dispersão de X1 e X2

Matriz de correlação amostral das duas covariáveis

Ajuste do modelo com X1 e X2 :

Y = 0,7259 + 1,8440x1 + 0,6816x2 (não indica colinearidade)

k = 48,42 < 100 (não indica colinearidade)

rXX=[ 1 0,95950,9595 1 ]

VIF 1 =VIF 2 = 12,61>10

#Exemplo 5 (Multicolinearidade no MRLM)x1 <- c(17, 6, 13, 11, 23, 16, 15, 5, 10, 12, 20, 12, 8, 8)x2 <- c(35.7, 11.4, 28.6, 25.8, 50.6, 27.2, 31.3, 10.0, 18.9, 25.2, 39.9, 32.5, 13.6, 19.0)y <- c(52.1, 24.6, 49.2, 30, 82.2, 42.4, 55.7, 21.1, 27.7, 36.3, 69.1, 38.8, 22.8, 34.7)dados<-data.frame(cbind(y,x1,x2))

#grafico de dispersao de X1 e X2plot(x1,x2,xlab=expression(X[1]),ylab=expression(X[2]),pch=20,cex=1.2)#matriz de correlação entre X1 e X2r_xx<-cor(dados[-1])r_xx

#Ajuste modelo com X1 e X2ajust <- lm(y~x1+x2) ; ajust

#Cálculo dos fatores de aumento da variânciarequire(car)vif(ajust)

#Cálculo dos autovalores da matriz de correlações das regressorasauto<-eigen(r_xx)autovalores<-auto$valuesk=max(autovalores)/min(autovalores)k

Contornando o problema da multicolinearidade:

1) Coleta adicional de dadosquando há poucas observações, pode-se tentar solucionar ou amenizar o problema de uma falsa relação linear entre X

i e X

j

*coletando mais dados pode desconfigurar a falsa relação linear entre as covariáveis*se for uma característica inerente as covariáveis, não resolve

Um exemplo que não resolve:Em um estudo de famílias, o interesse está em relacionar gasto mensal em alimentação (Y) com renda familiar (X1) e área útil da residência urbana (X2)

X1 e X2 estão fortemente correlacionados e é muito improvável encontrar uma família com renda alta e residência muito pequena

2) Reespecificação do modelo2a) redefinição de covariáveis → combinar duas ou mais covariáveis em uma, usando componentes principais ou medidas já conhecidas

Por exemplo: Índice de Massa Corporal = peso (kg) /altura (m)2)

Vantagem: preserva a informação contida nas covariáveis

2b) Eliminação de uma ou mais covariáveis → altamente efetiva, MAS há perda de informação

Por exemplo:Se X1, X2 e X3 forem multicolineares, eliminar X3, ou outra covariável pode ser útil, MAS em alguns casos pode afetar o efeito preditivo do modelo

Exemplo 5 (cont.)Analisando modelo com uma covariável de cada vez

> summary(ajust1)

Call:lm(formula = y ~ x1)⁞Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.7370 4.4306 0.166 0.871 x1 3.2749 0.3273 10.007 3.56e-07 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Comparando erro padrão de em dois modelos:

→ ajuste do modelo só com X1

Y = 0,737+ 3,2749x1

→ ajuste do modelo com X1 e X2 Y = 0,7259 + 1,8440x1 + 0,6816x2

erro padrão ^(β1)=0,3273


β 1

Grá

fico

s de

res

íduo

– m

odel

o só

com

X1

20 30 40 50 60 70

-10

-50

5

Diagrama de Dispersão

Predito

Res

iduo

-1 0 1

-10

-50

5

Q-Q Plot Normal

Quantis N(0,1)

Qua

ntis

Am

ostr

ais

20 30 40 50 60 70

-1.5

-0.5

0.5


Predito

Res

iduo

pad

roni

zado

20 30 40 50 60 70

-2.0

-1.0

0.0

1.0


Predito

Res

iduo

stu

dent

izad

o

6

>summary(ajust2)

Call:lm(formula = y ~ x2)⁞Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.5509 4.4313 0.576 0.575 x2 1.4904 0.1549 9.620 5.43e-07 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Comparando erro padrão de em dois modelos:

→ ajuste do modelo só com X2

Y = 0,737+ 3,2749x2

→ ajuste do modelo com X1 e X2 Y = 0,7259 + 1,8440x1 + 0,6816x2

erro padrão ^(''β2 '')=0,1549


β 2

Grá

fico

s de

res

íduo

– m

odel

o só

com

X2

20 30 40 50 60 70 80

-10

-50

5


Predito

Res

iduo

-1 0 1

-10

-50

5

Q-Q Plot Normal

Quantis N(0,1)

Qua

ntis

Am

ostr

ais

20 30 40 50 60 70 80

-2.0

-1.0

0.0

1.0


Predito

Res

iduo

pad

roni

zado

20 30 40 50 60 70 80

-2-1

01


Predito

Res

iduo

stu

dent

izad

o

12

multicolinearidade - ufprniveam/ce071/aula6mrlm.pdf · desempenho de entrevistadores em uma...

Documents