Regressão Linear Simples
Econometria
Alexandre Gori Maia
Bibliografia Básica:
Maia, Alexandre Gori (2017). Econometria: conceitos e aplicações. Cap. 1-3; 5.
Ementa:
• Definição;
• Estimador de MQO para RLS;
• Teorema de Gauss-Markov;
• Variância dos Estimadores;
• Teste t para os coeficientes;
• Análise de Varância
Mínimos Quadrados - EQT
Y1
1 Passo) Definir Erro Quadrático Total:
Y2 Y3 Y4 Y5
e1
e2
e3e4
e5 e2 = Y2 –
e3 = Y3 –
e4 = Y4 –
e5 = Y5 –
25
24
23
22
21 e e e e e EQT
25
24
23
22
21 θ)Y θ)Y θ)Y θ)Y θ)Y EQT (((((
θ)(Y ) θ ( EQT5
1i
2i
Supondo que Y seja uma função de : Yi = + ei
e1 = Y1 – Os erros ei
representam os
erros de
mensuração de Y a
partir de .
A função EQT é
uma medida do
erro total que
cometemos ao
utilizar para
estimar Y na
função Yi=+ei
EQT - Exemplo
Y1 = 100
Y2 = 200
Y3 = 300
Y4 = 400
Y5 = 500
Seja o conjunto
de valores de Y θ)(Y ) θ ( EQT
5
1i
2i
EQT()
300.000 100
150.000 200
100.000 300
150.000 400
300.000 500 0
50.000
100.000
150.000
200.000
250.000
300.000
350.000
0 100 200 300 400 500 600
*
Supondo que Y seja uma função de : Yi = + ei
Para este conjunto de dados, o valor de que minimizaria a função
EQT (*) seria o 300.
Estimador de Mínimos Quadrados
2 Passo) Encontrar que minimiza EQT:
)θ(Y e EQTn
1i
2i
n
1i
2i
ˆˆ
^
EQ
T0
ˆ
θ
EQT
*^
0 θd
EQTd
ˆ
n
1i
i 1))(θ2(Y θd
EQTd ˆˆ
n
1i
n
1i
i θ2Y2 ˆ
0θ2nY2 θd
EQTd n
1i
i
ˆˆ
n
Y
θ
n
1i
iˆ
Para uma amostra de tamanho n teremos:
ii eY ˆˆ
^
Função de Regressão Populacional
X
YYi = + Xi + ei Modelo de Regressão
Linear Simples para Y
na população
Y é a variável dependente ou regressando
X é a variável independente ou explanatória
Onde:
Xi
E(Y/Xi)
E(Y/Xi) é a esperança condicional de Y e representa o valor esperado de Y
para o i-ésimo valor de X
é o intercepto ou constante do modelo
é o coeficiente angular do modelo
ei é o erro, ou variação de Yi não explicada pelo modelo
ei
Yi
Erro de previsão:Seja Xi a i-ésima observação de X, teremos:
Yi é o valor observado em Y para o i-ésimo valor de X
E(Y/Xi) = + Xi
ou
Seja a relação entre Y e X na população:
Interpretação dos CoeficientesPara cada valor controlado de X, teremos
um valor esperado de Y.
X1 X
Y
E(Y1)
e1
X2X3
e2
e3
O erro representa variáveis omitidas ou
mesmo dificuldades para mensurar aquelas
presentes no modelo.
Pressupõe-se que o efeito do erro seja
mínimo e que este esteja aleatoriamente
distriuído em torno da reta de regressão.
X
Y
E(Yi)
Xi
X
Y
0
E(Y/0)=
)0()0/(YE
dX
Xd
dX
YdE
X
YE )()()(
Para compreendermos a interpretação
dos coeficientes do modelo:
O intercepto representa o valor esperado de Y
quando o valor controlado de X for nulo:
O coeficiente angular , por sua vez, representa
a variação marginal no valor esperado de Y
dada uma variação unitária em X
Função de Regressão Amostral
X
Y
Yi = + Xi + ei
Função de regressão amostral:
Yi = + Xi
Y previsto pelo ajuste:
^
Xi
Yi^
ei
ei = Yi – Yi
Resíduo, valor não previsto pelo ajuste:
^
Função de Erro Quadrático Total (EQT):
e e e EQT2
n2
22
1 ˆ...ˆˆ
2nn
222
211 )YY)YY )YY EQT ˆ(...ˆ(ˆ(
)Y(Y EQTn
1i
2ii
ˆ )]Xβ[Yn
1i
2ii
ˆˆ(
Em uma amostra, a relação entre Y e X será dada por:
^ ^ ^
^ ^
^
^
Método de Mínimos Quadrados
X
Y
ê2
ê1
ê3
ê4 ê5
ê6 ên
)]ˆˆ([1
2
n
i
ii XβαYEQT
Mínimos Quadrados Ordinários:
O método de mínimos quadrados ordinários (MQO)
ajustará a reta que apresentar as menores distâncias
quadráticas entre os valores observados e a reta (êi).
Em outras palavras, os estimadores de MQO dos
parâmetros e minimizarão o valor da função de
Erro Quadrático Total (EQT), dada por:
n
i ii XY2 EQT
10)1)](ˆˆ([
ˆ
Para encontrar os valores que minimizam a função EQT:
XβY 1ˆˆ
n
1i
22i
n
1i
ii
XnX
YXnYX
β̂
n
i iii XXY2 β
EQT1
0))](ˆˆ([ˆ
(1)
(2)
Estimadores de MQO
Estimadores de Mínimos Quadrados Ordinários:
iii eXY
Seja o modelo de Regressão Linear Simples (RLS) para o conjunto de dados
populacionais e sua equivalente representação na amostra:
Os estimadores de MQO para os parâmetros e , ou seja, os estimadores que
minimizam o valor de êi2, serão dadas por:
XβY ˆˆ
n
i
i
n
i
ii
XnX
YXnYX
β
1
22
1ˆe
Para simplificar os cálculos, podemos demonstrar que essas expressões podem
também ser dadas como função dos desvios de X e Y em relação às suas
respectivas médias amostrais:
XβY ˆˆ
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
i
n
i
ii
x
Yx
x
yX
x
yx
β
1
2
1
1
2
1
1
2
1ˆe
Onde: XXx ii YYy ii e
(3)
(5)(4)
iii eXY ˆˆˆ
Estimadores de MQO - Exemplo
Y
(Renda)
X
(Anos
Estudo)
4 1
8 4
10 6
12 7
Seja a relação entre renda familiar em salários mínimos (Y), anos de
estudo (X) do responsável pela família:
iii eXY
Para cada ano adicional de escolaridade da
pessoa responsável, espera-se um acréscimo de
1,98 SM na renda familiar. O rendimento esperado
para famílias lideradas por pessoas sem
escolaridade seria de 2,71 SMs.
A partir dos dados de uma amostra de 4 oobservações, os
estimadores de MQO para a função amostral serão:
iii eXY ˆˆˆ
XβY ˆˆ
n
i
i
n
i
ii
x
yx
β
1
2
1ˆ 29,121
27
71,2)5,4(29,15,8
iii eXY ˆ29,171,2
Distribuição Amostral dos Estimadores
Y
X
Seja uma população com 20 observações:
Y=+X+e
Função de
Regressão
Populacional
Y=+X+e
Função ajustada
para amostra 1
^ ^
Os estimadores de MQO variarão aleatoriamente em função dos valores
observados na amostra.
Y
X
^
Y=+X+e
Função ajustada
para amostra 2
^ ^ ^
Teorema de Gauss-Markov
Teorema de Gauss-Markov
Sob a hipótese da veracidade de alguns pressupostos, os estimadores obtidos pelo
método de mínimos quadrados ordinários serão os Melhores Estimadores Lineares
Não Viesados (MELNV, ou BLUE - Best Linear Unbiased Estimator).
Em outras palavras:
)ˆE( estimador não viesado
E:
)'ˆVar()ˆVar( estimador mais eficiente que ’,
qualquer que seja ’ outro estimador
de
^
^
1 – Relação Linear
X
Y
Modelo é linear nas variáveis pois todos
os expoentes de Y e X são iguais a 1.
iii eβXαY
Modelo é linear nos parâmetros pois
todos os expoentes dos parâmetros são
iguais a 1.
X
Y iii eβXαY 2
Modelo não é linear nas variáveis pois o
expoente de X não é igual a 1.
Modelo é linear nos parâmetros pois
todos os expoentes dos parâmetros são
iguais a 1.
Linearidade nos parâmetros
e nas variáveis
Linearidade nos parâmetros
2- Valores de X são Fixos
Y
XX2
E(Y2)
X1
E(Y1)
iii eXY
Pressupõe que o valor de X seja controlado em repetidas amostras para
se observar variações aleatórias de Y.
Premissa utilizada em inúmeras
demonstrações, embora seja, muitas
vezes, pouco factível. Nessas
circunstâncias, cuidados adicionais
deverão ser tomados para que as
estimativas de MQO não sejam viesadas.
3 - Esperança Condicional Zero
Os erros apresentam esperança condicional zero, ou seja, esses não
podem estar associados aos regressores.
A média dos erros associados a cada
valor controlado de X será sempre 0,
não importa qual seja o valor de X.
X
Y
Xi
E(Y/Xi)
ei
Yi
0)()|( ii eEXeE ii XXYE )/(
4 - Homocedasticidade
Homocedasticidade
2)/( ii XeVar
Heterocedasticidade
Y
XjX1
E(Y1)
X2
E(Y2)
Var(e2)=2
Var(e1)=2
Y
XjX1 X2
Var(e2)=22E(Y1)
Var(e1)=21
E(Y2)
A variabilidade dos erros deve ser constante, qualquer que seja o valor
de :X
5 – Ausência de Autocorrelação
Não Autocorrelacionado
0)(),( sttstt eeEeeCov
Autocorrelacionado
e
t
0)( stteeE e
t
0)( stteeE
Não há correlação entre os erros do modelo regressão:
A autocorrelação é frequente em análise de séries temporais de dados
espaciais.
Modelo Clássico de Regressão Linear
1) Relação Linear entre X e Y:
O ajuste só é válido para relações lineares.
2) Os valores de X são fixos em repetidas amostras, não aleatórios:
Quem varia é o regressando, o regressor é fixo e dado, qualquer que seja a
amostra. Fazemos a pressuposição que dado um valor de X, Y irá variar
segundo uma distribuição de probabilidade com valor esperado dado por E(Y|Xi).
3) Esperança condicional dos erros igual a zero, ou seja, E(e|Xi)=0:
É a mesma coisa afirmar que E(Y|Xi)=+Xi.
4) A variabilidade dos erros é constante, ou seja, E(ei2)=2
Os erros são homocedásticos, ou seja, sua variância é a mesma para qualquer X.
5) Os erros são não autocorrelacionados, ou seja, E(eiej)=0:
Não há relação entre valores ordenados dos erros segundo tempo ou espaço.
6) Os erros apresentam distribuição normal: Não é um pressuposto necessário para que os estimadores de MQO sejam
MELNV, mas necessário para que as inferências sejam válidas.
Modelo
Clá
ssic
o d
e R
egre
ssão L
inear
Variância dos EstimadoresVariância dos estimadores de MQO:
Caso os pressupostos do Teorema de Gauss-Markov sejam válidos, o método de
MQO oferecerá estimadores não viesados para os coeficientes do modelo e para
suas respectivas variâncias. As variâncias dos estimadores e seus respetivos
estimadores serão dados por:
Seja o modelo de RLS:
iii eXY
2
22)ˆ()ˆ(
ixEVar
2
2
22)ˆ()ˆ(
i
i
xn
XEVar
Onde 2=Var(ei) é a variânica dos erros ou variância da regressão e 2 seu
respectivo estimador, dado por:
2
ˆˆ
22
n
ei
2
2
22
2
22ˆ ˆ
1ˆ
ii
i
x
X
nxn
XS
2
22ˆ
ˆ
ixS
iiii yxye ̂ˆ 22
^
onde
H0: =0
H1: 0
Então, para verificar que os estimadores de MQO são significativos:
Sob a hipótese de H0 ser
verdadeiro temos...
),0(ˆ 2̂
~N
0 ̂
p/2 p/2
valor obtido pela amostra
p é a probabilidade de erro
ao afirmar que é
significativo no modelo
Teste de hipótese para :
H0: =0
H1: 0 Sob a hipótese de H0 ser
verdadeiro temos...
),0(ˆ 2
β̂~Nβ
0 ̂
p/2 p/2
p é a probabilidade de erro
ao afirmar que é
significativo no modelo
Teste de hipótese para 1:
valor obtido pela amostra
Teste t para os Estimadores
Y
(Renda)
X
(Anos
Estudo)
4 1
8 4
10 6
12 7
Seja a relação entre renda familiar em salários mínimos (Y), anos de
estudo (X) do responsável pela família:
iii eXY
A partir dos dados de uma amostra de 4 oobservações, as
estimativas de MQO para a função amostral serão:
iii eXY ˆˆˆ iii eXY ˆ29,171,2
Variância dos Estimadores - Exemplo
As estimativas das variâncias dos erros e dos estimadores de
MQO serão:
22
2
2
22ˆ 4165,01735,01429,0
21
5,4
4
1ˆ
1
ix
X
nS
2
2
22ˆ 0825,00068,0
21
1429,0ˆ
ixS
22
2 3780,01429,024
2857,0
2
ˆˆ
n
ei
H0: =0
H1: 0
Conhecendo os erros padrões e a fdp dos estimadores, temos que:
Aplicando a estatística de
teste tn–2
2t
0 52,6
0,011 0,011
a probabilidade de erro ao
afirmar que o intercepto é
significativo no modelo é de
0,2%
Teste de hipótese para 0:
H0: =0
H1: 0
Aplicando a estatística
de teste tn–2
2t
0 6,15
0,002 0,002
a probabilidade de erro ao
afirmar que a variável X é
significativa no modelo é de
0,4%
Teste de hipótese para 1:
42,0
71,20ˆ
ˆ
St
08,0
29,10ˆ
ˆ
St
Teste t- Exemplo
Análise de Variância
Y
Y
n
1i
2i )YY(SQReg ˆ
n
1i
2i )Y(YSTQ
n
1i
2i )iY(Y SQRes ˆ
Y
Quando X explica Y Quando X não explica Y
Maior Soma dos
Quadrados da
Regressão
Menor Soma dos
Quadrados da
Regressão
X
Y
X
Y^
Y^
Soma Total dos Quadrados (STQ)
Mensura a variabilidade total da variável dependente.
Soma dos Quadrados
n
ii
n
ii y)Y(YSTQ
1
2
1
2
Soma dos Quadrados da Regressão (SQReg)
Mensura a variabilidade da variável dependente explicada
pelo modelo.
n
i
ii
n
i
i
n
i
i yxx)YY(gSQ1
1
1
221
1
2 ˆˆˆRe
Soma dos Quadrados da Regressão (SQReg)
Mensura a variabilidade residual, não explicada pelo
modelo.
n
i
ii
n
i
i
n
i
i
n
i
ii yxye)Y(YsSQ1
1
1
2
1
2
1
2 ˆˆˆRe
Coeficiente de Determinação (R2):
Definição: Estima a proporção da variabilidade da
variável dependente (Y) que é explicada pela(s) variável(eis)
independente(s) do modelo de regressão.
1
Escala de R2:
independência
linearrelação
linear exata
Coeficiente de Determinação
n
ii
n
ii
n
ii
n
ii
n
ii
n
ii
y
x
y
e
)Y(Y
)YY(
STQ
gSQR
1
2
1
2
21
1
2
1
2
1
2
1
2
2 ˆˆ
1
ˆRe
0 A significância das escalas depende muito da
natureza da variável dependente
Análise de Variância
H0: 1=0 (o modelo não contribui)
H1: 10 (o modelo contribui)
Problema: O modelo contribui para explicar Y?
Sob a hipótese
de H0 ser
verdadeiro
temos...
2-n 1,F~2)-SQRes/(n
SQReg
F
p
Dados:
= nível de significância
SQReg = Soma dos Quadrados da Regressão
SQRes = Soma dos Quadrados dos Resíduos
n = número de observações 2-SQRes/n
SQRegF
Conclusão:
Rejeito H0 se valor p .
Análise de Variância
Tabela ANOVA (Analysis Of Variance)
Regressão
Resíduos
Total
FonteSoma dos
QuadradosGL
1
2-n
1-n
Quadrados
Médios
1
SQReg
2-n
SQRes
F
2)-SQRes/(n
SQReg/1F
Rejeito H0 quando valor p – prob (F > F1, n-2) - for menor que
nível de significância esperado ().
n
1i
2i )Y(YSTQ
n
1i
2i )YY(SQReg ˆ
n
1i
2ii )Y-(YSQRes ˆ