anotacoes de aula 5 - correlação e regressao linear

16
189 © Tânia F Bogutchi – PUC Minas – Revisão: 2012 Estatística e Probabilidade Unidade 5: Correlação e Regressão Linear Essa Unidade está no capítulo 11 do livro base: MONTGOMERY, Douglas C, RUNGER, George C. Estatística aplicada e Probabilidade para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 2009. Você também pode, se preferir, fazer a leitura do capítulo 10 do livro do Mario Triola, Introdução à Estatística, LTC, 2005. Cópias desses capítulos podem ser obtidas por meio da Pasta do Professor Professor (www.pastadoprofessor.com.br), fazendo login nessa página e enviando-as para serem impressas na Copiadora Set (casa amarela) da Unidade do Coração Eucarístico, ou em alguma outra copiadora da Unidade a que o aluno pertence. Não deixem de ler! Nota importante: Essas aulas foram produzidas por meio de coletânea dos textos indicados na bibliografia. Não são citadas diretamente para não poluir o visual dos mesmos. Os textos estão organizados e traduzidos para minha linguagem didática pessoal. Um estudo mais aprofundado deverá ser baseado nas referências bibliográficas indicadas. Algumas notas de aulas: 1. Introdução A associação entre duas variáveis quantitativas também é chamada de medida de relação. As medidas de relação aqui estudadas são as que objetivam linearidade: correlação e regressão. Segundo ou dicionário Aurélio, correlação significa relação mútua entre dois termos, qualidade de correlativo, correspondência. Correlacionar significa estabelecer relação ou correlação entre; ter correlação. Enquanto que a palavra regressão significa: ato ou efeito de regressar, de voltar, retorno, regresso; dependência funcional entre duas ou mais variáveis aleatórias. A palavra regredir significa ir em marcha regressiva, retroceder. Os termos correlação e regressão surgiram com Francis Galton (1822-1911), primo de Charles Darwin, que usou pela primeira vez esses termos. Seu trabalho influenciou a Estatística e a Psicologia. Galton publicou o livro Gênio Hereditário, em 1869, onde aplicou conceitos estatísticos a problemas da hereditariedade. Galton ficou impressionado com a distribuição normal aplicada a área de biologia por Adolph Quételet (1796-1874), que mostrara no livro “O homem Médio”, que a estatura de dez mil sujeitos seguia uma distribuição normal, ou seja, a maioria dos sujeitos tinha suas estaturas em torno da média e que uma quantidade, cada vez menor, vai sendo encontrado à medida que se afasta da média.

Upload: anasales43

Post on 08-Feb-2016

33 views

Category:

Documents


11 download

TRANSCRIPT

Page 1: Anotacoes de Aula 5 - Correlação e Regressao Linear

189

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

Essa Unidade está no capítulo 11 do livro base: MONTGOMERY,

Douglas C, RUNGER, George C. Estatística aplicada e Probabilidade

para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 2009.

Você também pode, se preferir, fazer a leitura do capítulo 10 do

livro do Mario Triola, Introdução à Estatística, LTC, 2005.

Cópias desses capítulos podem ser obtidas por meio da Pasta do

Professor Professor (www.pastadoprofessor.com.br), fazendo login

nessa página e enviando-as para serem impressas na Copiadora

Set (casa amarela) da Unidade do Coração Eucarístico, ou em

alguma outra copiadora da Unidade a que o aluno pertence.

Não deixem de ler!

Nota importante:

• Essas aulas foram produzidas por meio de coletânea dos textos indicados na bibliografia. Não são citadas diretamente para não poluir o visual dos mesmos.

• Os textos estão organizados e traduzidos para minha linguagem didática pessoal.

• Um estudo mais aprofundado deverá ser baseado nas referências bibliográficas indicadas.

Algumas notas de aulas: 1. Introdução

A associação entre duas variáveis quantitativas também é chamada de medida de relação. As medidas de relação aqui estudadas são as que objetivam linearidade: correlação e regressão.

Segundo ou dicionário Aurélio, correlação significa relação mútua entre dois termos, qualidade

de correlativo, correspondência. Correlacionar significa estabelecer relação ou correlação entre; ter correlação. Enquanto que a palavra regressão significa: ato ou efeito de regressar, de

voltar, retorno, regresso; dependência funcional entre duas ou mais variáveis aleatórias. A palavra regredir significa ir em marcha regressiva, retroceder.

Os termos correlação e regressão surgiram com Francis Galton (1822-1911), primo de Charles

Darwin, que usou pela primeira vez esses termos. Seu trabalho influenciou a Estatística e a Psicologia.

Galton publicou o livro Gênio Hereditário, em 1869, onde aplicou conceitos estatísticos a problemas da hereditariedade. Galton ficou impressionado com a distribuição normal aplicada a

área de biologia por Adolph Quételet (1796-1874), que mostrara no livro “O homem Médio”, que a estatura de dez mil sujeitos seguia uma distribuição normal, ou seja, a maioria dos

sujeitos tinha suas estaturas em torno da média e que uma quantidade, cada vez menor, vai

sendo encontrado à medida que se afasta da média.

Page 2: Anotacoes de Aula 5 - Correlação e Regressao Linear

190

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

Galton cunhou o termo regressão quando observou que filhos de homens altos, não são, em

média, tão altos quanto os pais, enquanto que os filhos de homens muito baixos são, em média, mais altos do que os pais. Ele concebeu uma forma gráfica de representar as

propriedades básicas do coeficiente de correlação. Ele aplicou o seu método de correlação a variações de medidas físicas, por exemplo, mostrou a correlação entre a altura do corpo e o

comprimento da cabeça. Seu aluno Karl Pearson desenvolveu a fórmula matemática, que usamos hoje e que tem o seu

nome em homenagem. O símbolo do coeficiente de correlação r, vem da primeira letra de

regressão, em reconhecimento a Galton.

2. A Covariância e o Coeficiente de Correlação de Pearson

Quando estudamos a relação entre duas variáveis X e Y devemos apreender um novo conceito

que é a covariância. Se a variância é uma estatística através da qual chegamos ao desvio-padrão que é uma medida da dispersão dos dados. Semelhantemente, a covariância é uma

medida da variação (dispersão) conjunta entre os dados de X e Y. Essa medida estatística nos possibilita chegar ao coeficiente de correlação o qual mede o grau de associação “linear” entre

duas variáveis aleatórias. Apresentaremos esses conceitos por meio do exemplo a seguir.

Exemplo 1: Sejam as variáveis aleatórias X, renda bruta anual em milhões de reais e Y,

percentual da renda bruta gasto com assistência médica, que tomam os seguintes valores:

Calculando as estatísticas descritivas temos:

Uma forma mais simplificada para os cálculos é por meio da utilização da escrita de algumas

somas intermediárias, tais como:

n

x

xS

n

i

in

i

ixx

2

1

1

2

n

yx

yxS

n

i

i

n

i

in

i

iixy

11

1

A covariância é obtida por meio da seguinte fórmula:

11),cov(

n

S

n

yyxxYX

xy

Renda bruta (X), em R$ 12 16 18 20 28 30 40 48 50 54

% gasta (Y) 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5

Variável n Média Variância Desvio-padrão

Renda bruta (X), em R$ 10 31,60 238,04 15,43

% gasta (Y) 10 6,45 0,43 0,66

Page 3: Anotacoes de Aula 5 - Correlação e Regressao Linear

191

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

O próximo quadro apresenta alguns cálculos intermediários para esse banco de dados:

Renda bruta (X) % gasto (Y) XY X2

Y2

12 7,2 86,4 144 51,84

16 7,4 118,4 256 54,76

18 7,0 126,0 324 49,00

20 6,5 130,0 400 42,25

28 6,6 184,8 784 43,56

30 6,7 201,0 900 44,89

40 6,0 240,0 1600 36,00

48 5,6 268,8 2304 31,36

50 6,0 300,0 2500 36,00

54 5,5 297,0 2916 30,25

X = 316 Y = 64,5 X Y = 1952,4 X2 = 12128 Y

2 =419,91

8,852,20384,195210

)5,64)(316(4,1952 xyS

53,99

8,85),cov(

YX

Verifica-se graficamente a relação entre duas variáveis por meio do diagrama de dispersão

entre elas. Nesse gráfico foram desenhadas as linhas das médias de X, E(X), e de Y , E(Y), e indicados os sinais da covariância em cada um dos quadrantes determinados por essas linhas:

X: Renda bruta

Y:

% g

asto

co

m a

ssis

t. m

éd

ica

605040302010

7,5

7,0

6,5

6,0

5,5

E(X)

E(Y)

Diagrama de dispersão: % gasto com assist. médica vs Renda bruta

X-E(X)<0 e Y-E(Y)<0

X-E(X)<0 e Y-E(Y)>0

X-E(X)>0 e Y-E(Y)<0

X-E(X)>0 e Y-E(Y)>0

I

III II

IV

Cov(X,Y) < 0

Cov(X,Y) > 0Cov(X,Y) < 0

Cov(X,Y) > 0

X: Renda bruta

Y:

% g

asto

co

m a

ssis

t. m

éd

ica

605040302010

7,5

7,0

6,5

6,0

5,5

E(X)

E(Y)

Diagrama de dispersão: % gasto com assist. médica vs Renda bruta

X-E(X)<0 e Y-E(Y)<0

X-E(X)<0 e Y-E(Y)>0

X-E(X)>0 e Y-E(Y)<0

X-E(X)>0 e Y-E(Y)>0

I

III II

IV

Cov(X,Y) < 0

Cov(X,Y) > 0Cov(X,Y) < 0

Cov(X,Y) > 0

Page 4: Anotacoes de Aula 5 - Correlação e Regressao Linear

192

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

Observe que os desvios dos pontos que caem no quadrante II (supondo x e y os eixos

centrais do plano cartesiano) tomam valores positivos, por tanto seus produtos, também, tomarão valores positivos. O mesmo acontece quando os pontos caem no IV quadrante, os dois

desvios tomarão valores negativos, portanto seus produtos tomarão valores positivos. Se a maioria dos pontos estiverem espalhados no II e IV quadrante, a soma dos produtos dos

desvios sempre será positivo, logo afirmaremos que a covariância destas duas variáveis é positiva, ou em outras palavras, a relação entre elas é direta, ou seja, a medida que uma

cresce, a outra, também cresce e vice-versa.

Agora, vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, os desvios de X seriam todos positivos, enquanto que os desvios de Y seriam todos negativos, logo os

produtos tomarão valores negativos. O mesmo vai acontecer com os pontos do quadrante III, nele, os desvios de X tomarão valores negativos e os desvios de Y, valores positivos, logo os

produtos tomarão valores negativos. Assim, se a maioria dos pontos cai nos quadrantes I e III

a covariância tomará valores negativos, indicando que essas duas variáveis se relacionam de forma negativa ou inversa, ou seja, que quando uma cresce a outra diminui e vice-versa.

Quando os pontos se distribuem nos quatro quadrantes, haverá valores positivos e negativos, logo a soma tenderá para zero, e neste caso, afirmaremos que não existe relação linear entre

essas variáveis. Observamos que esta estatística tenderá para zero, mesmo havendo uma

relação que não for linear, por exemplo, se os dados tivessem o formato de uma parábola, ou relação quadrática.

A pesar de a covariância ser uma estatística adequada para medir relação linear entre duas variáveis, ela é complicada para comparar graus de relação entre variáveis devido a influencia

das unidades de medida de cada variável, que pode ser metros, quilometro, quilogramas, centímetros, etc... Para evitar a influência da ordem de grandeza e unidades de cada variável,

dividimos a covariância pelo desvio padrão de X e de Y, dando origem ao coeficiente de

correlação de Pearson:

2222 yynxxn

yxxyn

)Y(dp)X(dp

)Y,Xcov(r

No conjunto de dados do exemplo, temos:

43,15110

10

31612128

1)(

22

2

n

n

xx

Xdp e

66,0110

10

5,6491,419

1)(

22

2

n

n

yy

Ydp

Logo,

9401,0)66,0)(43,15(

53,9

)()(

),cov(

YdpXdp

YXr

Page 5: Anotacoes de Aula 5 - Correlação e Regressao Linear

193

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

O coeficiente de correlação também pode ser calculado utilizando as somas intermediárias:

Txx

xy

SQS

Sr

Dessa maneiira, tem-se:

4,85xyS

4,214210

31612128

2

2

1

1

2

n

x

xS

n

i

in

i

ixx

885,310

5,6491,419

2

2

1

1

2

2

1

1

22

1

2

n

y

yn

y

nyynySSQ

n

i

in

i

i

n

i

in

i

i

n

i

iyyT

Logo, 9401,0)885,3)(4,2142(

8,85

Txx

xy

SQS

Sr

O coeficiente de correlação mede a força da relação entre as duas variáveis. O sinal representa

se a relação é positiva ou negativa conforme as explicações fornecidas para a covariância. Uma sugestão de classificação para essa força é:

Correlação (r) Significado

- 1 Relação linear negativa perfeita

|r| < 0,4 Relação linear fraca

0,4 |r| 0,7 Relação linear moderada

|r| > 0,7 Relação linear forte

1 Relação linear positiva perfeita

Portanto, no nosso exemplo, a relação linear é negativa forte, o que significa que quanto maior

a renda anual menor o percentual gasto com assistência médica. Podemos observar os seguintes tipos de correlação:

Page 6: Anotacoes de Aula 5 - Correlação e Regressao Linear

194

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

Vale a pena considerar que o fato de duas variáveis estarem fortemente correlacionadas por si

só não implica em uma relação de causa e efeito entre elas. Exemplo, podemos ter em uma certa região um grande número de cegonhas e um alta taxa de nascimento de bebes. Essas

duas variáveis podem estar altamente correlacionadas, mas não podemos acreditar numa relação de causa e efeito entre elas (ainda...). Esse tipo de correlação é chamado de “espúria”.

Exemplo 2: O estatístico F. J. Anscombe preparou os seguintes conjuntos de dados para

exemplificar a correlação, os quais são bastante utilizados para efeitos didáticos:

Page 7: Anotacoes de Aula 5 - Correlação e Regressao Linear

195

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

Observe que esses dados produzem as mesmas estatísticas descritivas. No entanto, o

gráfico de dispersão para cada um desses conjuntos apresenta configurações completamente diferentes:

3. Modelamento por Regressão Linear Simples

Essa técnica é uma maneira útil de estudar relações entre variáveis, quando fizer sentido tentar

predizer ou explicar o comportamento de uma variável, em termos do comportamento de outra ou de outras variáveis.

A variável cujo comportamento queremos explicar ou predizer é chamada de variável

resposta, ou dependente e, por convenção é denotada por Y. As outras variáveis são de

X1 Y1 X2 Y2 X3 Y3 X4 Y4

10 8,04 10 9,14 10 7,46 8 6,58

8 6,95 8 8,14 8 6,77 8 5,76

13 7,58 13 8,74 13 12,74 8 7,71

9 8,81 9 8,77 9 7,11 8 8,84

11 8,33 11 9,26 11 7,81 8 8,47

14 9,96 14 8,1 14 8,84 8 7,04

6 7,24 6 6,13 6 6,08 8 5,25

4 4,26 4 3,1 4 5,39 19 12,5

12 10,84 12 9,13 12 8,15 8 5,56

7 4,82 7 7,26 7 6,42 8 7,91

5 5,68 5 4,74 5 5,73 8 6,89

Média 9,0 7,5 9,0 7,5 9,0 7,5 9,0 7,5

Desvio-padrão 3,3 2,0 3,3 2,0 3,3 2,0 3,3 2,0

Covariância

Correlação

5,0

0,82 0,82 0,82 0,82

E

s

t

D

e

s

c

r

i

t

5,0 5,0 5,0

2015105

12

10

8

6

4

2015105

12

10

8

6

4

Y1*X1 Y2*X2

Y3*X3 Y4*X4

Diagrama de Dispersão: Y1 vs X1; Y2 vs X2; Y3 vs X3; Y4 vs X4

Page 8: Anotacoes de Aula 5 - Correlação e Regressao Linear

196

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

interesse apenas para nos ajudar a entender, explicar ou predizer o comportamento de Y e são

chamadas de variáveis explicativas ou preditoras ou independentes. Na análise de regressão linear utilizamos a equação matemática de uma reta para

descrevermos a relação entre Y e X. Essa reta é ajustada aos dados da melhor maneira possível, ou seja, de tal forma que as distâncias das observações a ela sejam as menores

possíveis. Esse método é conhecido como “mínimos quadrados”, por considerar o quadrado dessas distâncias (ou resíduos).

A equação de uma reta em matemática é: Y = a + bX. Em estatística é usual descrever essa

reta como:

XY 10

Em que 0 é o valor do intercepto, ponto em que a reta cruza o eixo das coordenadas, Y e 1 é

a taxa de acréscimo ou decréscimo que cada unidade de X produz em Y.

O gráfico a seguir exemplifica a equação de uma reta e seu significado, por eixo coordenado, para a reta de regressão estimada:

Considerando que estamos ajustando uma reta aos dados, costuma-se escrever essa reta de

maneira indicada de estimação, ou seja, colocamos um “chapéu” na variável resposta Y e nos

valores dos ’s, isto é:

XˆˆY 10

O valor de y é o valor previsto para certo valor de x observado. As estimativas de mínimos

quadrados para os valores do intercepto e da taxa ou inclinação são:

xˆyˆ10

Em que,

n

1i

iyn

1y e

n

1i

ixn

1x

0

x

(variável independente ou explicativa ou preditora)

y

(variável dependenteou resposta)

Y = b0 + b1 x

b0

y

x

x

y)(tgb

1

0

x

(variável independente ou explicativa ou preditora)

y

(variável dependenteou resposta)

Y = b0 + b1 x

b0

y

x

x

y)(tgb

1

Page 9: Anotacoes de Aula 5 - Correlação e Regressao Linear

197

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

xx

xy

1S

Lembrando que, n

x

x)xx(S

2n

1i

in

1i

2i

n

1i

2ixx

e

n

yx

yx)yy)(xx(S

n

1i

i

n

1i

in

1i

ii

n

1i

iixy

Obs.: Sxx e Sxy são convenientes expressões facilitadoras para a notação dos numeradores e

dos denominadores aqui utilizados.

Considerando os dados apresentados no exemplo 1, temos os seguintes resultados:

6,31x ; 45,6y ; 316x ; 5,64y ; 4,1952xy ; 12128x2

Com esses dados podemos calcular:

8,85

10

5,643164,1952Sxy e

4,2142

10

31612128S

2

xx

Dessa maneira, os coeficientes estimados são:

04005,04,2142

8,85ˆ1

xx

xy

S

S e 716,7)6,31)(04007,0(5,64xˆyˆ

10

Dessa maneira temos que a reta de regressão linear simples ajustada a esses dados é:

x04,072,7y

Em que Y significa o percentual gasto em assistência médica e X é a renda bruta anual. Essa

reta indica que cada unidade da renda bruta anual produz um decréscimo 0,04 na previsão do percentual da renda bruta gasto em assistência médica.

Em termos numéricos, se a renda bruta anual for de 22 milhões de reais, espera-se em média

um percentual de 6,9% de gasto com assistência médica. Em termos de reais, o gasto com assistência médica, considerando essa renda bruta anual é de aproximadamente 1,38 milhões,

em média. Nesse exemplo em particular, os planos de saúde estarão em situação de determinar as

políticas de vendas por segmentos de rendas anuais.

Importante: Essa técnica só poderá ser utilizada se existir correlação linear significativa entre

as variáveis Y e X. A reta de regressão ajustada pelo software Minitab para esse exemplo é:

Page 10: Anotacoes de Aula 5 - Correlação e Regressao Linear

198

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

O coeficiente de determinação R2 é obtido facilmente pelo quadrado do coeficiente de

correlação linear e multiplicando esse valor por 100, ele fornece o percentual da variação em Y explicada pela variável X. No exemplo acima, temos R2 = 0,884 = 88,4% da variação no

percentual de gasto com assistência médica é explicada pela renda bruta anual. Observe que 0,884= (-0,9401)2.

De maneira geral, o coeficiente de determinação é calculado por:

T

ET2

SQ

SQSQR

, em que

2

1

2 ynySQn

i

iT

é a soma dos quadrados dos erros sem

considerar o efeito da variável Y, e

n

1i

2iE )yy(SQ é a soma dos quadrados dos erros

considerando o efeito da variável X.

Um estimador não-tendencioso da variância do termo do erro (resíduos: diferença entre o y

observado e o Y estimado) é: 2

ˆ 2

n

SQE

O termo SQE pode ser mais convenientemente calculado pela fórmula: xyTE SSQSQ 1

O coeficiente de correlação também pode ser calculado por meio dessas expressões

facilitadoras:

Txx

xy

SQS

Sr

Para efeito de demonstração, para os dados do exemplo 1:

O coeficiente de correlação r = -0,9401

Renda Bruta

% g

asto

605040302010

7,5

7,0

6,5

6,0

5,5

S 0,236864

R-Sq 88,4%

R-Sq(adj) 87,0%

Reta de Regressão Linear ajustada% gasto = 7,716 - 0,04005 Renda Bruta

Page 11: Anotacoes de Aula 5 - Correlação e Regressao Linear

199

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

Para o cálculo da variância estimado dos resíduos, tem-se:

4487,0)8,85)(04005,0(885,3ˆ1 xyTE SSQSQ

Então, 0561,0210

4487,0

2ˆ 2

n

SQE

Os resultados estimados pelo software Minitab forneceram:

Regression Analysis: % gasto versus Renda Bruta The regression equation is

% gasto = 7,72 - 0,0400 Renda Bruta

Predictor Coef SE Coef T P

Constant 7,7155 0,1782 43,29 0,000

Renda Bruta -0,040049 0,005117 -7,83 0,000

S = 0,236864 R-Sq = 88,4% R-Sq(adj) = 87,0%

Analysis of Variance

Source DF SS MS F P

Regression 1 3,4362 3,4362 61,25 0,000

Residual Error 8 0,4488 0,0561

Total 9 3,8850

2

ESQ

Obs.: os valores não são exatamente iguais devidos a erros de arredondamentos e interações

utilizados no ajuste do modelo pelo software (SS=SQ e MS = MQ)

3.1 Analise de variância para testar a significância do modelo ajustado

pela técnica da Regressão Linear:

Fonte de

Variação

Graus de

liberdade Soma dos Quadrados

Quadrados

Médios F0

Regressão 1 xy1R SˆSQ 1

SQMQ R

R

E

R

MQ

MQ Erro (Resíduos) n-2 xyTE SSQSQ 1

2n

SQMQ E

E

Total n-1 SQT = SQR + SQE

Esse procedimento divide a variância total (SQT) da variável resposta em componentes

significantes obtidos pela variação da Soma dos Quadrados da Regressão: SQR e a Soma dos

Quadrados dos erros (resíduos). A estatística F0 testa a significância da regressão utilizando a distribuição de Fisher. A hipótese

nula desse teste é: H0 : 1 =0, e essa hipótese será rejeitada para valores grandes de F

considerando os graus de liberdade do numerador e do denominador. Essa rejeição é

equivalente ao p-valor menor que 5% (p < 0,05), por exemplo.

Page 12: Anotacoes de Aula 5 - Correlação e Regressao Linear

200

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

Resolução de um exercício

1) (Montgomery, adaptado) Os dados referentes ao peso, em kg, e à pressão sanguínea

sistólica de 26 homens selecionados aleatoriamente, na faixa etária de 25 a 30 anos,

estão apresentados na tabela seguinte. Considere que o peso e pressão sanguínea

sejam distribuídos normal e conjuntamente.

Solução:

Indivíduo Peso (X) Pressão

Sistólica (Y) XY X2 Y

2

1 74,8 13 972,4 5595,04 169

2 75,8 13,3 1008,14 5745,64 176,89

3 81,7 15 1225,5 6674,89 225

4 70,3 12,8 899,84 4942,09 163,84

5 96,2 15,1 1452,62 9254,44 228,01

6 79,4 14,6 1159,24 6304,36 213,16

7 86,2 15 1293 7430,44 225

8 95,3 14 1334,2 9082,09 196

9 90,7 14,8 1342,36 8226,49 219,04

10 67,6 12,5 845 4569,76 156,25

11 71,7 13,3 953,61 5140,89 176,89

12 76,7 13,5 1035,45 5882,89 182,25

13 77,1 15 1156,5 5944,41 225

14 78 15,3 1193,4 6084 234,09

15 72,1 12,8 922,88 5198,41 163,84

16 76,2 13,2 1005,84 5806,44 174,24

17 78,9 14,9 1175,61 6225,21 222,01

18 83 15,8 1311,4 6889 249,64

19 97,5 15 1462,5 9506,25 225

20 88,5 16,3 1442,55 7832,25 265,69

21 81,7 15,6 1274,52 6674,89 243,36

22 64,9 12,4 804,76 4212,01 153,76

23 108,9 17 1851,3 11859,21 289

24 106,6 16,5 1758,9 11363,56 272,25

25 87,1 16 1393,6 7586,41 256

26 84,8 15,9 1348,32 7191,04 252,81

Total 2151,7 378,6 31623,44 181222,1 5558,02

Faça o que se pede:

a) Verifique graficamente se existe tendência linear entre Y e X;

Page 13: Anotacoes de Aula 5 - Correlação e Regressao Linear

201

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

A nuvem de dados parece indicar relação linear entre X e Y

b) Calcule a covariância entre Y e X;

Cálculos intermediários:

11010090807060

17

16

15

14

13

12

Peso (X)

Pre

ssã

o S

istó

lica

(Y

)

Diagrama de dispersão: Pressão Sistólica (Y) vs Peso (X)

655,1125

378,291

25

26

)6,378)(7,2151(44,31623

1),cov(

n

n

yxxy

YX

3777,29126

)6,378)(7,2151(44,31623

11

1

n

yx

yxS

n

i

i

n

i

in

i

iixy

3735,315226

)7,2151(1,181222

2

2

1

1

2

n

x

xS

n

i

in

i

ixx

7577,8226

7,21511

1

n

i

ixn

x

5615,1426

6,3781

1

n

i

iyn

y

Page 14: Anotacoes de Aula 5 - Correlação e Regressao Linear

202

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

c) Calcule o coeficiente de correlação linear entre Y e X;

d) Ajuste um modelo de regressão linear simples;

e) Interprete os resultados do item anterior (d);

: significa que para um homem com peso de 0 kg, a pressão sistólica média é

de 6,91147 (unidade de medida – u.m.)

: indica que cada aumento de 1 kg no peso de um homem, na faixa etária de

25 30 anos, produz uma taxa de aumento de 0,0924 u.m. na pressão sistólica.

f) Teste a significância da regressão ao nível de significância de 5%, considerando

que o valor tabelado da estatística F é 4,26;

0307,45)5615,14)(26(0,5558 2

1

22

n

i

itotal ynySQ

0924,03835,3152

3777,291ˆ1

xx

xy

S

S

9147,6)7577,82)(0924,0(5615,14ˆˆ10 xy

1111,18)3777,291)(0924,0(0307,45ˆ1 xyTE SSQSQ

7733,0)0307,45)(3835,3152(

3777,291ˆ

Txx

xy

SQS

Sr

xxy 0924,09147,6ˆˆˆ10

0

1

9196,261111,180307,45 ETR SQSQSQ

9196,261

RR

SQQM

7546,024

1111,18

2

n

SQQM e

e

674,357546,0

9196,260

e

R

QM

QMF

Page 15: Anotacoes de Aula 5 - Correlação e Regressao Linear

203

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

O valor crítico tabelado da distribuição de Fisher ao nível de 5% de significância é

apresentado na figura abaixo:

Como F0 >> 4,26 , isso significa que o teste está na região de rejeição de H0, logo a

regressão é significativa ao nível de 5% .

g) Estime a variância residual, 2;

h) Encontre a pressão sistólica média prevista para um homem com 92,5 kg, na faixa

etária entre 25 e 30 anos.

A pressão sistólica média prevista é de 15,4617 u.m.

Obs.: O modelo ajustado pelo software Minitab:

Regression Analysis: Pressão Sistólica (Y) versus Peso (X)

The regression equation is

Pressão Sistólica (Y) = 6,91 + 0,0924 Peso (X)

Predictor Coef SE Coef T P

Constant 6,912 1,291 5,35 0,000

Peso (X) 0,09243 0,01546 5,98 0,000

S = 0,868169 R-Sq = 59,8% R-Sq(adj) = 58,1%

Analysis of Variance

Source DF SS MS F P

7546,0226

1111,18

2ˆ 2

n

SQE

4617,15)5,92)(0924,0(9147,6ˆ y

26,405,0)( 24;1 xxFP

Page 16: Anotacoes de Aula 5 - Correlação e Regressao Linear

204

© Tânia F Bogutchi – PUC Minas – Revisão: 2012

Estatística e Probabilidade

Unidade 5: Correlação e Regressão Linear

Regression 1 26,932 26,932 35,73 0,000

Residual Error 24 18,089 0,754

Total 25 45,022