epoli.pbworks.comepoli.pbworks.com/f/cap+09-crash+regressao+correlacao.docx · web viewa partir do...

UNIVERSIDADE DE PERNAMBUCO

ESCOLA POLITÉCNICA DO RECIFE

TRADUÇÃO DO CAPÍTULO 9 DO LIVRO

Spiegel, M, Schiller, J & Srinivisan, A. SHAUM’S EASY OUTLINES: Probability and Statistics. Crash Course. McGraw-Hill, New York,

2001

RECIFE – 2010

Capitulo 9 Ajuste de Curvas, Regressão e Correlação

Muito frequentemente é constatado a existência de uma relação entre duas variáveis( ou mais) e se deseja expressar tal relação sob forma matemática, estabelecendo-se uma equação entre as variáveis. O primeiro passo para isso é a coleta de dados exibindo os valores correspondente das variáveis. Por exemplo, sejam x e y, respectivamente, altura e o peso de adultos de qualquer sexo. Uma amostra de n indivíduos acusaria alturas x1,x 2,..., xn e os correspondentes pesos y1,y2,..., yn . Um próximo passo é traçar os pontos ( x1, y1), (x2,y2)....(xn,yn) em um sistema de coordenadas retangulares. O conjunto chama-se diagrama de dispersão.

A partir do diagrama de dispersão é visualizado uma curva aproximativa dos dados.Curva essa chamada curva aproximadora. Na figura 9.1, por exemplo, os dados parecem bem aproximados por uma linha reta , é nós dizemos que há uma relação linear entre as variáveis. Na figura 9.2, conquanto exista uma relação entre as variáveis , tal relacionamento não é linear, diz-se então que há uma relação não-linear entre as variáveis. Na figura 9.3 não há nenhuma relação entre as variáveis.

O problema de determinar equações de curvas que se ajustem a determinados conjuntos de dados observados é chamado ajustamento de curvas, ou simplesmente ajustamento. Na prática, frequentemente o próprio diagrama de dispersão sugere o tipo de curva a ser adotado. Para a Figura 9-1, poderíamos usar uma linha reta :

Y= a + bx

Enquanto que, para a fig, 9-2, tentaríamos uma parábola, ou uma curva quadrática

Y= a + bx + cx2

Algumas vezes ajuda a montar o diagrama, em termos de variáveis transformadas. Por exemplo, se log y VS. log x trata uma linha reta, nós poderíamos testar log y= a +bx como uma equação que se aproxima da curva.

Regressão Um dos principais objetivos do ajustamento é estimar uma das variáveis ( variável

dependente) em função da outra ( Variavel independente). Processo esse designado regressão. Se y deve ser estimado em função de x por meio de uma equação, equação essa denominada equação de regressão de y sobre x e a curva correspondente é a curva de regressão de y sobre x.

O método dos mínimos quadradosGeralmente, mais de uma curva é ajustada a determinado conjunto de dados.

Para evitar critérios individuais na escolha de retas, parábolas, etc..., é necessário chegar-se a um acordo quanto ao que se deve entender por “ melhor reta”, “ melhor parábola ”.

A fim de evitar uma possível definição, consideramos a fig 9-4, em que os pontos dados são ( x1, y1),........, (x2, y2).

Para determinado valor de x, digamos x1, existira uma diferença ente o valor y1 e o correspondente valor “ajustado”, determinado pela curva C. Denotamos tal diferença por d1, e chamamos de desvio, erro ou resíduo; seu valor pode ser positivo, negativo ou zero. Analogamente, para os valores x2,........,xn obtemos os desvios d2,....., dn.

Uma medida da “aderência ”, ou “validade do ajustamento “ da curva C aos dados do problema é dada pela quantidade d12 + d22+........dn2. Se esta quantidade é pequena, o ajustamento é bom; se é grande, o ajustamento é mau. Formulamos , então, a

Definição : De todas as curvas que se aproximam de determinados conjunto de pontos, a curva que goza da propriedade

d12+ d22+.....+ dn2= mínimo ( é a melhor curva ajustadora)

Uma curva com esta propriedade se ajusta aos dados no sentido dos mínimos quadrados, e é chamada curva de regressão de mínimos quadrados, ou simplesmente curva de mínimos quadrados. Temos então reta de mínimo quadrados, parábolas de mínimos quadrados, etc.

É usual empregar a definição acima quando x é a variável independente e y é a variável dependente. Se x é variável dependente, modifica-se a definição, considerando- se desvios horizontais ao invés de verticais; o que equivale a permutar os eixos x e y. Essas duas definições conduzem em geral a duas curvas de mínimos quadrados diferentes. A menos que se especifique o contrário, consideraremos x como variável independente e y como variável dependente.

Você precisar saberOutra possibilidade consiste em considerar distâncias perpendiculares dos pontos

observados à curva, em lugar de distâncias horizontais ou verticais. Tal processo, entretanto,não é muito usado.

A reta de mínimos quadrados

Pela definição acima, pode mostrar que a reta de mínimos quadrados que aproxima, ou ajusta, o conjunto de pontos ( x1, y1),........, (xn,yn) tem por equação:

Y= a + bx (1)

Onde as constantes a e b são determinadas resolvendo-se o sistema

(2)

Chamado sistema de equações normais para a reta de mínimos quadrados. Note-se

que, para abreviar, usamos em lugar de

As equações normais ( 2) podem ser facilmente memorizadas notando-se que, formalmente, a primeira equação se obtém somando-se ambos os membros de (1), enquanto que a segunda equação se obtém multiplicando-se primeiro ambos os membros de (1) por x e somando-se em seguida. Obviamente, isto não é uma dedução das equações normais mas apenas um processo para memorizá-las. Os valores de a e b obtidos (2) são dados por:

(3)

O resultado de b pode escrever-se também:

(4)

O traço superior indica média, isto é, . A divisão de ambos os membros da primeira equação de (2) por n dá:

(5)

Assim, se quisermos, podemos primeiro determinar b a partir de (3) e (4) e então usar (5) para

determinar Isto equivale a escrever a reta de mínimos quadrados como

(6)

O resultado ( 6) mostra que a constante b, que é o coeficiente angular da rela (1), é a constante fundamental para determinar a reta. De ( 6) vê-se também que a reta de mínimos

quadrados passa pelo ponto , chamado centróide, ou centro de gravidade dos dados.

O coeficiente angular b da reta de regressão é independente da origem de coordenadas. Isto significa que, se fizermos a transformação ( translação dos eixos) dada por:

(7)

Onde h e k são constantes quaisquer , então b será tambem dado por:

(8)

Onde x , y foram substituídos por x’, y’( por esse motivo dizemos que b é invariante sob a transformação (7)). Note-se, todavia, que a ; intercepto da reta sobre o eixo 0x; depende efetivamente da origem(assim, não é variante).

No caso particular em que , ( 8) se simplifica para :

(9)

Os resultados (8) ou (9) são úteis para simplificar o trabalho de calculo na determinação da reta de mínimos quadrados. As observações acima valem também para a reta de regressão de x sobre y. Formalmente, os resultados se obtêm simplesmente permutando x e y. Assim, por exemplo, a reta de mínimos quadrados de x sobre y é:

(10)

Note-se porém que, em geral, (10) não é a reta que ( 6).

LembrançaVocê deve tentar encontrar a equação por regressão linear somente se seus dados

tiverem uma relação linear.

Exemplo9.1 A Tabela 9-1 mostra o as respectivas alturas x e y da amostra de 12 pais e seus respectivos filhos mais velhos. Encontre a regressão dos mínimos quadrados de y em x.

Altura x do Pai (polegadas) 65 63 67 64 68 62 70 66 68 67 69 71Altura y do Filho (polegadas) 68 66 68 65 69 66 68 65 71 67 68 70

A linha de regressão de y em x é dada por y= ax+b que são obtidas resolvendo as equações normais:

Os dados são computados como seguem abaixo:

Usando esses dados, a equação normal é encontrada:

Para tanto econtramos a=35.82 e b=0,476, então y=35,82+0,476x é a equação de regressão linear.

A Reta de Mínimos quadrados em termos da variância e covariância amostrais

As variâncias e covariâncias amostrais de x e y são dadas por

(11)

Em função dessas expressões, as retas de regressão de mínimos quadrados de y sobre x e de x sobre y podem escrever-se respectivamente como:

e (12)

Se definirmos formalmente o coeficiente de correlação amostral por (13) então (12) pode escrever-se :

(14)

Em razão do fato de serem valores amostrais padronizados ou escores padronizados, os resultados (14) proporcionam um modo muito simples de memorizar as retas de regressão. È claro que as duas retas em ( 14) são distintas, a menos que r= +- 1, quando então todos os pontos amostrais se encontram sobre um reta, havendo assim correlação e regressão linear perfeitas.

É necessário notar também que, se as duas retas de regressão ( 14), se escrevem como

respectivamente , então : ( 15)

Até agora não levamos em conta a significação precisa do coeficiente de correlação; definimo-lo apenas formalmente em termos das variâncias e da covariância.

Erro de Padrão EstimadoSeja yest o valor estimado de y, correspondente a determinado valor de x, e obtido da

curva de regressão de y sobre x; então uma medida da dispersão em torno da curva de regressão é dada por:

(16)

Que se chama erro padrão da estimativa de y sobre x. Como ,

Vemos que, de todas as possíveis curvas de regressão, a curva de mínimos quadrados é a que apresenta menor erro padrão de estimativa. No caso de uma reta de regressão

, como a e b dados por (2), temos :

(17)

Ou (18)

Podemos também exprimir para a reta de mínimos quadrados em termos da variância e do coeficiente de correlação como:

(19)

Donde, incidentalmente, decorre, como corolário, que i.e.,

O erro padrão da estimativa goza de propriedades análogas às do desvio padrão. Por exemplo, se construirmos pares de retas paralelas à reta de regressão de y sobre x, às distancias de Sx.y, 2Sx.y e 3 Sx.y respectivamente, encontramos, para n suficientemente grande, cerca de 68%, 95%, 99,7%, respectivamente, dos pontos amostrais compreendidos entre pares de retas.

Assim como existe um estimador não-tendencioso da variância amostral, dado

por existe também um estimador não tendencioso do quadrado do erro

padrão da estimativa. Este estimador é dado por Por esta razão, alguns estatísticos preferem tomar ( 16) com n-2 em lugar de n no denominador.

As observações acima modificam-se facilmente para a reta de regressão de x sobre y ( quando então o erro padrão da estimativa se denota por S x,y) ou para regressão não-linear ou múltipla.

O coeficiente de correlação linear

Até agora definimos formalmente o coeficiente de correlação mediante (13), mas não examinamos sua significação. Para tal, notemos que, de (19) e das definições de Sy.x e Sy temos:

(20)

Podemos agora mostrar que :

(21)

A quantidade a esquerda de ( 21) é chamada de variação total. O primeiro somatório à direita de (21) é a variação não- explicativa, e o segundo somatório é a variação explicada. Esta terminologia decorre do fato de que os desvios y- yest se comportam de maneira aleatória ou imprevisível, enquanto que os desvios são explicados pela reta de regressão de mínimos quadrados e tendem, assim, a seguir um padrão definido. Decorre (20) e (21) que:

( 22)

Obs: O numerador é chamado de variação explicada e o denominador de variação total.

Assim, r2 poded ser interpretado como fração da vaiação total que é explicada pela reta de regressão de minimos quadrados. Em outras palavras, r mede quão bem a reta de regressão de minimos quadrados se ajusta aos dados amostrais. Se a variação total é toda explicada pela reta de regressão, isto é, se r2=1 ou r=+- , dizemos que há correlação linear perfeita. Por outro lado, se a variação explicada é zero, isto é, se a variação total é toda ela

não- explicada, r=0. Na prática, a quantidade r2, por vezes denominada coeficiente de determinação, situa-se entre 0 e 1.

O coeficiente de correlação pode ser calculado a partir de um dos dois resultados:

(23)

ou

(24)

Os quais, para regressão linear, são equivalentes. A formula (23) costuma chamar-se formula do momento- produto para correlação linear.

(25)

e

(26)

Utilizando a transformação (7):

(27)

O que mostra que r é invariante por translação de eixo. Em particular se h=, k=

, (27) se escreve:

(28)

Fórmula que costuma ser bastante útil nos calculos.

O coeficiente de correlação linear pode ser positivo ou negativo. Se r é positivo, y tende aumentar com x( o coeficiente angular da reta de mínimos quadrados é positivo) enquanto que se r é negativo, y tende a decrescer quando x cresce ( o coeficiente angular é negativo). O sinal é automaticamente levado em conta se ussarmos o resultado ( 23), (25), (26), (27) 2 (28). Contudo, ao utilizarmos (24) para obter r, devemos aplicar o sinal conveniente.

Coeficiente de correlação GeneralizadoA definição (23) ( ou de suas formas equivalentes (35) a (28)) do coeficiente de

correlação envolve somente valores amostrais x, y. Consequentemente, dá o mesmo número para todas as formas de curvas de regressão e é inoperante como medida de aderência de ajustamento, exceto no caso da regressão linear, quando coincide com(24). Contudo, a ultima definição, ou seja:

(29)

Obs: O numerador é chamado de variação explicada e o denominador variação total.

Reflete efetivamente a forma da curva de regressão (através de y est)e é, assim, adequadra como definição de um coeficiente de correlação generelizada r. Utilizamos (29) para obter coeficientes de correlação não-linear( que medem quão bem uma curva de regressão não-linear se ajusta aos dados) ou, mediante generelização apropriada, coeficientes de correlação multipla. A relação ( 19) entre o coeficiente de correlação e o erro padrão da estimativa vale também para correlação não-linear.

Exemplo 9.2 Econtre o coeficiente de determinação e o coeficiente de correlação do Exemplo 8.2

Relembre que a correlação de determinação é r2

O coeficiente de correlação é r.

Desde que y est aumenta quando x aumenta, a correlação é positiva,e podemos escrever escrever r= 0.7027, ou r= 0.70 para duas significâncias figuradas.

Como coeficiente de correlação mede simplesmente quão bem determinada curva de regressão ( ou superfície) se ajusta aos dados amostrais, não tem tem sentido utilizarmos um coeficiente de correlação linear quando os dados não são lineares. Suponha-se, Contudo, que apliquemos (23) a dados não lineares e obtenhamos um valor numérico consideravelmente inferior a 1. Então a conclusão a ser tirada não é que exista pequena correlação, e sim que existe pequena correlação linear. Na verdade, pode haver até uma grande correlação não linear.

Correlação e DependênciaSempre que duas variáveis aleatórias X e Y têm coeficientes de correlação diferente de

zero, sabemos que elas são dependentes no sentido probabilístico. Além disso, quando p≠ 0, podemos utilizar uma equação da forma(6) para predizer o valor de Y a partir de X.

Você precisa saberÉ Importante notar que correlação e dependência no sentido acima não implicam

necessariamente causal direta de X e Y. Os exemplos que seguem ilustram este fato.

Exxemplo 9.3

Variação explicada

---------------------------

Variação Total

epoli.pbworks.comepoli.pbworks.com/f/cap+09-crash+regressao+correlacao.docx · web viewa partir do...

Documents