epoli.pbworks.comepoli.pbworks.com/f/cap+09-crash+regressao+correlacao.docx · web viewa partir do...
Post on 13-Dec-2018
213 Views
Preview:
TRANSCRIPT
UNIVERSIDADE DE PERNAMBUCO
ESCOLA POLITÉCNICA DO RECIFE
TRADUÇÃO DO CAPÍTULO 9 DO LIVRO
Spiegel, M, Schiller, J & Srinivisan, A. SHAUM’S EASY OUTLINES: Probability and Statistics. Crash Course. McGraw-Hill, New York,
2001
RECIFE – 2010
Capitulo 9 Ajuste de Curvas, Regressão e Correlação
Muito frequentemente é constatado a existência de uma relação entre duas variáveis( ou mais) e se deseja expressar tal relação sob forma matemática, estabelecendo-se uma equação entre as variáveis. O primeiro passo para isso é a coleta de dados exibindo os valores correspondente das variáveis. Por exemplo, sejam x e y, respectivamente, altura e o peso de adultos de qualquer sexo. Uma amostra de n indivíduos acusaria alturas x1,x 2,..., xn e os correspondentes pesos y1,y2,..., yn . Um próximo passo é traçar os pontos ( x1, y1), (x2,y2)....(xn,yn) em um sistema de coordenadas retangulares. O conjunto chama-se diagrama de dispersão.
A partir do diagrama de dispersão é visualizado uma curva aproximativa dos dados.Curva essa chamada curva aproximadora. Na figura 9.1, por exemplo, os dados parecem bem aproximados por uma linha reta , é nós dizemos que há uma relação linear entre as variáveis. Na figura 9.2, conquanto exista uma relação entre as variáveis , tal relacionamento não é linear, diz-se então que há uma relação não-linear entre as variáveis. Na figura 9.3 não há nenhuma relação entre as variáveis.
O problema de determinar equações de curvas que se ajustem a determinados conjuntos de dados observados é chamado ajustamento de curvas, ou simplesmente ajustamento. Na prática, frequentemente o próprio diagrama de dispersão sugere o tipo de curva a ser adotado. Para a Figura 9-1, poderíamos usar uma linha reta :
Y= a + bx
Enquanto que, para a fig, 9-2, tentaríamos uma parábola, ou uma curva quadrática
Y= a + bx + cx2
Algumas vezes ajuda a montar o diagrama, em termos de variáveis transformadas. Por exemplo, se log y VS. log x trata uma linha reta, nós poderíamos testar log y= a +bx como uma equação que se aproxima da curva.
Regressão Um dos principais objetivos do ajustamento é estimar uma das variáveis ( variável
dependente) em função da outra ( Variavel independente). Processo esse designado regressão. Se y deve ser estimado em função de x por meio de uma equação, equação essa denominada equação de regressão de y sobre x e a curva correspondente é a curva de regressão de y sobre x.
O método dos mínimos quadradosGeralmente, mais de uma curva é ajustada a determinado conjunto de dados.
Para evitar critérios individuais na escolha de retas, parábolas, etc..., é necessário chegar-se a um acordo quanto ao que se deve entender por “ melhor reta”, “ melhor parábola ”.
A fim de evitar uma possível definição, consideramos a fig 9-4, em que os pontos dados são ( x1, y1),........, (x2, y2).
Para determinado valor de x, digamos x1, existira uma diferença ente o valor y1 e o correspondente valor “ajustado”, determinado pela curva C. Denotamos tal diferença por d1, e chamamos de desvio, erro ou resíduo; seu valor pode ser positivo, negativo ou zero. Analogamente, para os valores x2,........,xn obtemos os desvios d2,....., dn.
Uma medida da “aderência ”, ou “validade do ajustamento “ da curva C aos dados do problema é dada pela quantidade d12 + d22+........dn2. Se esta quantidade é pequena, o ajustamento é bom; se é grande, o ajustamento é mau. Formulamos , então, a
Definição : De todas as curvas que se aproximam de determinados conjunto de pontos, a curva que goza da propriedade
d12+ d22+.....+ dn2= mínimo ( é a melhor curva ajustadora)
Uma curva com esta propriedade se ajusta aos dados no sentido dos mínimos quadrados, e é chamada curva de regressão de mínimos quadrados, ou simplesmente curva de mínimos quadrados. Temos então reta de mínimo quadrados, parábolas de mínimos quadrados, etc.
É usual empregar a definição acima quando x é a variável independente e y é a variável dependente. Se x é variável dependente, modifica-se a definição, considerando- se desvios horizontais ao invés de verticais; o que equivale a permutar os eixos x e y. Essas duas definições conduzem em geral a duas curvas de mínimos quadrados diferentes. A menos que se especifique o contrário, consideraremos x como variável independente e y como variável dependente.
Você precisar saberOutra possibilidade consiste em considerar distâncias perpendiculares dos pontos
observados à curva, em lugar de distâncias horizontais ou verticais. Tal processo, entretanto,não é muito usado.
A reta de mínimos quadrados
Pela definição acima, pode mostrar que a reta de mínimos quadrados que aproxima, ou ajusta, o conjunto de pontos ( x1, y1),........, (xn,yn) tem por equação:
Y= a + bx (1)
Onde as constantes a e b são determinadas resolvendo-se o sistema
(2)
Chamado sistema de equações normais para a reta de mínimos quadrados. Note-se
que, para abreviar, usamos em lugar de
As equações normais ( 2) podem ser facilmente memorizadas notando-se que, formalmente, a primeira equação se obtém somando-se ambos os membros de (1), enquanto que a segunda equação se obtém multiplicando-se primeiro ambos os membros de (1) por x e somando-se em seguida. Obviamente, isto não é uma dedução das equações normais mas apenas um processo para memorizá-las. Os valores de a e b obtidos (2) são dados por:
(3)
O resultado de b pode escrever-se também:
(4)
O traço superior indica média, isto é, . A divisão de ambos os membros da primeira equação de (2) por n dá:
(5)
Assim, se quisermos, podemos primeiro determinar b a partir de (3) e (4) e então usar (5) para
determinar Isto equivale a escrever a reta de mínimos quadrados como
(6)
O resultado ( 6) mostra que a constante b, que é o coeficiente angular da rela (1), é a constante fundamental para determinar a reta. De ( 6) vê-se também que a reta de mínimos
quadrados passa pelo ponto , chamado centróide, ou centro de gravidade dos dados.
O coeficiente angular b da reta de regressão é independente da origem de coordenadas. Isto significa que, se fizermos a transformação ( translação dos eixos) dada por:
(7)
Onde h e k são constantes quaisquer , então b será tambem dado por:
(8)
Onde x , y foram substituídos por x’, y’( por esse motivo dizemos que b é invariante sob a transformação (7)). Note-se, todavia, que a ; intercepto da reta sobre o eixo 0x; depende efetivamente da origem(assim, não é variante).
No caso particular em que , ( 8) se simplifica para :
(9)
Os resultados (8) ou (9) são úteis para simplificar o trabalho de calculo na determinação da reta de mínimos quadrados. As observações acima valem também para a reta de regressão de x sobre y. Formalmente, os resultados se obtêm simplesmente permutando x e y. Assim, por exemplo, a reta de mínimos quadrados de x sobre y é:
(10)
Note-se porém que, em geral, (10) não é a reta que ( 6).
LembrançaVocê deve tentar encontrar a equação por regressão linear somente se seus dados
tiverem uma relação linear.
Exemplo9.1 A Tabela 9-1 mostra o as respectivas alturas x e y da amostra de 12 pais e seus respectivos filhos mais velhos. Encontre a regressão dos mínimos quadrados de y em x.
Altura x do Pai (polegadas) 65 63 67 64 68 62 70 66 68 67 69 71Altura y do Filho (polegadas) 68 66 68 65 69 66 68 65 71 67 68 70
A linha de regressão de y em x é dada por y= ax+b que são obtidas resolvendo as equações normais:
Os dados são computados como seguem abaixo:
Usando esses dados, a equação normal é encontrada:
Para tanto econtramos a=35.82 e b=0,476, então y=35,82+0,476x é a equação de regressão linear.
A Reta de Mínimos quadrados em termos da variância e covariância amostrais
As variâncias e covariâncias amostrais de x e y são dadas por
(11)
Em função dessas expressões, as retas de regressão de mínimos quadrados de y sobre x e de x sobre y podem escrever-se respectivamente como:
e (12)
Se definirmos formalmente o coeficiente de correlação amostral por (13) então (12) pode escrever-se :
(14)
Em razão do fato de serem valores amostrais padronizados ou escores padronizados, os resultados (14) proporcionam um modo muito simples de memorizar as retas de regressão. È claro que as duas retas em ( 14) são distintas, a menos que r= +- 1, quando então todos os pontos amostrais se encontram sobre um reta, havendo assim correlação e regressão linear perfeitas.
É necessário notar também que, se as duas retas de regressão ( 14), se escrevem como
respectivamente , então : ( 15)
Até agora não levamos em conta a significação precisa do coeficiente de correlação; definimo-lo apenas formalmente em termos das variâncias e da covariância.
Erro de Padrão EstimadoSeja yest o valor estimado de y, correspondente a determinado valor de x, e obtido da
curva de regressão de y sobre x; então uma medida da dispersão em torno da curva de regressão é dada por:
(16)
Que se chama erro padrão da estimativa de y sobre x. Como ,
Vemos que, de todas as possíveis curvas de regressão, a curva de mínimos quadrados é a que apresenta menor erro padrão de estimativa. No caso de uma reta de regressão
, como a e b dados por (2), temos :
(17)
Ou (18)
Podemos também exprimir para a reta de mínimos quadrados em termos da variância e do coeficiente de correlação como:
(19)
Donde, incidentalmente, decorre, como corolário, que i.e.,
O erro padrão da estimativa goza de propriedades análogas às do desvio padrão. Por exemplo, se construirmos pares de retas paralelas à reta de regressão de y sobre x, às distancias de Sx.y, 2Sx.y e 3 Sx.y respectivamente, encontramos, para n suficientemente grande, cerca de 68%, 95%, 99,7%, respectivamente, dos pontos amostrais compreendidos entre pares de retas.
Assim como existe um estimador não-tendencioso da variância amostral, dado
por existe também um estimador não tendencioso do quadrado do erro
padrão da estimativa. Este estimador é dado por Por esta razão, alguns estatísticos preferem tomar ( 16) com n-2 em lugar de n no denominador.
As observações acima modificam-se facilmente para a reta de regressão de x sobre y ( quando então o erro padrão da estimativa se denota por S x,y) ou para regressão não-linear ou múltipla.
O coeficiente de correlação linear
Até agora definimos formalmente o coeficiente de correlação mediante (13), mas não examinamos sua significação. Para tal, notemos que, de (19) e das definições de Sy.x e Sy temos:
(20)
Podemos agora mostrar que :
(21)
A quantidade a esquerda de ( 21) é chamada de variação total. O primeiro somatório à direita de (21) é a variação não- explicativa, e o segundo somatório é a variação explicada. Esta terminologia decorre do fato de que os desvios y- yest se comportam de maneira aleatória ou imprevisível, enquanto que os desvios são explicados pela reta de regressão de mínimos quadrados e tendem, assim, a seguir um padrão definido. Decorre (20) e (21) que:
( 22)
Obs: O numerador é chamado de variação explicada e o denominador de variação total.
Assim, r2 poded ser interpretado como fração da vaiação total que é explicada pela reta de regressão de minimos quadrados. Em outras palavras, r mede quão bem a reta de regressão de minimos quadrados se ajusta aos dados amostrais. Se a variação total é toda explicada pela reta de regressão, isto é, se r2=1 ou r=+- , dizemos que há correlação linear perfeita. Por outro lado, se a variação explicada é zero, isto é, se a variação total é toda ela
não- explicada, r=0. Na prática, a quantidade r2, por vezes denominada coeficiente de determinação, situa-se entre 0 e 1.
O coeficiente de correlação pode ser calculado a partir de um dos dois resultados:
(23)
ou
(24)
Os quais, para regressão linear, são equivalentes. A formula (23) costuma chamar-se formula do momento- produto para correlação linear.
(25)
e
(26)
Utilizando a transformação (7):
(27)
O que mostra que r é invariante por translação de eixo. Em particular se h=, k=
, (27) se escreve:
(28)
Fórmula que costuma ser bastante útil nos calculos.
O coeficiente de correlação linear pode ser positivo ou negativo. Se r é positivo, y tende aumentar com x( o coeficiente angular da reta de mínimos quadrados é positivo) enquanto que se r é negativo, y tende a decrescer quando x cresce ( o coeficiente angular é negativo). O sinal é automaticamente levado em conta se ussarmos o resultado ( 23), (25), (26), (27) 2 (28). Contudo, ao utilizarmos (24) para obter r, devemos aplicar o sinal conveniente.
Coeficiente de correlação GeneralizadoA definição (23) ( ou de suas formas equivalentes (35) a (28)) do coeficiente de
correlação envolve somente valores amostrais x, y. Consequentemente, dá o mesmo número para todas as formas de curvas de regressão e é inoperante como medida de aderência de ajustamento, exceto no caso da regressão linear, quando coincide com(24). Contudo, a ultima definição, ou seja:
(29)
Obs: O numerador é chamado de variação explicada e o denominador variação total.
Reflete efetivamente a forma da curva de regressão (através de y est)e é, assim, adequadra como definição de um coeficiente de correlação generelizada r. Utilizamos (29) para obter coeficientes de correlação não-linear( que medem quão bem uma curva de regressão não-linear se ajusta aos dados) ou, mediante generelização apropriada, coeficientes de correlação multipla. A relação ( 19) entre o coeficiente de correlação e o erro padrão da estimativa vale também para correlação não-linear.
Exemplo 9.2 Econtre o coeficiente de determinação e o coeficiente de correlação do Exemplo 8.2
Relembre que a correlação de determinação é r2
O coeficiente de correlação é r.
Desde que y est aumenta quando x aumenta, a correlação é positiva,e podemos escrever escrever r= 0.7027, ou r= 0.70 para duas significâncias figuradas.
Como coeficiente de correlação mede simplesmente quão bem determinada curva de regressão ( ou superfície) se ajusta aos dados amostrais, não tem tem sentido utilizarmos um coeficiente de correlação linear quando os dados não são lineares. Suponha-se, Contudo, que apliquemos (23) a dados não lineares e obtenhamos um valor numérico consideravelmente inferior a 1. Então a conclusão a ser tirada não é que exista pequena correlação, e sim que existe pequena correlação linear. Na verdade, pode haver até uma grande correlação não linear.
Correlação e DependênciaSempre que duas variáveis aleatórias X e Y têm coeficientes de correlação diferente de
zero, sabemos que elas são dependentes no sentido probabilístico. Além disso, quando p≠ 0, podemos utilizar uma equação da forma(6) para predizer o valor de Y a partir de X.
Você precisa saberÉ Importante notar que correlação e dependência no sentido acima não implicam
necessariamente causal direta de X e Y. Os exemplos que seguem ilustram este fato.
Exxemplo 9.3
Variação explicada
---------------------------
Variação Total
top related