figura 2 ballentine de r²: a) r²=0;f) r²=1. yx a yx b yx c yx d e y xy x f

15
Coeficiente de determinación r²: una medida de la “bondad del ajuste” Hasta el momento, nuestro análisis se centró en el problema de estimar los coeficientes de regresión. Sus errores estándar y algunas de sus propiedades. Veremos ahora la bondad del ajuste de la línea de regresión a un conjunto de datos; es decir veremos cuan “bien” se ajusta la línea de regresión a los datos. De la figura 2, es claro que si todas las observaciones cayesen en la línea de regresión, obtendremos un ajuste “perfecto”, pero rara vez se presenta este caso. Por lo general hay algunas ûᵢ positivas y algunas ûᵢ negativas. Se tiene la esperanza de que estos residuos alrededor de la línea de regresión sean lo más pequeños posibles. El coeficiente de determinación r² (caso de dos variables) o (regresión múltiple) es una explicación heurística de r² en términos de una herramienta gráfica, conocida como el diagrama de Venn o de Ballentine, que aparece en la figura 2

Upload: gonzalo-cristobal-guzman-ojeda

Post on 02-Feb-2016

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

Coeficiente de determinación r²: una medida de la “bondad del ajuste”

Hasta el momento, nuestro análisis se centró en el problema de estimar los coeficientes de regresión. Sus errores estándar y algunas de sus propiedades. Veremos ahora la bondad del ajuste de la línea de regresión a un conjunto de datos; es decir veremos cuan “bien” se ajusta la línea de regresión a los datos. De la figura 2, es claro que si todas las observaciones cayesen en la línea de regresión, obtendremos un ajuste “perfecto”, pero rara vez se presenta este caso. Por lo general hay algunas ûᵢ positivas y algunas ûᵢ negativas. Se tiene la esperanza de que estos residuos alrededor de la línea de regresión sean lo más pequeños posibles. El coeficiente de determinación r² (caso de dos variables) o R² (regresión múltiple) es una explicación heurística de r² en términos de una herramienta gráfica, conocida como el diagrama de Venn o de Ballentine, que aparece en la figura 2

Page 2: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

Figura 2

Ballentine de r²:a) r²=0;f) r²=1.

Y X

a

Y X

b

Y X

c

Y X

d e

Y X Y X

f

Page 3: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

En la figura 2, el circulo Y representa la variación en la variable dependiente Y, y el circulo X, la variación en la variable explicativa X. la intersección de los dos círculos (el área sombreada) indica la medida en la cual la variación en Y se explica por la variación en X (por ejemplo, mediante una regresión de MCO). Entre mayor sea la medida de la intersección, mayor será la variación en Y que se explica por X. r² es tan solo una medida numérica de esta intercepción. En la figura 2 que se va izquierda y derecha, el área de la intersección aumenta, es decir, sucesivamente hay una proporción cada vez mayor de la variación en Y que se explica por X. en resumen, r² aumenta. Cuando no hay intersección, obviamente r² es cero, pero cuando la intersección es completa, r² es 1, pues ciento por ciento de la variación en Y se explica por X. como mostraremos en breve, r² se encuentra entre 0 y 1.

Page 4: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

Para calcular r² se procede de la siguiente forma: recuerde que.Yᵢ= Yᵢ + ûᵢEn forma de desviación,yᵢ= yᵢ + ûᵢ

Donde se emplean. al elevar al cuadro en ambos lados y sumar sobre la muestra, obtenemos

Pues Σ Ŷᵢ ûᵢ=0 (¿por qué?) y Ŷᵢ=β2xᵢ.

Las diversas sumas de cuadrados en se describe de la siguiente manera: Σyᵢ²= Σ(yᵢ-yᵢ)²= variación total de los valores reales de Y respecto de su media muestral, que pueda dominarse la suma de cuadrados total (SCT). Σ Ŷᵢ²= Σ(yᵢ-y)²= Σ(yᵢ-y)²=β2² Σxᵢ²= variación de los valores de Y estimados alrededor de su media (Ŷᵢ- Ŷ), que apropiadamente puede llamarse la suma de cuadrados debida a la regresión [es decir, debida a la(s) variable(s) explicativa(S)], o explicada por esta, o simplemente la suma de cuadrados explicada.

Page 5: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

0

ŷ

Xi

FRMY

X

(Yi - debido a la regresión

i = debido al resido

(Yi - i

β1 + β2Xi

Page 6: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

(SCE). Σ ûᵢ²= la variación residual o No explicada de los valores de Y alrededor de la línea de regresión, o solo la suma de cuadrados de los residuos (SCR). Así, es:

Y muestra que la variación total en los valores Y observados alrededor del valor de su media puede dividirse en dos partes, una atribuible a la línea de regresión y la otra a fuerzas aleatorias, pues no todas las observaciones Y caen sobre la línea ajustada. Geométricamente, tenemos la figura.Ahora, al dividir la ecuación entre la SCT en ambos lados, se obtiene:

Ahora definamos r² como:

Page 7: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

r²O también como.

La cantidad r² así definida se conoce como coeficiente de determinación (muestral), es la medida más común de la bondad del ajuste de una línea de regresión. Verbalmente, r² mide la proporción o el porcentaje de la variación total en Y explicada por el modelo de regresión.

Pueden observarse dos propiedades de r²:1.- Es una cantidad no negativa. (¿por qué?)2.- Sus límites son 0<r²<1. Un r² de 1 significa un ajuste perfecto, es decir, Ŷᵢ= Ŷᵢ por cada i. por otra parte, un r²de cero significa que no hay relación alguna entre la variable regresada y la variable regresorá (es decir, β2=0). En este caso, como indica, Ŷᵢ=β1= Ŷ, es decir, la mejor predicción de cualquier valor de Y es simplemente el valor de su media. En esta situación, por consiguiente, la línea de regresión será horizontal al eje X.

Page 8: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

A pesar de que r² puede calcularse directamente a partir de su definición en, su valor se obtiene más rápido con la siguiente formula:

Si dividimos el numerador y el denominador de por el tamaño n de la muestra (o n -1, si la muestra es pequeña), obtenemos:

Page 9: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

Donde S²y Y S²x son las varianzas muéstrales de Y y X, respectivamente.Como β²=Σxᵢ yᵢ/Σxᵢ², esta ecuación también se expresa como.

Expresión fácil de calcular.Con la definición de r², SCE y SCR, explicadas antes, se expresan de la siguiente forma:

Por consiguiente, escribimos

Page 10: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

Expresión que nos será muy útil más adelante.Una cantidad estrechamente relacionada con r² pero conceptualmente muy diferente es el coeficiente de correlación, el cual, como mencionamos en el capítulo 1, es una medida del grado de asociación entre variables. Se calcula a partir de r=≠O de su definición

Que se conoce como coeficiente de correlación muestral.Algunas propiedades de r son siguientes (véase la figura 3:

Page 11: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

1.- Puede tener signo positivo o negativo, según el signo del término en el numerador de, el cual mide la covaración muestral de dos variables.2.- Cae entre los límites de -1 y +1; es decir, -1r1.3.- Es simétrico por naturaleza; es decir, el coeficiente de correlaciona entre X y Y (rxy) es el mismo que entre Y y X (ryx).4.- Es independiente del origen de la escala; es decir, si definimos X Ti = aXᵢ + c y Yᵢ˟=bY +d, donde yᵢ=byᵢ+dónde a0, b0, y c y d son constantes, entonces r entre X˟ y Y˟ es igual a r entre las variables originales X y Y.5.- Si X y y son estadísticamente independientes, coeficiente de correlaciona entre ellas es cero; pero si r=0, esto significa que las dos variables sean independientes. En otras palabras, una correlación igual a cero no necesariamente implica independencia.6.- Es una medida de asociación lineal o dependencia lineal solamente; su uso en la descripción de relaciones no lineales no tienen significado.

Page 12: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

En el contexto de la regresión, r² es una medida con más significado que r, pues la primera indica la proporción de la variación en la variable dependiente explicada por la(s) variables(s) explicativa(s) y, por consiguiente, constituye una medida global del grado en que la variación en una variable determina la variación en la otra. La segunda no tiene tal valor. Además, como veremos, la interpretación de r (=R) en un modelo de regresión múltiple es de valor dudoso. Observe la r² definida antes también puede calcularse calcular como coeficiente de correlación entre la yᵢ real y la Yᵢ estimada. A saber, Ŷᵢ, elevado al cuadrado. Es decir, con, se escribe.

Es decir,

Donde yᵢ =y real Ŷᵢ=y estimada y Ŷ=Ŷ= Media de Y.

Page 13: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

FIGURA 2Patrones de correlación

Y

X

r = + 1

Y

X

r = - 1

Y

X

r cerca de + 1

a b

c

Page 14: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

Y

X

r cerca de - 1

Y

X

r positivo pero cerca de cero

Y

X

r negativo pero cerca de cero

d e

f

Page 15: Figura 2 Ballentine de r²: a) r²=0;f) r²=1. YX a YX b YX c YX d e Y XY X f

Y

X

r = 0

Y

X

Y = X2 pero r = 0

g h