módulo 1. regresión lineal simple y múltiple

97
MÉTODOS EST ADÍSTICOS I  ESTADÍSTICA MATEMÁTICA II Módulo 1. Regresión Lineal Simple y Múltiple Diana Marcela Pérez Valencia Departamento de Ingeniería Industrial Facultad de Ingeniería Universidad de Antioquia  julio de 20 14

Upload: andres-felipe-jaramillo-hijuelos

Post on 03-Jun-2018

231 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 1/97

Page 2: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 2/97

MODELO DE REGRESIÓN LINEAL SIMPLE-------------------------------------------------------------------

2

Page 3: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 3/97

Modelo de regresión lineal simple

• OBJETIVO: Determinar si existe alguna relación entre dos variables. A partir de esta relación

se desea poder predecir los valores de una variable a partir de los valores de otra variable

• Específicamente el modelo de regresión lineal simple nos permite construir un modelo para

explicar la relación entre dos variables:

— Y : Variable dependiente o de respuesta

— X : Variable independiente o explicativa

3

Page 4: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 4/97

Modelo de regresión lineal simpleLas relaciones entre dos variables pueden ser de dos tipos:

1. Funcionales o determinísticas.  Existe una ecuación matemática que permite calcular los

valores de una de las variables a partir de los valores que toma la otra.

2. Probabilísticas.  No existe una expresión matemática que las relacione de forma exacta. Larelación es estadística (implica aleatoriedad) y no funcional.

4

Page 5: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 5/97

Diagramas de dispersión y curvas de regresión• Antes de comenzar con cualquier análisis es necesario representar los datos de manera

gráfica.

• Los gráficos nos pueden ayudar a identificar el tipo de modelo que estamos buscando, o

también ayudan a identificar posibles observaciones que puedan estar influenciando los

análisis

5

Page 6: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 6/97

Diagramas de dispersión y curvas de regresión

1 2 3 4 5

          1

          2

          3

          4

          5

x

       y

1 2 3 4 5

    -          5

    -          4

    -          3

    -          2

    -          1

x

       y

0.5 1.0 1.5 2.0 2.5

          6          0

          6          5

          7          0

          7          5

          8          0

x

       y

-2.5 -2.0 -1.5 -1.0 -0.5

          6          0

          6          5

          7          0

          7          5

          8          0

x

       y

0.5 1.0 1.5 2.0 2.5

          6          0

          6          5

          7          0

          7          5

          8          0

x

       y

6

Page 7: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 7/97

Propósitos del análisis de regresión

• Descripción de los datos

• Estimación de parámetros

• Predicción y estimación

• Control

7

Page 8: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 8/97

Modelo de regresión lineal simple• Simple. Hay sólo una variable independiente, explicativa o predictora

• Lineal

— Lineal en los parámetros: Ningún parámetro aparece como exponente o está

multiplicado o dividido por otro parámetro— Lineal en la variable predictora: Aparece sólo en la primera potencia

8

Page 9: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 9/97

Recta de regresión

• Recta que mejor se ajusta a la nube de puntos.

• De manera formal el modelo queda representado por

Donde,

Yi: Valor de la variable respuesta en el i-ésimo ensayo

β0, β1: Parámetros

Xi: Constante conocida. Valor de la variable predictora en el i-ésimo ensayo

ei: Término del error aleatorio (ei~Normal(0,σ2) iid)

i i i   e X Y   

  10     

9

Page 10: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 10/97

Recta de regresión

Yi es la suma de dos componentes:

1. β0+ β

1X

i: término constante

2. ei: Término aleatorio

Así que,

Entonces Yi~Normal(β0+ β1Xi,σ2)

De esta forma, la recta de regresión estimada sería,

2

10

101010

     

            

][][][

][][][

i i i i 

i i i i i i 

eVar e X Var Y Var 

 X eE  X e X E Y E 

i i   X Y 

10        ˆˆˆ  

10

Page 11: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 11/97

 

Para cada observación (xi

,yi

) el error o

residuo de estimación, ei, se define como la

distancia vertical entre el punto (xi,yi) y la

recta, es decir:

i i i    Y Y e   ˆ

Modelo de regresión lineal simple

11

Page 12: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 12/97

Page 13: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 13/97

Estimación de los parámetros de la regresión

• Para determinar los parámetros β0  y β1 del modelo de regresión, usaremos el método de los

mínimos cuadrados , el cual consiste en minimizar

• Los estimadores de β0 y β1 , serían , se hallan como

 

n

i i 

n

i i   X Y Y Y Q

1

2

10

1

2

       ˆˆˆ

10        ˆˆ y 

  i 

n

i i 

n

i i 

n

i i 

n

i i 

 X  X Y  X Y 

 X Y  X Y 

1

10

1

2

10

1

1

10

1

2

10

0

2

2

          

          

ˆˆˆˆˆ

ˆˆˆˆˆ

13

Page 14: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 14/97

Estimación de los parámetros de la regresión

• Igualando a cero obtenemos el “sistema de ecuaciones normales” 

• De donde las soluciones vienen dadas por:

  0

0

1

10

1

10

n

i i 

n

i i 

 X  X Y 

 X Y 

    

    

ˆˆ

ˆˆ

Nota.  son estimadores

insesgados y de mínima

varianza

  n

n

i i 

 X  X 

Y Y  X  X 

y  X Y 

1

2

1

110          ˆˆˆ

10        ˆ y ˆ

14

Page 15: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 15/97

Propiedades de la recta de regresión ajustada

1. La suma de residuales es cero,

2.   es mínima

3. La suma de los valores observados es igual a la suma de valores ajustados o esperados,

4. La línea de regresión siempre pasa por el punto

n

i e

1

0

n

n

i i   y y 

1 1

ˆ

Y  X ,

n

i e

1

2

15

Page 16: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 16/97

Estimación de la varianza del término del error (σ2)

• Se necesita estimar la varianza de los términos del error en el modelo de regresión para

obtener un indicador de la variabilidad de Y.

Sea

• Note que la suma de cuadrados de Y es la desviación de una observación Yi de su media .

Al dividir esta cantidad por n-1 se obtiene la varianza muestral de Y

• Donde n-1 son los grados de libertad (sólo se debe estimar un parámetro)

YlasdecuadradosdeSuma:1

2

n

i    Y Y 

1

1

2

2

n

Y Y 

S

n

16

Page 17: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 17/97

Estimación de la varianza del término del error (σ2)

• En el modelo de regresión lineal simple tenemos que

• Así que denotemos la suma de cuadrados del error SSE como

• La SSE tiene n-2 grados de libertad asociados, pues se deben estimar β0 y β1

Al dividir la SSE por los grados de libertad, obtenemos los cuadrados medios del error

De donde MSE es un estimador insesgado de σ2

, es decir,

n

n

i    Y Y eSSE 1

2

1

2 ˆ

2

ˆ

2

1

2

n

Y Y 

n

SSE MSE 

n

i i i    Y Y e   ˆ

2

)(   σ MSE E    17

Page 18: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 18/97

Inferencias en el análisis de regresión. Inferencia s sobre β1 

• Se desea verificar la hipótesis

• Si no se rechaza H0, entonces no hay asociación lineal entre X y Y, más aún, implica que no existe

ningún tipo de asociación entre X y Y.

• Para el modelo de regresión que asume normalidad en los errores,

• Al estandarizar a queda que,

00 110         :.:aHvsH

 

 

 

 

 

n

i i 

i   X  X 

MSE SNormal 

2

2

111  

      ˆ

,~ˆ

1  ̂ 2

11

1

  n

t S

t  ~ˆ

ˆ  

    

18

Page 19: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 19/97

Inferencias en el análisis de regresión. Inferencia s sobre β1 

• De este modo un IC al (1-α)% para β1 es:

• De igual modo se puede construir una prueba de hipótesis para β1 donde el estadístico de

prueba es:

1

1

  

  

ˆ

ˆ

*S

t   

12211      

  ˆ,/ˆ St  n

19

Page 20: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 20/97

Page 21: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 21/97

Ejemplo 1. Se desea estudiar la relación entre el promedio de goles a favor de un equipo (y) y

el número de partidos jugados por éste (x)

1. Grafique la relación entre las dos variables

2. Corra un modelo de regresión lineal del promedio de goles a favor en función del número

de partidos jugados. Escriba el modelo e interprete los parámetros, ¿son estos

significativos?. Calcule IC para β1 e interprételos

3. ¿Este modelo es igual si corre el número de partidos jugados en función del númeropromedio de goles?

4. Grafique el ajuste de los dos modelos

5. Verifique las propiedades de la recta de regresión

21

Page 22: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 22/97

Análisis de varianza (ANOVA)

El análisis de varianza se basa en la partición de la suma de cuadrados y grados de libertad asociados con

la variable respuesta Y

Y Y i     i i 

  Y Y    ˆ   Y Y i  ˆ

Variación de las Y sin tener en cuenta

X. Desviación total.

Suma de cuadrados totales

Variación de las Y alrededor de la

línea de regresión.

Suma de cuadrados del error

Variación de las predicciones alrededor d

su valor medio.

Suma de cuadrados de la regresión

n

i    Y Y SSTO1

2

n

i i   Y Y SSE 

1

2ˆ  

n

i    Y Y SSR

1

22

Page 23: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 23/97

Análisis de varianza (ANOVA). Sobre los grados de libertad (gl ó df)

• Los grados de libertad son un estimador del número de categorías independientes en una

prueba particular o experimento estadístico.

• Se calculan mediante la fórmula n − r , donde

—   n=número de sujetos en la muestra (también pueden ser representados por k  − r ,

donde k =número de grupos, cuando se realizan operaciones con grupos y no con sujetos

individuales)

—   r  es el número de sujetos o grupos estadísticamente dependientes

• Los grados de libertad asociados con la SSTO son n-1 (asociados con )

• Los grados de libertad asociados con la SSE son n-2 (asociados con )

• La SSE tiene 1 gl asociado

10        ˆˆ y 

23

Page 24: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 24/97

Análisis de varianza (ANOVA). Cuadrados medios

Se obtienen al dividir por los grados de libertad

Recuerde que los cuadrados medios del error son una estimación de 2 !!

Nota. Las sumas de cuadrados no son aditivas

regresiólademediosCuadrados:1

SSRSSR

MSR  

errordelmediosCuadrados:2

n

SSE MSE 

24

Page 25: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 25/97

 

Medidas descriptivas de asociación entre X & Y. Coeficiente de determinación R2 

El R2 Mide el porcentaje de variación total de Y que está siendo explicada por X

10,

ˆ

2

1

2

1

2

2

 R

SSTO

SSR

Y Y 

Y Y 

 Rn

i

i

n

i

i

25

Page 26: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 26/97

Page 27: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 27/97

Medidas descriptivas de asociación entre X & Y. Coeficiente de correlación

0 10 20 30 40 50

   0

   5   0   0

   1   0   0   0

   1   5   0   0

   2   0   0   0

   2   5   0   0

x

  y   2

R=0.9522097

0 10 20 30 40 50

   0

   1   0

   2   0

   3   0

   4   0

   5   0

x

  y

R=1

27

Page 28: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 28/97

Prueba general del modelo. Prueba de bondad de ajuste 

Sean:

•   El modelo completo o “Full” 

•   El modelo reducido

Entonces,

• 00

• 00

Y se desea probar

Es decir, se desea verificar si el modelo es

significativo

El estadístico de prueba será

Así, si , se rechaza H0

i i i    e X Y      10      

i i   eY      0  

  SSE  X Y SSE n

i i F  

1

2

10        ˆˆ

    SSTOY Y Y SSE n

n

i R       1

2

1

2

0  ̂

00 110         :.: aHvsH

MSE 

MSRF   *

F F R   gl gl gl αF F 

;;1

*

28

Page 29: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 29/97

Respuesta media e intervalos de confianza para la respuesta media

La respuesta media cuando X=Xh, se denota por y se calcula de la siguiente forma

• Un IC al 100(1-α)% para es

• Donde

hY nαh

  st Y ˆ2;2/1

ˆ

hY ˆ

hY ̂

hh   X Y 10

        ˆˆˆ  

2

22

)(

)(1ˆ  X  X 

 X  X 

nMSE s

h

h

hY 

29

Page 30: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 30/97

Predicción de una nueva observación e intervalos de predicción

Se dice que se predice una nueva observación en Y cuando es vista como el resultado de unnuevo ensayo, independiente de los ensayos en los que se basó el análisis de regresión.

• La predicción de una nueva observación cuando X=Xh, se denota por y se calcula como

Un Intervalo de Predicción al 100(1-α)% para es

Y αnew h  szY  2/1)(

ˆ

)(ˆ

new hY 

)(ˆ

new hY 

hnew h   X Y  10         ˆˆˆ)(  

30

Page 31: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 31/97

Diferencia entre la respuesta media y la predicción de una nueva observación

• Para estimamos la media de la distribución de Y.

• Para predecimos un resultado individual tomado de la distribución de Y

¿Cómo plantearía esta diferencia en el contexto de los datos del Ejemplo 1?

)(ˆ

new hY 

hY ̂

31

Page 32: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 32/97

Ejemplo 1 (Continuación). Para los datos del ejemplo 1

1. Haga el análisis de varianza. Interprete todas las salidas y plantee hipótesis

2. Haga un análisis sobre el R2

3. Calcule valores para la respuesta media con sus respectivos IC del 95%, grafíquelos e

interprételos.

4. Haga predicciones de nuevas observaciones y calcule sus respectivos intervalos de predicción

al 95%. Grafique e interprete

5. Qué diferencia hay entre los dos intervalos de los puntos (3) y (4)

32

Page 33: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 33/97

Diagnóstico y medidas remediales

Objetivo. Probar la validez del modelo en función del cumplimiento de los supuestos• Supuestos del modelo. Puesto que los valores de las observaciones en la variable respuesta

están en función de la variable predictora, entonces los diagnósticos del modelo se realizan a

través de los residuales, los cuales deben cumplir:

1. Los residuales son estadísticamente independientes

2. ei ~ Normal(0,σ2)

3.   σ2 es constante

33

Page 34: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 34/97

Diagnóstico y medidas remediales

A través del diagnóstico del modelo, también se pueden verificar los siguientes aspectos:

• La función de regresión no es lineal

Influencia de datos atípicos o outliers en el modelo

34

Page 35: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 35/97

Diagnóstico y medidas remediales. Independencia de los términos del error 

Diagnóstico. Use los gráficos de residuales vs. secuencia, acf (función de autocorrelación) ypacf (función de autocorrelación parcial). Use la prueba de Durbin-Watson

(dwtest{lmtest},  durbinWatsonTest{car}) y la prueba de Breusch-Godfrey

(bgtest{lmtest}) para verificar

H0: Corr(εi, ε j ) = 0 i≠j (i.e., independencia) vs. Ha: Corr(εi , ε j ) ≠ 0 para algún i≠j • Medidas remediales. Si este supuesto no se cumple se sugiere cambiar de modelo a otro que

considere la estructura de correlación de los errores

35

Page 36: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 36/97

Diagnóstico y medidas remediales. Independencia de los términos del error 

36

Gráficos de Residuales vs. secuencia de los datos, con problemas de independencia

Page 37: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 37/97

Diagnóstico y medidas remediales. Independencia de los términos del error 

37

5 10 15 20

  -   1 .   0

  -   0 .   5

   0 .   0

   0 .   5

   1 .   0

Lag

   P  a  r   t   i  a   l   A   C   F

0 5 10 15 20

  -   1 .   0

  -   0 .   5

   0 .   0

   0 .   5

   1 .   0

Lag

   A   C   F

Comportamiento de la acf y pacf cuando Corr(εi, ε j ) = 0 ∀ i≠j (i.e., independencia)

Page 38: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 38/97

Diagnóstico y medidas remediales. Varianza constante de los términos del error 

• Diagnóstico. Use los gráficos de residuales vs. valores ajustados, residuales vs. variable

independiente. Use la prueba de Breusch-Pagan (bptest{lmtest}) o Score Test for Non-

Constant Error Variance (ncv.test{car}) para verificar

• Medida remedial. Si este supuesto no se cumple se sugiere transformar la variable respuesta Y

constantesno:.constantees:

22

0  σ 

Hvsσ 

H a

38

Page 39: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 39/97

Diagnóstico y medidas remediales. Normalidad de los términos del error 

• Diagnóstico. Use los gráficos histograma(hist()), boxplot(boxplot()) y

qqplot(qqPlot{car}) de los residuales. Use las pruebas de normalidad Shapiro-Wilk

(shapiro.test{stats}), Jarque-Bera (jarque.bera.test{tseries}),

Anderson-Darling  (ad.test{nortest}), Cramer-von Mises

(cvm.test{nortest})), para verificar

• Medidas remediales. Si este supuesto no se cumple se sugiere transformar la variable respuesta

Y. Se sugiere verificar este supuesto desde el comienzo de la modelación

)(~:.~:   x  f eHvsNormal eH i ai 0

39

Page 40: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 40/97

Transformaciones de Potencia

• Si no se cumple el supuesto de normalidad o de homogeneidad de varianza, una alternativa

es considerar transformaciones de los datos.

• Las transformaciones no son más que una reexpresión de los datos en unidades diferentes.

• No es fácil la selección de una transformación adecuada. Una familia útil de

transformaciones es la familia de transformaciones de potencia, definida sólo para variables

positivas. 

40

Page 41: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 41/97

Transformaciones de Potencia

• La familia de transformaciones de potencia es indexada con el parámetro λ.

• Un valor dado de λ implica una transformación particular.

• Los valores de λ más usados son:

2

2

2

1

50

0

150

11

12

 X 

 X 

 X 

 X Ln

 X 

 X 

 X 

 

 

 

 

 

 

 

.

)(

.

41

Page 42: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 42/97

Transformaciones de Potencia 

• El método analítico de Box-Cox está disponible para elegir una adecuada transformación de

potencia

Ellos consideran una ligera familia modificada de transformaciones de potencia

• λ se obtiene como el valor de λ que minimiza la suma de cuadrados

• donde es la media de la serie transformada usando λ 

0

01

 

  

 

 

si  X Ln

si  X 

 X 

)(

)(

n

i  X S

1

2

 

       ˆ)(

  ˆ42

Page 43: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 43/97

Ejemplo 1 (Continuación). Para los datos del ejemplo 1

i. Valide el modelo de regresión lineal del número promedio de goles por partido en función del

número de partidos ganados.

ii. Aplique transformaciones de potencia en caso de ser necesario.

43

Page 44: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 44/97

Diagnóstico y medidas remediales. Función de regresión no lineal 

• Diagnóstico.  Use los gráficos de residuales vs. los valores ajustados o residuales vs. variable

predictora. Use la prueba F de bondad de ajuste para verificar si el modelo es lineal

• Medidas remediales. Si la función de regresión no es lineal se sugiere trabajar con un modelo

de orden superior (ver ANEXO 3)

Modelo Lineal Modelo Polinomial

44

Page 45: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 45/97

Diagnóstico y medidas remediales. Presencia de observaciones influenciales 

• Diagnóstico. Use el gráfico de residuales estandarizados vs. valores ajustados o residuales vs.

variable predictora. Un dato puede considerarse como sospechoso de ser un valor influencial

si está alejado de más de 3 o 4 desviaciones estándar de cero.

Medidas remediales. Se debe identificar la razón por la cual este punto(s) se sale de control.Después debe ser eliminado(s) y se debe correr nuevamente el modelo sin estos puntos

45

Page 46: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 46/97

Diagnóstico y medidas remediales. Presencia de observaciones influenciales 

• Después de identificar gráficamente casos que son outliers en sus valores de Y y/o en sus

valores de las X’s, el paso a seguir es verificar si estos posibles outliers pueden llegar a ser

influenciales.

• Un caso es influencial si su exclusión del modelo causa grandes cambios en la predicción de la

respuesta media o en los coeficientes de regresión ajustados.

• Estudiaremos 2 medidas de influencia que se usan comúnmente en la práctica. Cada una está

basada en la omisión del caso particular para medir su influencia.

46

Page 47: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 47/97

Identificando casos influenciales. Influencia en un valor ajustado particular - DFFITS

• Una medida útil de la influencia que tiene el caso i  sobre el valor ajustado está dada por

• Donde es el valor predicho para el i-ésimo caso obtenido cuando el i-ésimo caso es omitido al

ajustar la función de regresión.

• El denominador es la desviación estándar de , pero usa el MSE cuando el i-ésimo caso es omitido

• El denominador da una estandarización, así que el valor DFFITS i para el i-ésimo caso representa el

número de desviaciones estándar estimadas de que el valor ajustado incrementa o decrementa

con la inclusión del i-ésimo caso al ajustar el modelo de regresión

• Se sugiere considerar un caso como influencial si |DFFITS i|>1 para conjuntos pequeños o medianos

y |DFFITSi|>2sqrt(p/n) para conjuntos de datos grandes

i Y ̂

ii i 

i i i 

i hMSE 

Y Y DFFITS

)(

)(ˆˆ 

)(ˆ

i i Y 

i Y ̂

i Y ̂

i Y ̂

47

Page 48: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 48/97

Identificando casos influenciales. Influencia en los coeficientes de regresión - DFBETAS

• Una medida de la influencia del i-ésimo caso en cada coeficiente de regresión βk se calcula

como

• El signo de los valores de los DFBETAS indican si la inclusión de un caso llevó a un incremento

o no del coeficiente estimado de la regresión, y su magnitud absoluta muestra el tamaño de

la diferencia relativa a las desviaciones estándar estimadas de los coeficientes de regresión.

• Se recomienda considerar un caso como influencial si |DFBETASk(i)|>1 para conjuntos

pequeños o medianos y |DFBETASi|>2sqrt(n) para conjuntos de datos grandes

kk i 

i k k 

i k cMSE 

DFBETAS

)(

)(

)(

ˆˆ     

48

Page 49: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 49/97

Ejemplo 1 (Continuación). Para los datos del ejemplo 1

1. ¿Hay puntos influenciales en este modelo?¿Cuáles?

2. ¿Qué haría con ellos?

49

Page 50: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 50/97

ANEXO 1. MODELO DE REGRESIÓN LINEAL SIMPLECON VARIABLE INDEPENDIENTE CUALITATIVA

-------------------------------------------------------------------

50

Page 51: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 51/97

¿Cómo quedaría planteado el modelo si la variable independiente fuera categórica?• El modelo de regresión lineal múltiple anteriormente expuesto, puede contener también

variables predictoras de tipo cualitativo, como región, si ha sido sede, si ha sido campeón, entre

otras.

• Se usan variables indicadoras (o dummies) que toman el valor de 0 y 1 para identificar las

categorías de la variable cualitativa

51

Page 52: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 52/97

Modelo de regresión lineal simple. Variable predictora cualitativa con dos categorías

• Considere un análisis de regresión para predecir el número promedio de goles por partido (Y) en

función de si el equipo ha sido campeón o no (X)

Definamos X como sigue

• El modelo de regresión sería entonces

• Para equipos que no han sido campeones, Xi=0, y entonces

• Para equipos que han sido campeones, Xi=1, y

• Note que estas dos funciones respuesta representan el nivel promedio de la categoría i-ésima de

la variable “campeón” y β1 mide el efecto diferencial entre las dos categorías

campeónsidohanoequipoelsi 0

campeónsidohaequipoelsi 1 X 

i i i    e X Y      10      

NY Y E          0ˆ

][

S X Y Y E              10

ˆ][

52

Page 53: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 53/97

Ejemplo 2. Considere un análisis de regresión para predecir el número promedio de goles por

partido (Y) en función de si el equipo ha sido campeón (X)

i. Grafique la relación PGF vs. Campeón. ¿Cuál es el gráfico adecuado en este caso?

ii. Calcule el PGF promedio según si el equipo ha sido campeón o no

iii. Corra el modelo de regresión asociado con estas dos variables. Interprete los coeficientes de

la regresión y evalúe si estos son significativos o no. Plantee hipótesis adecuadas para este

caso

iv. Interprete el ANOVA y el R2

53

Page 54: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 54/97

Modelo de regresión lineal simple. Variable predictora cualitativa con más de dos categorías

En general, representamos una variable cualitativa con c categorías por medio de c-1 variables

indicadoras (o dummies)

54

Page 55: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 55/97

Modelo de regresión lineal simple. Variable predictora cualitativa con más de dos categorías

Ejemplo 3. Considere un análisis de regresión para predecir el PGF (Y) en función de la región en la que queda el

equipo (X con seis niveles: Sudamérica, Oceanía, Norteamérica y el Caribe, Europa, Asia y Africa)

• Grafique la relación precio vs. tipo. ¿Cuál es el gráfico adecuado en este caso?

• ¿Cuántas variables dummies debería definir? Defínalas

• ¿Cómo quedaría planteado el modelo de regresión?

• ¿Cómo quedaría escrito el modelo para cada una de las regiones? Calcule el PGF según la región

• Interprete los coeficientes de la regresión y evalúe si estos son significativos o no. Plantee hipótesis

adecuadas para este caso

• Interprete el ANOVA y el R2 

Note que estas funciones respuesta representan el nivel promedio de la categoría i-ésima de la variable región y

β1, β2,… miden los efectos diferenciales entre las categorías de la región, siempre comparado con la categoría

para la cual X1=X2=…=Xc-1=0

55

Page 56: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 56/97

ANEXO 2. EL MODELO DE REGRESIÓN LINEALSIMPLE ESTANDARIZADO

-------------------------------------------------------------------

56

Page 57: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 57/97

El modelo de regresión lineal simple estandarizado

• La forma estandarizada se usa para permitir comparaciones de los coeficientes de regresión

estimados en unidades comunes.

• Recordemos que estandarizar una variable, implica centrar y escalar la variable.

• Centrar implica tomar la diferencia entre cada observación y la media de todas las

observaciones para la variable, de tal forma que la media de la nueva variable sea 0.

• Escalar implica expresar las observaciones centradas en unidades de desviaciones estándar de

la variable, de tal forma que la desviación estándar de la nueva variable sea 1.

• Las estandarizaciones usuales de la variable respuesta Y y las variables predictoras X1,…,Xp son

),...,1(';'   pk s

 X  X  X 

s

Y Y Y 

k  X 

k ik 

57

Page 58: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 58/97

El modelo de regresión lineal simple estandarizado

• El modelo de regresión estandarizado queda:

• ¿Por qué cree que este modelo se presenta sin intercepto?

• Finalmente, β’1  medirá el tamaño del impacto o efecto que tiene X1  en Y en unidades de

desviaciones estándar (su utilidad se verá mejor representada en el modelo de regresión lineal

múltiple)

• Ojo!!! La estandarización sólo aplica para variables de tipo cuantitativo

i i i   e X Y  ''''     11  

58

Page 59: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 59/97

Ejemplo 4. Corra los modelos de regresión lineal simple estandarizado del PGF (Y) vs. el número de

partidos jugados por el equipo (X) y viceversa

• Verifique que la media y la varianza de las dos variables estandarizadas son 0 y 1,

respectivamente.

• Escriba los dos modelos. ¿Qué concluye?

• Haga un paralelo de los modelos estandarizados y sin estandarizar. Compare también los R2 de

la regresión

59

Page 60: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 60/97

ANEXO 3. EL MODELO DE REGRESIÓN POLINÓMICO-------------------------------------------------------------------

60

Page 61: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 61/97

Modelo de regresión polinómico

• El modelo de regresión es un modelo general para ajustar cualquier relación

que es lineal

• En el caso en el que la anterior afirmación no se cumple (la relación entre X y Y es no lineal), es

necesario considerar un modelo polinomial como el siguiente

• Esta clase de modelos tiene la propiedad de  jerarquía. Es decir, deben contener todos los

términos de orden k o inferior

• Ojo!!!... Este tipo de modelos no se consideran cuando la variable independiente es

cualitativa

k    e X  X  X Y              ...2

210

i e X Y   

  10     

61

Page 62: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 62/97

Modelo de regresión polinómico

• Específicamente si consideramos el modelo

• Estaremos hablando del modelo de segundo orden o del modelo cuadrático

• Donde

 – β1 representa el efecto lineal de X sobre Y

 – β2 representa el cuadrático de X sobre Y

i e X  X Y      2

210       

62

Page 63: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 63/97

Ejemplo 5. Corra el modelo de regresión cúbico del PGF (Y) vs. número de partidos jugados por el

equipo (X)

• Grafique la relación entre X y Y. ¿Qué tipo de relación observa entre las dos variables?

• Verifique si el efecto cúbico es significativo para el modelo.

• Verifique si el efecto cuadrático es significativo para el modelo.

• ¿Es mejor el modelo cuadrático o el modelo lineal?

63

Page 64: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 64/97

ANEXO 4. EL MODELO DE REGRESIÓN LINEALSIMPLE PASO A PASO

-------------------------------------------------------------------

64

Page 65: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 65/97

1. VERIFIQUE NORMALIDAD

SOBRE Y

TRANSFORMACIÓN DE

POTENCIA SOBRE Y

2. GRAFIQUE LA RELACIÓN ENTRE X & Y

3. CONSTRUYA SU MODELO DEREGRESIÓN LINEAL SIMPLE

4. VALIDE EL MODELO

4.1 INDEPENDENCIA

4.3 NORMALIDAD

4.2 VARIANZA CONSTANTE

4.4 DATOS INFLUENCIALES

SI

NO

SI

SI

SI

SI

SI

SI

SI

NO

NO

NO

NO

FIN

ELIMINE OBSERVACIONES

N OT A.L  av  ar i   a b l   eY 

 s  ó l   o

 s  e t  r  an s f   or m a un a

v  ez 

NOTA

• Si la variable independiente es cualitativa,

considere el modelo con variable dummie

• Si la relación es no- lineal, considere un

modelo polinomial

NOTA

• Su modelo es válido si se cumplen todos

los supuestos

• Su modelo no es válido si no se cumple al

menos uno de los supuestos incluso después

de haber aplicado una medida remedial

65

Page 66: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 66/97

MODELO DE REGRESIÓN MÚLTIPLE-------------------------------------------------------------------

66

Page 67: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 67/97

Modelo de Regresión Lineal Múltiple

• Modelo de primer orden con más de una variable predictora

• En este caso se tienen p variables predictoras medidas sobre n observaciones

La estructura de los datos es como sigue

Y X1 X2 …  Xp

Y1 X11 X12 …  X1p

Y2 X21 X22 …  X2p

.

.

.

.

.

.

.

.

.… 

.

.

.

Yn Xn1 Xn2 …  Xnp

67

Page 68: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 68/97

Modelo de Regresión Lineal Múltiple

• Está diseñado para variables predictoras cuyos efectos en la respuesta media son aditivos o

sin interacción.

• Los parámetros k se llaman coeficientes parciales de la regresión porque sólo reflejan el

efecto parcial de una variable predictora cuando las otras variables están incluidas en el

modelo y se mantienen constantes.

68

Page 69: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 69/97

Modelo de Regresión Lineal Múltiple

• El modelo se escribe como:

Donde,

  0,…, k son los parámetros del modelo

Xi1,…,Xip son constantes conocidas

ei ~ Normal (0,σ2) iid → Yi ~ Normal (E[Yi],σ2) iid

• Puesto que E[ei]=0, entonces

ip pi i i i    X  X  X Y Y E              ...ˆ][ 22110

69

i ip pi i i   e X  X  X Y              ...22110

Page 70: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 70/97

Modelo de Regresión Lineal Múltiple

• En este caso, lineal se refiere a que el modelo es lineal en los parámetros y además no hay

efectos de interacción entre las variables predictoras

• Interpretación de los coeficientes de la regresión

  0, representa la respuesta media, E[Y], cuando todas las Xi=0

   j, indican el cambio en la respuesta media, E[Y], por unidad de incremento en X ij

cuando las otras X se mantienen constantes

70

Page 71: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 71/97

Inferencias sobre los coeficientes de la regresión

• Como en el caso de la regresión lineal simple, nos interesa verificar la hipótesis

• De este modo un IC al (1-α)% para β1 es:

• De igual modo se puede construir una región de rechazo para βk donde el estadístico de

prueba es:

• Y la regla de decisión es si concluir H0, en otro caso concluir Ha

• De igual forma se puede calcular el valor-p y concluir

2

21k 

St   pnk         ˆ,/

ˆ

St    k 

  

  

ˆ

ˆ

*

 pnαt t  ;2/1

*

0100 

  k ak    Hvs pk H       :.,...,,:

71

Page 72: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 72/97

Notas

i. Los modelos que contienen sólo variables predictoras cualitativas son llamados modelos de

análisis de varianza

ii. Los modelos que contienen variables predictoras tanto cuantitativas como cualitativas son

llamados modelos de covarianza

72

Page 73: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 73/97

 Tabla ANOVA para el modelo de regresión lineal general

Fuente de variación SS g.l MS

Regresión SSR p MSR=SSR/p

Error SSE n-p+1 MSE=SSE/n-p+1Total SSTO n-1

73

Page 74: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 74/97

Tabla ANOVA con descomposición de la SSR en sumas de cuadrados extra.El caso de 3 variables

Fuente de variación SS g.l MS

Regresión SSR(X1,X2,X3) 3 MSR(X1,X2,X3)

X1 SSR(X1) 1 MSR(X1)

X2|X1 SSR(X2|X1) 1 MSR(X2|X1)

X3|X1,X2 SSR(X3|X1,X2) 1 MSR(X3|X1,X2)

Error SSE(X1,X2,X3) n-4 MSE(X1,X2,X3)

Total SSTO(X1,X2,X3) n-1

La suma de cuadrados extra mide el efecto marginal de añadir una variable al modelo

cuando ya existe la presencia de otra.

Ojo… entonces de qué depende que una SSR sea significativa? 

74

Page 75: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 75/97

Prueba general del modelo. Prueba de bondad de ajuste

Para verificar si el modelo es significativo, es decir verificar

El estadístico de prueba será

Y la regla de decisión es

p)1,...,(kaigualessonlostodosNo:.

...:

0

0210

k a

 p

Hvs

H

  

      

MSE 

MSRF   *

a pn pα

 pn pα

HF F 

HF F 

 ;1;1

*

0;1;1

*

75

Page 76: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 76/97

 Coeficiente de determinación múltiple

• El R2 múltiple mide el porcentaje de explicación de la variación total de Y asociada con el uso

del conjunto de variables independientes X1,…,Xp

• Un valor grande del R2 no implica necesariamente que el modelo ajustado sea un modelo útil

• Puesto que el R2 se incrementa al incluir más variables predictoras en el modelo, se sugiere

usar una medida modificada: El coeficiente de determinación múltiple ajustado

10,

ˆ

2

1

2

1

2

2

RSSTO

SSR

Y Y 

Y Y R

n

n

i i 

10,

1

22

  aa

  R

n

SSTO

 p

SSR

R

76

Page 77: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 77/97

Page 78: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 78/97

Ejemplo 6. Suponga que se desea modelar el promedio de goles a favor - PGF (y) en función de todas las

variables cuantitativas de la base de datos (xi).

1. ¿Cómo queda planteado este modelo?

2. ¿Cómo interpreta los parámetros de la regresión? ¿Qué signo tienen? ¿Concuerda esto con elanálisis descriptivo hecho anteriormente?

3. ¿Cuáles de los parámetros son significativos en el modelo? ¿Qué significa esto? ¿Qué hacer con los

parámetros que no son significativos?

4. ¿Concuerdan las salidas del summary y del ANOVA? ¿Por qué puede estar ocurriendo esto?

5. ¿Qué pasa si cambia el orden de entrada de las variables al modelo?

6. ¿Cómo queda planteado el modelo si se estandarizan todas las variables?

7. ¿Cómo interpreta los parámetros de este nuevo modelo?

8. ¿Concuerda este modelo con las conclusiones obtenidas en el numeral 3? ¿Cambia el R2 ajustado?

78

Page 79: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 79/97

Selección de variables en el modelo de regresión lineal múltiple

En el curso trabajaremos con dos metodologías para selección de variables

i. Método Backward. Comienza con el modelo full y se van sacando variables de acuerdo a su

significancia estadística en el ANOVA

ii. Método Forward. Comienza con el modelo reducido y se van ingresando las variables al

modelo de acuerdo a la correlación que presenten con la variable respuesta (se comienza por

la variable con mayor correlación con la variable respuesta)

79

Page 80: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 80/97

Ejemplo 7. Suponga que se desea modelar el promedio de goles a favor  – PGF (y) en función de

todas las variables cuantitativas de la base de datos (xi).

1. ¿A qué modelo llega con el método backward?

2. ¿A qué modelo llega con el método forward?

3. ¿Llega a modelos diferentes con las dos metodologías de selección de variables?

4. ¿Con cuál de los dos modelos se quedaría? justifique

80

Page 81: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 81/97

Modelo de regresión lineal múltiple con variables cualitativas

• El modelo de regresión lineal múltiple anteriormente expuesto, puede contener también

variables predictoras de tipo cualitativo, como género, estrato, entre otras.

• Como vimos, la idea es usar variables indicadoras (o dummies) que toman el valor de 0 y 1

para identificar las categorías de la variable cualitativa

81

Page 82: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 82/97

Ejemplo 8. Suponga que se desea modelar el promedio de goles a favor – PGF (y) en función de los

PG, si el equipo ha sido campeón y la región a la que pertenece.

1. ¿Cómo es la relación del PGF con estas tres variables?

2. ¿Cómo queda construido el modelo?

3. ¿Cómo interpreta los coeficientes de la regresión?

82

Page 83: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 83/97

Modelo de regresión lineal múltiple con variables cualitativas

En este caso la selección de variables del modelo se hace de la misma forma, pero en esta ocasión

se debe tener en cuenta además el ANOVA para ver la significancia global de las variables

cualitativas

83

Page 84: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 84/97

Diagnósticos y medidas remediales

• El diagnóstico juega un papel importante en el desarrollo y evaluación de los modelos de

regresión múltiple.

• Se hace una extensión de los procedimientos de diagnóstico y medidas remediales empleados

en el modelo de regresión lineal simple

• En este caso se considera adicionalmente la verificación de la multicolinealidad entre las

variables independientes y la validación de puntos influenciales a través de pruebas

especializadas.

84

Page 85: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 85/97

La multicolinealidad y sus efectos

• En muchas situaciones las variables predictoras o explicatorias tienden a estar correlacionadas

entre ellas. En este caso se dice que las variables están intercorrelacionadas o que son

multicolineales.

• Cuando las variables predictoras están incorrelacionadas, los efectos asociados con ellas en el

modelo de regresión de primer orden son los mismos sin importar qué otras variables de éstas

estén incluidas en el modelo

• En general, cuando dos o más variables predictoras están incorrelacionadas, la contribución

marginal de una variable para reducir la SSE cuando las otras variables predictoras están en el

modelo es exactamente la misma que cuando la variable predictora está sóla en el modelo.

85

Page 86: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 86/97

Problemas del modelo de regresión en presencia de la multicolinealidad

• Añadir o borrar una variable predictora cambia los coeficientes de la regresión

• Las sumas de cuadrados extras asociada con una variable predictora cambia, dependiendo de

qué otras variables predictoras ya estén incluidas en el modelo.

• Las desviaciones estándar de los coeficientes de regresión se vuelven más grandes.

• Puede que los coeficientes de regresión no sean estadísticamente significativos aunque exista

evidencia de la relación entre la variable respuesta y el conjunto de variables predictoras.

86

Page 87: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 87/97

Diagnósticos informales para la multicolinealidad

• Grandes cambios en los coeficientes de regresión cuando una variable predictora es agregada o

borrada.

• Resultados no significativos en pruebas individuales para los coeficientes de la regresión sobre

variables predictoras importantes.

• Coeficientes de regresión estimados con un signo opuesto del esperado

• Coeficientes de correlación simple grandes entre pares de variables predictoras

• Intervalos de confianza muy amplios para los coeficientes de regresión

87

Page 88: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 88/97

Limitaciones de los diagnósticos informales para detectar multicolinealidad

1. No dan medidas cuantitativas del impacto de la multicolinealidad, lo que conlleva a que no se

pueda a identificar su naturaleza. Suponga que X1, X2  y X3  tienen bajas correlaciones entre

pares, así los coeficientes de correlación simples no son capaces de mostrar las relaciones

existentes entre grupos de variables predictoras, tales como una alta correlación entre X1 y una

combinación lineal de X2 y X3

2. En ocasiones el comportamiento observado puede ocurrir sin que esté presente la

multicolinealidad

88

Page 89: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 89/97

Diagnóstico para la multicolinealidad. Factor de inflación de varianza (VIF)

• Mide en cuánto se infla la varianza de los coeficientes de regresión estimados comparada

cuando las variables predictoras no están relacionadas linealmente.

• El factor de inflación de varianza para β’k, VIFk, se puede calcular como

• Donde es el coeficiente de determinación múltiple cuando Xk es regresado en las otras p-1

variables predictoras en el modelo

 – VIFk=1 cuando , es decir, cuando Xk no está relacionado linealmente con las otras variables.

 – Cuando VIFk>1, indica una varianza inflada para β’k como resultado de las intercorrelaciones entre las p-

1 variables restantes

 – Cuando Xk tiene una asociación lineal perfecta con las otras variables predictoras, , y entonces

VIFk es infinito

 pk RVIF k k  ...,,,)(   211  12  

2

k R

02 k 

 R

12 k 

 R

89

Page 90: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 90/97

Diagnóstico para la multicolinealidad. Factor de inflación de varianza (VIF)

• El valor más grande del VIF entre todas las variables predictoras se usa como indicador de la

severidad de la multicolinealidad.

• Si VIFk > 3 se toma como un indicador de que la multicolinealidad puede estar influenciando los

estimadores de mínimos cuadrados.

• Para solucionar este problema ver ANEXO 1. Método de Componentes Principales

90

Page 91: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 91/97

Ejemplo 9. Suponga que se desea modelar el promedio de goles a favor  – PGF (y) en función de

todas las variables cuantitativas de la base de datos (xi).

1. ¿Cuáles son los valores del VIF para el modelo full?

2. ¿El modelo tiene problemas de multicolinealidad?

3. ¿Cómo solucionaría los problemas de multicolinealidad que tiene su modelo?

4. Dada su respuesta al punto 3. ¿Cómo quedaría su modelo de regresión lineal?

91

Page 92: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 92/97

Identificando observaciones influenciales

• Después de identificar gráficamente casos que son outliers en sus valores de Y y/o en sus

valores de las X’s, el paso a seguir es verificar si estos posibles outliers pueden llegar a ser

influenciales.

• Un caso es influencial si su exclusión del modelo causa grandes cambios en los coeficientes de

regresión ajustados.

• Estudiaremos 2 medidas de influencia que se usan comúnmente en la práctica. Cada una está

basada en la omisión del caso particular para medir su influencia.

92

Page 93: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 93/97

Identificando casos influenciales.Influencia en un valor ajustado particular - DFFITS

• Una medida útil de la influencia que tiene el caso i  sobre el valor ajustado está dada por

• Donde es el valor predicho para el i-ésimo caso obtenido cuando el i-ésimo caso es omitido al

ajustar la función de regresión.

• El denominador es la desviación estándar de , pero usa el MSE cuando el i-ésimo caso es omitido

• El denominador da una estandarización, así que el valor DFFITS i para el i-ésimo caso representa el

número de desviaciones estándar estimadas de que el valor ajustado incrementa o decrementacon la inclusión del i-ésimo caso al ajustar el modelo de regresión

• Se sugiere considerar un caso como influencial si |DFFITS i|>1 para conjuntos pequeños o medianos

y |DFFITSi|>2sqrt(p/n) para conjuntos de datos grandes

i Y ̂

ii i 

i i i 

i hMSE 

Y Y DFFITS

)(

)(ˆˆ 

)(ˆ

i i Y 

i Y ˆ

i Y ̂

i Y ˆ

93

Page 94: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 94/97

Identificando casos influenciales. Influencia en los coeficientes de regresión - DFBETAS

• Una medida de la influencia del i-ésimo caso en cada coeficiente de regresión βk y se calcula

como

• El signo de los valores de los DFBETAS indican si la inclusión de un caso llevó a un incremento

o no del coeficiente estimado de la regresión, y su magnitud absoluta muestra el tamaño de

la diferencia relativa a las desviaciones estándar estimadas de los coeficientes de regresión.

• Se recomienda considerar un caso como influencial si |DFBETASk(i)|>1 para conjuntos

pequeños o medianos y |DFBETASi|>2sqrt(n) para conjuntos de datos grandes

kk i 

i k k i k 

cMSE DFBETAS

)(

)()(

ˆˆ

     

94

Page 95: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 95/97

Ejemplo 10. Suponga que se desea modelar el promedio de goles a favor  – PGF (y) en función de

todas las variables cuantitativas de la base de datos (xi).

1. ¿Hay puntos influenciales en este modelo?¿Cuáles?

2. ¿Qué haría con ellos?

95

Page 96: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 96/97

ANEXO 5. EL MODELO DE REGRESIÓN LINEALMÚLTIPLE PASO A PASO

-------------------------------------------------------------------

96

Page 97: Módulo 1. Regresión Lineal Simple y Múltiple

8/11/2019 Módulo 1. Regresión Lineal Simple y Múltiple

http://slidepdf.com/reader/full/modulo-1-regresion-lineal-simple-y-multiple 97/97

1. VERIFIQUE NORMALIDADSOBRE Y

TRANSFORMACIÓN DE

POTENCIA SOBRE Y

2. VERFIQUE MULTICOLINEALIDAD SOBRE LASX’S 

- ELIMINE VARIABLES DEL MODELO- CONSTRUYA INDICADORES

- APLIQUE COMPONENTES PRINCIPALES

3. CONSTRUYA SU MODELO DEREGRESIÓN

4. VALIDE EL MODELO

4.1 INDEPENDENCIA

4.3 NORMALIDAD

4.2 VARIANZA CONSTANTE

SI

NO

SI

SI

SI

SI

SI

SI

SI

NO

NO

NO

NO

N OT A.L  av  ar i   a b l  

 eY 

 s  ó l   o

 s  e t  r  an s f   or m a un av  ez 

NOTA