4 - correlacion y regresion estadisticas

32
Materia: HERRAMIENTAS MATEMÁTICAS V ESTADÍSTICA II Profesora: Verónica Herrero - 1 - MODULO 4 4.- ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Bibliografía básica: Berenson y Levine (1996) Estadística para Administración y Economía. 6ª. Ed. Prentice Hall Hispanoamericana. Madrid. Capítulos: 17 (Apartados 17.1, 17.2, 17.3, 17.4, 17.5, 17.6, 17.7, 17.8, 17.9), 18 (Apartados 18.1 y 18.2) 4.1. ANÁLISIS DE REGRESIÓN LINEAL La idea de poder predecir cierto valor de una variable a partir del conocimiento del valor de otra que la determina o influye ha llevado a desarrollar las técnicas que presentamos en este módulo. En particular, la idea es detectar si existe una relación lineal entre dos variables, una que llamaremos dependiente que es condicionada por los valores de otra que denominamos independiente o explicatoria. Diagrama de dispersión Como siempre en Estadística, un primer análisis exploratorio gráfico posibilita un avance en el conocimiento sobre un fenómeno, aunque no de manera concluyente. Un gráfico da la posibilidad de visualizar rápidamente la posible existencia de una relación entre las variables de interés. El diagrama de dispersión, de amplia aplicación en el caso del análisis de regresión, consiste en la representación de puntos en un sistema de ejes cartesianos, donde los valores de la variable dependiente se indican en las ordenadas y los de la variable independiente en las abscisas. Cada punto del gráfico corresponde con las coordenadas del mismo representado como par ordenado (x, y). El conjunto de puntos que quedan ilustrados recibe el nombre de nube de puntos. Un diagrama de dispersión permite visualizar la forma de la relación, pero siempre debe tomarse precauciones (“no confiar en las apariencias), por lo cual siempre necesitaremos los test y estimaciones estadísticas. No obstante, destacamos que la primera aproximación gráfica es un buen punto de partida, por ejemplo, para preliminarmente analizar si la línea recta será una aproximación aceptable de la relación o no. En el ejemplo de Diagrama de dispersión que mostramos a continuación, la variable Y (dependiente) indica, en el marco de un estudio sobre productividad

Upload: guicci-hector

Post on 10-Aug-2015

96 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 1 -

MODULO 4 4.- ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Bibliografía básica: Berenson y Levine (1996) Estadística para Administración y Economía. 6ª. Ed. Prentice Hall Hispanoamericana. Madrid. Capítulos: 17 (Apartados 17.1, 17.2, 17.3, 17.4, 17.5, 17.6, 17.7, 17.8, 17.9), 18 (Apartados 18.1 y 18.2)

4.1. ANÁLISIS DE REGRESIÓN LINEAL

La idea de poder predecir cierto valor de una variable a partir del conocimiento del valor de otra que la determina o influye ha llevado a desarrollar las técnicas que presentamos en este módulo. En particular, la idea es detectar si existe una relación lineal entre dos variables, una que llamaremos dependiente que es condicionada por los valores de otra que denominamos independiente o explicatoria. Diagrama de dispersión Como siempre en Estadística, un primer análisis exploratorio gráfico posibilita un avance en el conocimiento sobre un fenómeno, aunque no de manera concluyente.

Un gráfico da la posibilidad de visualizar rápidamente la posible existencia de una relación entre las variables de interés.

El diagrama de dispersión, de amplia aplicación en el caso del análisis de regresión, consiste en la representación de puntos en un sistema de ejes cartesianos, donde los valores de la variable dependiente se indican en las ordenadas y los de la variable independiente en las abscisas. Cada punto del gráfico corresponde con las coordenadas del mismo representado como par ordenado (x, y). El conjunto de puntos que quedan ilustrados recibe el nombre de nube de puntos.

Un diagrama de dispersión permite visualizar la forma de la relación, pero siempre debe tomarse precauciones (“no confiar en las apariencias), por lo cual siempre necesitaremos los test y estimaciones estadísticas. No obstante, destacamos que la primera aproximación gráfica es un buen punto de partida, por ejemplo, para preliminarmente analizar si la línea recta será una aproximación aceptable de la relación o no.

En el ejemplo de Diagrama de dispersión que mostramos a continuación, la variable Y (dependiente) indica, en el marco de un estudio sobre productividad

Page 2: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 2 -

laboral en el contexto fabril, el número de errores en una tarea repetitiva de un ocupado en el mercado laboral, mientras que la variable X (independiente) señala el número de horas seguidas de repetición de la actividad. Para describir la relación aparente entre estas variables, podríamos indicar que si bien en nuestra muestra hay pocos casos con muy pocas horas de realización la tarea repetitiva, a medida que más horas se lleva a cabo continuamente la misma, el número de errores resulta más elevado. Con la intención de ser más específicos y sintéticos al mismo tiempo, el modelo de regresión lineal intenta asociar la relación entre estas variables a través de una línea recta que generalice esta vinculación, despreciando las oscilaciones específicas de cada caso particular respecto de la línea recta que indicaría la estructura de la relación entre experiencia y salario inicial.

Figura: Diagrama de dispersión

Y =

núm

ero

de e

rro

res e

n u

na t

are

a r

ep

etitiva

X = número de horas seguidas de repetición de la actividad

Fuente: Elaboración propia

Actividad:

1. Elabore (utilizando una hoja cuadriculada, para facilitar la adecuación a una escala proporcional de cada variable) la siguiente relación:

Los siguientes datos fueron tomados de un estudio sobre las diferentes sucursales de una marca de supermercados de la ciudad:

Page 3: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 3 -

Sucursal Superficie del local de venta (m2)

Ventas diarias (en miles de $)

1 300 425

2 350 435

3 450 550

4 500 600

5 700 860

6 760 770

7 770 980

8 900 1100

9 1200 1240

10 1400 1500

11 2000 2400

12 2050 2200

13 2100 2080

2. Intente graficar utilizando Excel. Aproveche la Ayuda disponible en el

programa, invierta unos minutos en explorar, conocer cómo realizar buenos gráficos con las herramientas estándar le puede ser muy útil. El modelo de regresión líneal Como a partir del diagrama de dispersión comenzamos a sospechar de una relación aproximadamente lineal (es decir, que tiene forma de línea recta), trataremos de ver si realmente podemos indicar la relación a partir de este modelo.

El modelo lineal puede sintetizarse de manera que represente una línea recta con la siguiente expresión:

iii XY 10

Donde:

0 la intersección u ordenada al origen poblacional

1 la pendiente poblacional

i error aleatorio en Y para la i-ésima observación

Page 4: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 4 -

Figura: Relación lineal positiva

Y =

núm

ero

de e

rro

res e

n u

na t

are

a r

ep

etitiva

X = número de horas seguidas de repetición de la actividad

Fuente: Elaboración propia

El coeficiente representa la ordenada al origen, es decir, el punto en que la recta corta al eje vertical.

El coeficiente es la pendiente de la recta, el cual indica el cambio en el valor esperado de la variable Y cuando se produce un cambio en una unidad de X.

Page 5: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 5 -

Figura: Diferentes ordenadas al origen

Ordenada al origen: 3,95

Ordenada al origen: 2,7

Ordenada al origen: 1,6

Fuente: Elaboración propia con la herramienta de simulación provista por: http://www.seeingstatistics.com/seeing1999/resources/opening.html

Page 6: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 6 -

La relación lineal es uno de los modelos que puede seguir la relación entre dos variables. En este caso, a su vez, la relación puede ser positiva (tal como la ejemplificada) o negativa. No obstante, la relación podr ía tener otra forma (curvilínea, constante, etc.) que pudiera tener enorme interés teórico y práctico, que se trabaja con técnicas más sofisticadas que las que presentaremos en este módulo. La siguiente figura ilustra algunas de las situaciones posibles.

Figura: formas de la relación entre dos variables

Relación lineal positiva

Relación lineal negativa

Relación cuadrática entre las variables

Page 7: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 7 -

Variables que aparentemente no poseen relación

Fuente: Elaboración propia

Determinación de la ecuación de regresión lineal simple

Hasta el momento hemos visto que podemos sospechar de la relación lineal entre las variables, pero no presentamos la manera de deducir el valor de los valores de los estimadores de la pendiente y la ordenada al origen en base a datos de una muestra.

El Método de mínimos cuadrados es una manera de obtener la ecuación que mejor ajusta a la nube de puntos, justamente minimizando la suma de los cuadrados de los errores (o residuos).

Figura: Recta de mínimos cuadrados

La ecuación de la recta

Page 8: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 8 -

ii XbbY 10ˆ

que mejor ajusta la nube de puntos del gráfico de dispersión es la que minimiza la suma de los cuadrados de los residuos.

Esta manera de obtener los valores de b0 y b1, permite seleccionar una de todas las posibles rectas (algunos ejemplos pueden observarse en la figura siguiente) que podrían ser utilizadas para describir la relación. El método de mínimos cuadrados aporta un criterio para determinar esa recta. Este criterio corresponde a determinar la recta en la cual los valores reales y los valores predichos tienen la mínima distancia. Como puede observarse en la figura previa, la recta de mínimos cuadrados, es la que tiene las menores distancias totales (ej: la distancia vertical indicada en la figura). En cuanto a si las diferencias (ej) entre la recta de regresión y los valores observados, no interesa si las diferencias son por exceso o por defecto, por lo tanto, se trabaja con la suma de desvíos elevados al cuadrado.

Figura: Otras rectas de regresión “posibles”

Para obtener los valores de los estimadores de los parámetros de la recta de regresión, se minimiza la expresión

2

10

22

1 )(min)ˆ(minmin iiii XbbYYYe

Page 9: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 9 -

Los valores b0 y b1 que minimizan la función se obtienen al igualar a cero las derivadas parciales de la función respecto de cada uno de los parámetros. Tales estimadores verifican también la condición de segundo orden de un mínimo (estudiada en las materias vinculadas con el Análisis Matemático).

A través de este proceso se obtienen las denominadas “ecuaciones normales”, que permiten despejar las fórmulas de cálculo de los estimadores de la pendiente y la ordenada al origen respectivamente.

Ecuación I:

ii XbbnY .. 10

Ecuación II:

2

10 .i

XbXbYX iii

Si ambas ecuaciones se resuelven como un sistema, se pueden obtener los estimadores:

Pendiente:

221.XnX

YXnYXb

i

ii

Ordenada:

XbYbo 1.

Veamos en un ejercicio cómo se aplican todos estos conceptos.

Ejercicio:

Los siguientes datos corresponden a información sobre pautas de consumo de individuos adultos de una ciudad metropolitana.

La variable X indica la edad del individuo (medida en años), mientras que la variable Y señala la cantidad de veces que salieron a comer fuera de su casa, en ocasiones de esparcimiento, en el último año. Los datos consideran una muestra reducida de individuos de la ciudad, por tratarse de un estudio piloto.

Page 10: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 10 -

Datos del ejercicio

X Y

60 23

62 23

61 25

55 25

53 26

60 26

63 29

53 30

52 30

48 32

49 33

53 31

Descripción gráfica de los datos bivariados

Diagrama de dispersión

Obtención de los estimadores de la pendiente y la ordenada al origen

a) Las medias de las variables son:

75,55X años

Page 11: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 11 -

y

75,27Y veces que sale a comer por año

b) Tabla auxiliar

La siguiente tabla facilita el cálculo posterior, debido a la manera en que se sistematizan los datos:

X Y X2 XY

60 23 3600 1380

62 23 3844 1426

61 25 3721 1525

55 25 3025 1375

53 26 2809 1378

60 26 3600 1560

63 29 3969 1827

53 30 2809 1590

52 30 2704 1560

48 32 2304 1536

49 33 2401 1617

53 31 2809 1643

Suma: 37595 18417

c) Cálculo del estimador de la pendiente

221.XnX

YXnYXb

i

ii

21)75,55.(1237595

75,55.75,27.1218417.

b

75,3729637595

75,1856418417.1

b

495,0.1 b

Page 12: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 12 -

Tal como esperábamos de analizar el gráfico de la nube de puntos, la pendiente de la recta de regresión es negativa.

d) Cálculo del estimador de la ordenada al origen

XbYbo 1.

75,55)495,0(75,27. ob

37,55. ob

Por lo tanto, la ecuación estimada de la recta es:

ii XY .495,037,55ˆ

Si queremos usar los resultados para, por ejemplo, predecir la cantidad de salidas a comer de un consumidor, de por ejemplo, 50 años, reemplazamos en la ecuación estimada, el valor de X por este valor específico de la variable independiente:

50.495,037,55ˆ iY

6,30ˆ iY salidas a comer al año, por esparcimiento

Page 13: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 13 -

Figura: Predicciones utilizando la recta de regresión

En una recta de regresión, para como la indicada, obtenemos la predicción reemplazando en la ecuación a X por el valor que se desee considerar, y luego realizamos los cálculos indicados en la ecuación.

En base a la recta planteada, cuando X=2,3, Y predicho será 2,38

Cuando X=3,65, Y predicho será 3,19

Cuando X=4,35, Y predicho será 3,61

Fuente: Elaboración propia con la herramienta de simulación provista por: http://www.seeingstatistics.com/seeing1999/resources/opening.html

Page 14: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 14 -

Predicciones: para interpolar y no para extrapolar

Es muy importante que los valores de X que se utilicen para predicciones correspondan al intervalo de valores considerados al calcular los estimadores de los parámetros.

No corresponde aplicar el modelo obtenido a valores de la variable que excedan los valores considerados en la regresión, ya que nada asegura que la relación se mantenga más allá del rango de valores de estudio.

Error estándar de estimación

Como se puede observar si en el ejemplo anterior calculan todos los valores predichos en base al modelo estimado para los valores de X disponibles, las predicciones basadas en el modelo no son exactas.

X Y iY ii YY ˆ 2)ˆ( ii YY

60 23 25,637 -2,637 6,951

62 23 24,646 -1,646 2,708

61 25 25,141 -0,141 0,019

55 25 28,114 -3,114 9,694

53 26 29,104 -3,104 9,636

60 26 25,637 0,363 0,132

63 29 24,150 4,850 23,518

53 30 29,104 0,896 0,8022

52 30 29,600 0,400 0,160

48 32 31,581 0,419 0,175

49 33 31,086 1,914 3,663

53 31 29,104 1,896 3,593

Suma: 0,096 61,057

El error estándar de la estimación es una medida que informa cuánto varían los datos reales en torno de la recta de regresión.

2

)ˆ(1

2

n

YY

s

n

i

ii

YX

Page 15: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 15 -

Donde iY es el valor predicho para el valor Xi.

Para el problema ejemplificado anteriormente, el error estándar de la estimación, es:

10

047,61YXs

47,2YXs

El error estándar de la estimación es la medida análoga a la desviación estándar, y está expresada en la misma unidad de medida que la variable Y.

Pregunta para reflexión: si el error estándar de la estimación es análoga a la desviación estándar calculada en base a datos muestrales, ¿por qué cree que en la fórmula se divide en n-2? (Ayuda: piense en el concepto de grados de libertad, y analice a qué se asocian las pérdidas de grados de libertad en este caso).

Bondad de ajuste de la regresión

Una vez que hemos encontrado la recta de regresión, necesitamos disponer de alguna medida que indique en qué grado es buena (o no) la representación que permite hacer la esa recta del conjunto de puntos iniciales.

Para construir una medida, construiremos algunas sumas de cuadrados que permitan luego integrar esa medida.

La suma de cuadrados total (SST) indica la variabilidad de los valores de Y respecto de su media:

n

i

i YYSST1

2)(

Page 16: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 16 -

Figura: Descomposición de los desvíos respecto de la media

Esta suma de cuadrados totales, puede dividirse en la variabilidad explicada o debida a la regresión (SSR) y variabilidad no explicada asociada con el error (SSE).

SSESSRSST

Para obtener cada una de estas medidas, aplicamos las siguientes fórmulas de cálculo basadas en la parte del desvío respecto de la media que les corresponde.

Suma de cuadrados debida a la regresión:

n

i

i YYSSR1

2)ˆ(

Suma de cuadrados debida al error:

n

i

ii YYSSE1

2)ˆ(

A partir de estas sumas de cuadrados, se puede definir una medida, el coeficiente de determinación o R2, que mide el grado en que la regresión explica la variabilidad total del conjunto de datos:

SST

SSRR 2

Page 17: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 17 -

Figura: Relación entre SSR y SSE

En la barra se indica qué proporción corresponde a SSR (en verde) y a SSE (en rosa) de la variabilidad total para la recta obtenida.

Fuente: Elaboración propia con la herramienta de simulación provista por: http://www.seeingstatistics.com/seeing1999/resources/opening.html

Obtengamos ahora el coeficiente de determinación para el ejemplo que estábamos desarrollando.

Para ello, completemos la tabla que teníamos, con los desvíos que necesitamos y las respectivas sumas de desvíos al cuadrado

X Y iY ii YY ˆ 2)ˆ( ii YY YYi

ˆ 2)ˆ( YYi

60 23 25,637 -2,637 6,951 -2,113 4,466 62 23 24,646 -1,646 2,708 -3,104 9,636 61 25 25,141 -0,141 0,019 -2,609 6,806 55 25 28,114 -3,114 9,694 0,364 0,132 53 26 29,104 -3,104 9,636 1,354 1,834 60 26 25,637 0,363 0,132 -2,113 4,466 63 29 24,150 4,850 23,518 -3,600 12,957 53 30 29,104 0,896 0,8022 1,354 1,834 52 30 29,600 0,400 0,160 1,850 3,422 48 32 31,581 0,419 0,175 3,831 14,679 49 33 31,086 1,914 3,663 3,336 11,128 53 31 29,104 1,896 3,593 1,354 1,834

Suma: 0,096 61,057 73,195

Page 18: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 18 -

X Y iY 2)ˆ( ii YY 2)ˆ( YYi YYi

2)( YYi

60 23 25,637 6,951 4,466 -4,75 22,5625 62 23 24,646 2,708 9,636 -4,75 22,5625 61 25 25,141 0,019 6,806 -2,75 7,5625 55 25 28,114 9,694 0,132 -2,75 7,5625 53 26 29,104 9,636 1,834 -1,75 3,0625 60 26 25,637 0,132 4,466 -1,75 3,0625 63 29 24,150 23,518 12,957 1,25 1,5625 53 30 29,104 0,8022 1,834 2,25 5,0625 52 30 29,600 0,160 3,422 2,25 5,0625 48 32 31,581 0,175 14,679 4,25 18,0625 49 33 31,086 3,663 11,128 5,25 27,5625 53 31 29,104 3,593 1,834 3,25 10,5625

Suma: 61,057 73,195 0 134,25

La suma de cuadrados debida a la regresión:

n

i

i YYSSR1

2)ˆ(

195,73SSR

La suma de cuadrados debida al error:

n

i

ii YYSSE1

2)ˆ(

067,61SSE

La suma de cuadrados total:

n

i

i YYSST1

2)(

25,134SST

Page 19: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 19 -

El coeficiente de determinación:

SST

SSRR 2

25,134

195,732 R

545,02 R

Por lo tanto, la regresión a través de la recta obtenida, explica el 54,5% de la variabilidad total de la variable Y observada.

4.2. ANÁLISIS DE CORRELACIÓN

El objetivo del análisis de correlación es cuantificar la intensidad de relación lineal entre dos variables cuantitativas.

El coeficiente de correlación, es un indicador que se ubica en el intervalo [-1, 1], donde estos valores extremos indican correlaciones exactas entre las variables:

-1 Correlación negativa perfecta 1 Correlación positiva perfecta

En problemas orientados a la regresión, el coeficiente de correlación, r, puede obtenerse a partir del coeficiente de determinación:

2Rr

En estos casos, en que corresponda a una regresión, el signo de r será el signo de b1. Sin embargo, en muchas ocasiones hacemos un análisis de correlación independiente del análisis de regresión. En particular, debido a que el análisis de correlación no exige fijar a ninguna de las variables como dependiente de la otra.

Page 20: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 20 -

Diferentes grados de correlación En este caso, existe una correlación negativa perfecta.

Vemos una correlación negativa, que si bien no es perfecta es claramente una correlación fuerte entre las variables.

El grado de relación es inferior.

Page 21: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 21 -

La correlación negativa es menos intensa.

Page 22: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 22 -

Este gráfico ilustra una situación en la cual no hay correlación lineal entre las variables.

Si bien existe una correlación lineal positiva, ésta es muy débil.

Page 23: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 23 -

La correlación es algo mayor que en los casos anteriores.

Ahora vemos una correlación positiva fuerte.

Una correlación positiva aún mas marcada.

Page 24: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 24 -

Y, finalmente, una correlación positiva perfecta entre las variables.

Fuente: Elaboración propia con la herramienta de simulación provista por: http://www.seeingstatistics.com/seeing1999/resources/opening.html

Tras analizar estos gráficos, con su conocimiento de estadística, ¿qué información está faltando? Haga un comentario crítico al respecto. En los casos en los cuales no se aplica el análisis de regresión, el coeficiente de correlación se calcula a través de las siguientes fórmulas: Opción 1:

n

i

i

n

i

i

n

i

ii

YYXX

YYXX

r

1

2

1

2

1

)(.)(

))((

Opción 2:

n

i

i

n

i

i

n

i

ii

YnYXnX

YXnYX

r

1

22

1

22

1

..

.

Page 25: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 25 -

Supuestos del análisis de regresión

Los supuestos en este caso, son similares a los que mencionamos para el ANOVA. Los cuatro supuestos básicos que deben controlarse son:

1. Normalidad Es necesario que los valores de Y se distribuyan de manera normal para cada valor de X. No obstante, el análisis de regresión es bastante robusto en cuanto a este supuesto, en tanto la distribución no sea demasiado asimétrica. A través de gráficos Q-Q o P-P, que tienen en cuenta la prueba de normalidad de Kolmogorff-Smirnov es posible diagnosticar la normalidad de las distribuciones.

2. Homocedasticidad Para cada nivel de la variable X, la variabilidad o dispersión de los valores de Y debe ser la misma. Es muy importante el cumplimiento de este supuesto para la aplicación del método de mínimos cuadrados ordinarios. Este supuesto es más frecuentemente vulnerado en los estudios de corte transversal. Existen diferentes herramientas para diagnosticarla, una de ellas es la prueba de Levene sobre igualdad de varianzas.

3. Independencia de error

Los residuos o errores (diferencia entre el valor observado y el predicho) no debe estar correlacionado con el valor de X. Este supuesto se ve afectado con frecuencia en los estudios de series de tiempo. Para verificar su cumplimiento, se analiza el estadístico Durbin Watson (DW). Este indicador toma el valor de 2 cuando los residuos son completamente independientes, en tanto si el DW resulta inferior a 2, indica autocorrelación positiva, y si DW es mayor que dos, hay autocorrelación negativa.

4. Linealidad

La relación entre X e Y es lineal. Como medida de diagnóstico se recomienda el análisis gráfico de la nube de puntos a través de los diagramas de dispersión.

Page 26: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 26 -

Ejercicios Resuelva los siguientes ejercicios, si tiene dudas o consultas, envíelas a su tutor virtual.

1. Con los siguientes datos, plantee y resuelva 2 problemas distintos de

regresión lineal

Empleo (en miles) Turismo: Número de viajeros (miles)

Turismo: Estancia media

28,4 11.902,5 3,1

3,6 1.848,0 2,1

2,4 1.088,2 2,3

25,9 6.716,0 7,2

27,2 4.875,7 7,8

2,0 933,8 2,4

6,2 3.647,6 1,7

2,8 1.805,1 1,7

23,5 10.771,7 3,4

13,4 5.579,7 3,9

2,2 1.000,7 1,7

6,3 3.040,5 2,1

10,7 5.748,9 2,1

2,0 882,5 3,0

1,1 557,7 2,0

3,2 1.540,6 1,9

0,7 446,2 1,8

Los datos corresponden a distintas ciudades turísticas del un país. Empleo: indica el número de personas en cada ciudad que tienen un empleo asociado con el turismo. La variable número de viajeros, indica la cantidad total de viajeros o turistas que le ciudad recibe por año La estancia media indica cuántos días en promedio, permanece un turista en la ciudad. Actividades:

1. Determine si existe correlación entre la series. 2. Relacione las variables y trate de armar una vinculación entre dos variables de

las listadas, en las cuales pueda existir una causalidad. 3. Plantee el modelo de regresión lineal simple a estimar 4. Grafique la nube de puntos a través de un diagrama de dispersión 5. Obtenga los estimadores de los parámetros del modelo 6. Calcule una medida de bondad de ajuste y explique su significado

Page 27: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 27 -

2. Con la siguiente información, analice la correlación entre las variables

Año PIB construcción

Consumo de

Cemento

Hipotecas (valores

constantes)

Viviendas a

Construir

Empleo

1995 403.822 296.432 162.909 3.383 65.294 1996 377.465 287.559 179.347 3.607 63.612 1997 396.944 310.719 215.490 5.116 64.268 1998 451.070 349.314 277.880 6.375 75.728 1999 529.679 373.310 344.324 6.264 86.031 2000 593.644 444.370 390.794 7.486 90.260 2001 638.578 501.691 428.410 7.763 97.318 2002 702.334 485.614 534.140 7.910 103.272 2003 723.412 497.092 698.667 7.822 107.684 2004 743.513 504.946 806.633 7.132 110.478 2005 775.183 507.362 958.913 10.496 115.640 2006 818.717 525.357 1.121.994 12.966 125.699 2007 531.342 1.318.888 14.906 137.097

Obtenga los coeficientes de correlación entre las series y explique su significado.

3. La tabla siguiente resume las puntuaciones de 10 individuos (N=10) en dos variables X e Y.

X Y

1 1 2 4

3 9 4 16 5 25

-5 25 -4 16

-3 9 -2 4 -1 1

Actividades: a. Calcular el coeficiente de correlación de Pearson b. En este caso ¿el coeficiente calculado es adecuado para representar el

patrón de covariación que muestran los datos?. ¿por qué?. Ayuda: construya el diagrama de dispersión. Elabore una conclusión

c. ¿Qué relación podría estar descripta por esas variables? Indicar un ejemplo.

Page 28: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 28 -

4. La tabla siguiente recoge las puntuaciones de 10 individups (N=10) en dos variables X e Y.

X Y

1 2 2 4

3 6 4 8 5 10

6 12 7 14

8 16 9 18

10 20

Actividades: a. Calcular el coeficiente de correlación de Pearson b. En este caso ¿el coeficiente calculado es adecuado para representar el

patrón de covariación que muestran los datos?. ¿por qué?. Ayuda: construya el diagrama de dispersión. Elabore una conclusión

c. ¿Qué relación podría estar descripta por esas variables? Indicar un ejemplo.

5. La tabla siguiente recoge las puntuaciones de 10 individuos (N=10) en dos variables X e Y.

X Y

4 5 4 6

4 4 4 5 4 6

4 7 4 4

4 3 4 5

10 15

Actividades:

a. Calcular el coeficiente de correlación de Pearson b. En este caso ¿el coeficiente calculado es adecuado para representar el

patrón de covariación que muestran los datos?. ¿por qué?. Ayuda: construya el diagrama de dispersión. Elabore una conclusión

Page 29: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 29 -

c. ¿Qué relación podría estar descripta por esas variables? Indicar un ejemplo.

d. En base a los ejercicios 3, 4 y 5, elabore una conclusión general.

6. En una muestra de 10 personas se obtuvo información referida al grado de extroversión, y se desea evaluar su posible relación lineal con la dimensión de personalidad estabilidad emocional. Estas variables se han medido a través un test y se han obtenido las puntuaciones para cada sujeto en una escala de 0 a 10. Los valores obtenidos se presentan en la siguiente tabla:

Sujetos X: Grado de Extroversión

Y: Estabilidad Emocional

1 5 6 2 10 6 3 4 3 4 7 8 5 6 6 6 5 3 7 4 5 8 4 9 9 4 10 10 3 9

Actividades a. Realice un diagrama de dispersión. Sugerencia: intente hacerlo usando

alguna herramienta informática como Excel. b. Estime la ecuación de regresión lineal simple. c. ¿Cuál es el nivel de estabilidad predicho para un sujeto cuyo grado de

extroversión es cero?. ¿Este valor corresponde a algún coeficiente de la recta calculada?

d. ¿En cuánto se diferenciarían las puntuaciones ajustadas de dos sujetos con puntuaciones consecutivas en grado de extroversión? ¿Este valor corresponde a algún coeficiente de la recta calculada?

e. Complete la tabla anterior añadiendo para cada sujeto su puntuación

predicha ( Y ) y el error cometido. f. Identifique al sujeto mejor ajustado por la relación lineal estimada y al peor.

7. Se obtienen los siguientes estadísticos con las notas de 100 alumnos en las asignaturas X= Estadística 1, e Y= Estadística 2.

300,240,360,7,622

YYXXYYXXYX

a. Estimar la ecuación de regresión de Y sobre X

Page 30: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 30 -

8. Con los datos de una muestra de 300 individuos hemos estimado la ecuación de regresión que relaciona años trabajados y estrés laboral y hemos obtenido la siguiente ecuación:

XY 05,010ˆ

Tenga en cuenta que:

la escala de estrés puede tomar valores entre 1 y 30

que la media fue de 15 Indicar cuáles de las siguientes afirmaciones son correctas y justificar:

a) A mayor número de años trabajados mayor estrés.

b) 0,05 es la media de estrés de los sujetos que no trabajan c) A mayor número de años trabajados menor es el estrés. d) -10 es el estrés medio estimado de aquellas personas que no trabajan e) El año próximo, si sigues trabajando, tu nivel medio de estrés se

incrementará en 0,05 puntos.

9. A un propietario de departamentos para alquilar le interesa averiguar si la renta de sus departamentos son típicas Para ello, ha escogido una muestra aleatoria de 11 alquileres y del tamaño de los departamentos de edificios similares. Los datos se transcriben a continuación.

Renta Número de habitaciones

230 2 190 1 450 3 310 2 218 2 185 2 340 2 245 1 125 1 350 2 280 1

a. Desarrollar el modelo de regresión lineal simple que mejor describa estos datos e interpretar los coeficientes de regresión.

b. Graficar los datos y ajuste al grafico la línea recta obtenida.

Page 31: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 31 -

c. Calcular, interpretar los coeficientes de correlación y de determinación, y estimar la renta de un departamento de 2 habitaciones.

10. Un encargado de costos desea predecir los costos C (en millones de pesos), basándose en la cantidad de insumos de materias primas M (cientos de kilos) que recibe un fabricante de pantalones.

Costos Materia prima

10 25 7 20 5 16 6 17 7 19 6 18

a. Determinar el modelo de regresión lineal simple. b. Graficar la nube de puntos y la recta de regresión obtenida c. Obtener un indicador de bondad de ajuste y explicarlo

11. Una cadena nacional de tiendas ha tenido grandes fluctuaciones en sus ingresos durante los últimos años. Bastantes ofertas, nuevos productos y técnicas de publicidad se han utilizado durante este tiempo, por lo cual es difícil determinar cuáles de esos factores tienen la influencia más profunda en las ventas. El área de marketing ha estudiado varias relaciones y piensa que los gastos mensuales destinados a carteles pueden ser significativos. Realizó una muestra de 7 meses y descubrió lo siguiente:

Gasto mensual en carteles (en miles de pesos)

Ingresos mensuales por venta (millones de pesos)

250 340 260 140 420 480 340 320 100 260 210 290 190 200

a. Desarrollar el modelo de regresión lineal simple que mejor describa estos datos y calcular el error estándar de estimación.

Page 32: 4 - Correlacion y Regresion Estadisticas

Materia: HERRAMIENTAS MATEMÁTICAS V – ESTADÍSTICA II

Profesora: Verónica Herrero

- 32 -

12. En la contabilidad de costos, con frecuencia se trata de estimar los gastos indirectos basándose en el número de unidades producidas. La gerencia de una empresa manufacturera, ha reunido información sobre esos gastos y las unidades producidas en diferentes plantas y le gustaría estimar una ecuación de regresión para predecir los gastos indirectos en el futuro.

Gastos indirectos (en miles de pesos) Unidades producidas (en miles)

191 40 170 42 272 53 155 35 280 56 173 39 234 48 116 30 153 37 178 40

a. Desarrollar la ecuación de regresión

b. Interpretar los parámetros del modelo

c. Estimar el gasto general cuando se producen 50 unidades.

d. Calcular e interpretar el error estándar de estimación, los coeficientes de correlación y de determinación.

13. ¿Qué tipo de correlación (positiva, negativa o cero) debemos esperar de estas variables?

a) Capacidad de los supervisores y productividad de sus subordinados b) Antigüedad en su trabajo de tiempo completo y número de años de escolaridad