capitulo 1 regresion y correlacion

24
1 UDP - Facultad de Ciencias Sociales e Historia Escuela de Sociología Prof: Berta Teitelboim G. Capitulo 1: Correlación bivariada y análisis de regresión simple Agosto 2014 1 Introducción El objetivo de este capítulo es determinar si hay relación entre dos variables cuantitativas: si hay la describiremos con una ecuación. Se emplea para determinar si existe una relación estadísticamente significativa entre dos variables (datos bivariados). Se considerarán solamente relaciones lineales. 2

Upload: javi-sotomayor-graber

Post on 16-Sep-2015

255 views

Category:

Documents


0 download

DESCRIPTION

regresion correlacion

TRANSCRIPT

  • 1UDP - Facultad de Ciencias Sociales e HistoriaEscuela de Sociologa

    Prof: Berta Teitelboim G.

    Capitulo 1:

    Correlacin bivariada y anlisis de regresin simple

    Agosto 2014

    1

    Introduccin

    El objetivo de este captulo es determinar si hay relacin entre dos variables cuantitativas:

    si hay la describiremos con una ecuacin.

    Se emplea para determinar si existe una relacin estadsticamente significativa entre dos variables (datos bivariados).

    Se considerarn solamente relaciones lineales.

    2

  • 21.1 COEFICIENTE DE CORRELACIN LNEAL

    El coeficiente de correlacin lineal mide el grado de intensidad de la relacin entre las variables.

    Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal.

    Si representramos en un grfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta.

    3

    4

    Def: Es un grfico en donde aparecen los datos muestrales apareados (x,y). Cada par individual es un punto.

    DIAGRAMA DE DISPERSION

  • 31.1 COEFICIENTE DE Correlacin Lneal

    Tambin se conoce como coeficiente de Pearson.

    Como se calcula con datos muestrales se basa en los siguientes supuestos:

    La muestra de datos apareados (x,y) es una muestra aleatoria (m.a.) y ambas variables son cuantitativas.

    Los pares de datos (x,y) tienen una distribucin normal.

    5

    Ejemplo 1: Se tiene la siguiente informacin sobre 10 pases de Amrica Latina

    Evida: Esperanza de vida aosIngreso: ING Per cpita en US$

    6

    Grfique los datos, eje x el ingresoeje y la Esperanza de Vida

    Orden Pais

    Ingreso

    PP en

    miles de

    US$ 2012

    Esperanza de

    vida (aos)40 Chile 15,0 79,3

    45 Argentina 15,3 76,1

    51 Uruguay 13,3 77,2

    71 Venezuela 11,5 74,6

    77 Peru 9,3 74,2

    85 Brazil 10,2 73,8

    89 Ecuador 7,5 75,8

    91 Colombia 8,7 73,9

    111 Paraguay 4,5 72,7

    72,0

    73,0

    74,0

    75,0

    76,0

    77,0

    78,0

    79,0

    80,0

    0,0 5,0 10,0 15,0 20,0

  • 41.1 Formula COEFICIENTE DE Correlacin Lineal

    yx

    xy

    SnS

    Sr =

    Mide el grado de asociacin lineal entre X e Y

    7

    En el ejemplo r= 0.771

    =

    =

    222222 )()*)()(

    )*(*

    )((*)(

    )(*)(

    iiii

    iiii

    ii

    ii

    yynxxn

    yxyxn

    yyxx

    yyxxr

    Los clculos los realizaremos en el computador

    Pero no sufran

  • 51.1.2 Caractersticas

    Se denomina (rho) a la correlacin poblacional yr a la correlacin muestral

    nmero sin dimensiones entre -1 y 1. si las variables son independientes r=0. si las variables estuvieran perfectamente

    relacionadas linealmente r=1 A mayor valor de r mayor relacin entre las

    variables. Cuando la correlacin es 0, el grfico muestra una

    lnea plana.

    9

    En resumen

    Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1

    Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.

    Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1.Por ejemplo: En una dieta para bajar de peso y su relacin con el tiempo: A medida que aumentan los das, disminuye el peso.

    Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.)

    10

  • 6Algunos autores sugieren la siguiente tabla:

    11

    Correlacin Negativo Positiva

    Ninguno -0,09 a 0,0 0,0 a 0,09

    Pequeo -0,3 a -0,1 0,1 a 0,3

    Medio -0,5 a -0,3 0,3 a 0,5

    Grande (fuerte) -1,0 a -0,5 0,5 a 1,0

    12

    Fuente: http://upload.wikimedia.org/wikipedia/commons/d/d4/Correlation_examples2.svg

    Grficos de relaciones entre variables

  • 7Retomando el problema: Correlacin entre el ingreso per cpita y la esperanza de vida en 9 pases de Amrica Latina

    Si se concluye que hay una correlacin lineal significativa entre las dos variables ( x e y), se puede obtener una ecuacin lineal que exprese la variable y en trminos de x del tipo:

    13

    exbby ++= 10 exy ++= 10

    Ecuacin datos muestrales Ecuacin datos poblacionales

    72,0

    73,0

    74,0

    75,0

    76,0

    77,0

    78,0

    79,0

    80,0

    0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0

    Esp

    era

    nza

    de

    vid

    a (

    a

    os)

    s

    INGRESO EN MILES DE US$

    1.2 Modelo de Regresin Lneal

    Se puede describir la relacin entre dos variables por medio del clculo de la ecuacin de la recta que representa la relacin de stas.

    Esta recta se conoce como la recta de regresin y su ecuacin como la ecuacin de regresin. En el ejemplo: la relacin entre la esperanza de vida y el ingreso per cpita del pas.

    14xbby 10 +=)

    72,0

    73,0

    74,0

    75,0

    76,0

    77,0

    78,0

    79,0

    80,0

    4,0 6,0 8,0 10,0 12,0 14,0 16,0

    Esp

    era

    nza

    de

    vid

    a (

    a

    os)

    s

    INGRESO EN MILES DE US$

    xbby 10 +=)

  • 81.2 Modelo de Regresin Lneal

    Una ecuacin de regresin lineal intenta emplear informacin proporcionada por una variable independiente, X, para explicar el comportamiento de la variable dependiente Y (tambin llamada variable respuesta).

    15

    iii exbby ++= 10

    Donde Yi es la variable dependiente o explicada por X

    Xi es la variable independiente.

    La recta de regresin es la que minimiza los errores (ei=0).

    ii xbby 10 +=

    iii

    iii

    yye

    eyy)

    )

    =

    +=Si se reemplaza Y estimado,

    1.2 Modelo de Regresin Lneal

    Se estima la ecuacin anterior por:

    xx

    xy

    i

    ii

    S

    S

    xx

    yyxxb

    xbyb

    =

    =

    =

    21

    10

    )(

    )(*)(

    16

    0)( 210 = ii xbbyA travs del mtodo de los mnimos cuadrados se calculan b0 y b1

    Donde:

    02 = ie 0)(2 = ii yy

    )

    iiiii yyxbbye)

    =+= )( 10

  • 9 bo es el intercepto

    b1 es la pendiente de la recta

    Una vez calculada bo y b1, se identifica la ecuacin estimada de regresin, esta es la que se ajusta mejor a los puntos muestrales.

    17

    xbby 10 +=)

    Recordemos que:

    Retomando Ejemplo

    18

    Ejemplo 1: Se tiene la siguiente informacin sobre 10 pases de Amrica Latina

    Evida: Esperanza de vida aosIngreso: ING Per cpita en US$

    Encontrar la recta de regresin, determine cual es la variable dependiente y la independiente

    Orden Pais

    Ingreso PP

    en US$

    Esperanza de

    vida (aos)40 Chile 14.987 79,3

    45 Argentina 15.347 76,1

    51 Uruguay 13.333 77,2

    71 Venezuela 11.475 74,6

    77 Peru 9.306 74,2

    85 Brazil 10.152 73,8

    89 Ecuador 7.471 75,8

    91 Colombia 8.711 73,9

    111 Paraguay 4.497 72,7

    IngresoPPx

    xy

    =

    += 439,06.70

    :Ecuacin

    Modelo ObtenidoB

    (Constante) 70,644INGRESO_MILES 0,439

  • 10

    19Fuente: Estadistica Aplicada a los Negocios y la Economia Allen Webster; cap. Cap.11, 3 edicin, pag. 359

    1.3 La Capacidad Explicativa de una Ecuacin de Regresin Lineal o Bondad de Ajuste

    Ahora veremos la capacidad de ese ajuste, esto va a depender de la proporcin de la variabilidad que puede explicarse por la dependencia lineal de Y sobre X.

    Yi = 0 + 1xi

    Los trminos del error ei son variables aleatorias con media cero, es decir E(ei) =o para i=1,----n

    Como ya se mencion para los valores muestrales, la recta de regresin estimada puede escribirse como:

    0)( == iii yye

    20

    ii xbby 10 +=

  • 11

    El valor ^yi es el valor predicho por la recta de regresin

    ei es el residuo, diferencia entre el valor observado y el predicho.

    ei corresponde a la parte del comportamiento de la variable dependiente que no puede ser explicada por su relacin lneal con la variable independiente.

    Podemos escribir:

    yi = ^yi + ei

    Si sumamos y restamos la media de y tenemos:

    Desviacin observada Desviacin Predicha ResiduoRespecto de la media Respecto de la mediamuestral muestral

    ( ) ( ) ( )i i i iy Y y Y y y = +

    21

    Si se eleva al cuadrado la ecuacin anterior y se suma respecto a i, se obtiene:

    Variabilidad total Variabilidad Explicada + Variabilidad no de la muestra explicada

    A mayor proporcin de variabilidad explicada , mayor capacidad explicativa tiene la regresin.

    2

    2 2

    1 1 1

    ( ) ( ) ( )n n n

    i i i iy Y y Y y y = +

    22

  • 12

    Volvemos al ejemplo de la relacin entre la Esperanza de

    Vida y el Ingreso

    23

    72,0

    73,0

    74,0

    75,0

    76,0

    77,0

    78,0

    79,0

    80,0

    4,0 6,0 8,0 10,0 12,0 14,0 16,0

    Esp

    era

    nza

    de

    vid

    a (

    a

    os)

    Ingreso PP en miles de US$ 2012

    Ingreso PP en miles de US$ 2012

    Valores observados y pronosticados

    Esperanza de vida (aos)

    Pronstico Esperanza de vida(aos)

    xy 439,06.70 +=

    Desviacin

    no

    explicada

    Desviacin explicada Media de y = 75.3 aos

    ii yylicadanoD =)

    exp__ii yyExplicadaD =

    ).

    En resmen

    Si se ajusta una ecuacin de reg. Lneal,

    (i=1,2,.,n)

    estimando:

    Donde b0 y b1 son las estimaciones y ei los residuos, y se definen las siguientes expresiones

    Suma de Cuadrados Total: SCT

    Suma de Cuadrados de la Regresin: SCR

    Suma de Cuadrados Residual (o del error) SCE

    Donde SCT = SCR + SCE

    24

    iiiii eyexbby +=++= 10

    ii xbby 10 +=

    2

    2 2

    1 1 1

    ( ) ( )n n n

    i i iy Y y Y e = +

  • 13

    Variabilidad total = Variabilidad Explicada + Variabilidad no de la muestra explicada

    SCT = SCR + SCESuma de Cuadrados Suma de Cuadrados Suma de Total de la Regresin Cuadrados Residual (o

    del error)

    Donde SCT = SCR + SCE

    25

    1.4 Coeficiente de Determinacin

    2

    1

    2

    1

    2

    1

    ( )

    ( )

    n

    i

    n

    i

    n

    i

    SCT y Y

    SCR y Y

    SCE e

    =

    =

    =

    )

    2 1SCR SCE

    RSCT SCT

    = =

    El coeficiente de Determinacin, R2 de la regresin ajustada es:

    = Variacin Explicada----------------------Variacin Total

    Est es la proporcin de la variabilidad dependiente explicada por su relacin lineal con la variable independiente. 26

  • 14

    Corresponde al coeficiente de correlacin lineal al cuadrado, donde:

    0

  • 15

    b1 representa el cambio marginal que ocurre en y cuando x cambia en una unidad, por lo tanto de la ecuacin se desprende que si se incrementa en mil dlares el ingreso per cpita, la esperanza de vida

    predicha, aumentar en 0,439 aos. .

    29

    En el ejemplo

    )(439,06.70: INGxEviday =+=

    1.5 Prueba de hiptesis Coeficiente B

    vidadeEsperanzadeaoslosenpasdelingresoElH

    vidadeEsperanzadeaoslosenincidenopasdelingresoElH

    H

    H

    ___________:

    ____________:

    0:

    0:

    1

    0

    11

    10

    incide

    incide

    incide

    incide

    =

    Se debe realizar la prueba de Hiptesis

    30

    1.5 Prueba de hiptesis Coeficiente B

    vidadeEsperanzadeaoslosenincidepasdelingresoElH

    vidadeEsperanzadeaoslosenincidepasdelingresoElH

    H

    H

    ___________:

    ____________:

    0:

    0:

    1

    0

    11

    10

    nono

    nono

    =

    Sig de B1, es menor que 0,05, por lo tanto se rechaza H0

  • 16

    1.5 Prediccin

    Las ecuaciones de regresin sern tiles cuando se emplean para predecir el valor de una variable, a partir de algn valor particular de otra slo cuando existe correlacin lineal entre ellas.

    Hay que tener presente que:

    Una ecuacin de regresin que est basada en datos antiguos no necesariamente es vlida hoy.

    No se deben hacer predicciones acerca de una poblacin distinta de la cual se obtuvieron los datos.

    31

    Prediccin

    En el ejemplo de la esperanza de vida y el Ingreso,

    S un pas tiene un INGPP de US$ 10.000 diarios Cul ser su esperanza de vida estimada?

    La ecuacin era:

    Supongamos que la variable independiente toma el valor Xk y que la relacin entre las variables es lineal. El valor de la variable dependiente ser:

    Si Xi=10 reemplazando

    7510*439.06.70

    :Ecuacin

    =+=iy 32

    kk xy 439.06.70 +=

    kk xbby * 10 +=

  • 17

    Ejemplo 2

    En el archivo estaturas.sav, construir un modelo de regresin lineal que explique la variable estatura del hijo(y)

    a. Utilice como variable independiente la estatura promedio del padre y la madre.

    b. Ahora la var. Independiente es estatura de la madre.

    c. Seleccione solo a los hombre la var independiente: altura del padre.

    d. Seleccione solo a las mujeres, la var independiente: altura del padre.

    En cada uno de los casos grafique.

    33

    Ejemplo 3

    En el archivo maraton.sav, estn los datos de la edad y el tiempo en segundos de los corredores de la Maratn de N.Y..

    Ajustar una recta de regresin que explique el tiempo en funcin de la edad de los corredores.

    Realizar los test de hiptesis para probar si el ajuste es adecuado.

    Interprete el coeficiente b1.

    Estime cuanto se demorara en seg. Una persona de 50 aos.

    34

  • 18

    Ejemplo 4En el archivo empleados.sav, construir un modelo de regresin lineal que explique la variable salario actual(y), como variable independiente utilice la educacin (x).

    ANOVAb

    6,018E+10 1 6,02E+10 365,381 ,000a

    7,774E+10 472 1,65E+08

    1,379E+11 473

    Regresin

    Residual

    Total

    Modelo1

    Suma decuadrados gl

    Mediacuadrtica F Sig.

    Variables predictoras: (Constante), nivel educacionala.

    Variable dependiente: Salario Actualb.

    Resumen del modelo

    ,661a ,436 ,435 $12,833.540

    Modelo1

    R R cuadradoR cuadradocorregida

    Error tp. de laestimacin

    Variables predictoras: (Constante), nivel educacionala.

    Coeficientes a

    -18331,2 2821,912 -6,496 ,000

    3909,907 204,547 ,661 19,115 ,000

    (Constante)

    nivel educacional

    Modelo1

    B Error tp.

    Coeficientes no

    estandarizados

    Beta

    Coeficientesestandarizad

    os

    t Sig.

    Variable dependiente: Salario Actuala.

    35

    Notas a Considerar

    1. Si no existe correlacin lineal entre las variables , no utilice la ecuacin de regresin.

    2. Una ecuacin de regresin esta basada en datos antiguos, no sirven necesariamente para los actuales.

    3. No haga predicciones acerca de una poblacin distinta de la poblacin donde se obtuvieron los datos muestrales.

    36

  • 19

    1.6 Anlisis de Residuos

    Los residuos de un modelo estadstico son la diferencia entre losvalores observados y pronosticados o predichos (yi- i).

    Informan sobre el grado de exactitud de los pronsticos, cuantoms pequeos, mayor es la precisin.

    Estos pueden obtenerse en el SPSS a travs del comandoRegresin grabar y la opcin diagnsticos por casos, entregaun listado de los residuos ms grandes.

    El inters por los residuos reside en que pueden ser usadas paraprobar la mayora de los supuestos del modelo.

    37

    1.6.1 Obtencin de los valores estimados y los residuos con SPSS

    Retomando el archivo salarios y satisfaccin en el empleo

    38

  • 20

    39

    1.6.2 Casos Atpicos - Outliers

    Los casos atpicos son observaciones con caractersticas diferentes de los dems datos.

    No pueden ser caracterizados como problemticos, slo deben ser contemplados en el anlisis.

    Su principal problema es que pueden constituir elementos no representativos de la poblacin.

    Tambin pueden mostrar una caracterstica de la poblacin.

    40

  • 21

    Casos Atpicos - Identificacin

    Pueden identificarse a travs del anlisis univariante, considerando que corresponden a casos atpicos aquellos cuyos valores caigan fuera de la distribucin.

    Estos datos pueden ser observados, a travs del histograma, grfico de cajas. Tambin pueden calcularse nmericamente.

    41

    Ejemplo

    Utilice la base de datos IDH 2012 Mundial, construya un modelo de regresin,

    Variable dependiente : la Esperanza de Vida Variable independiente: Escolaridad.

    42

  • 22

    Casos Atpicos - Identificacin

    Se sugiere lo siguiente:

    Si n < 30 los datos que estn fuera del intervalo de la media ms menos 2,5 desviaciones estndar

    Si n > 30 los datos que estn fuera del intervalo de la media ms menos 3 desviaciones estndar

    43

    Observacin Atpica e Influyente

    1. Es una observacin que tiene alto impacto sobre los valores de prediccin a travs de los parmetros estimados del modelo de regresin.

    2. Se puede detectar a travs del anlisis de residuos, revisando que valores se alejan de la media en ms de 2,5 o 3 desviaciones estndar.

    3. Una vez detectado se debe excluir del modelo y analizar los cambios producidos en los coeficientes y en R2.

    44

  • 23

    Ejemplo : Se mide la satisfaccin en el trabajo a 8 sujetos. Los datos representan los puntajes de satisfaccin(y) y el salariodiario en miles de pesos(x) de cada encuestado.

    Encuentre el coeficiente de correlacin lneal.

    x 31 33 22 24 35 29 23 37 Salario

    y 17 20 13 15 18 17 12 21 Satisfaccin

    45

    Grfico

    r = 0,94

    Puntajes de satisfaccin en el trabajo (x) y salario diario(y)

    46

    15

    20

    25

    30

    35

    40

    10 12 14 16 18 20 22

    Tt

    ulo

    de

    l eje

    Ttulo del eje

    y=miles de $

    Lineal (y=miles de $)

    Ahora calcularemos el coeficiente de correlacin: en excel: COEF.DE.CORREL

  • 24

    47

    Bibliografa utilizada:

    Berenson, Mark L., Levine, David M. , coaut., Krehbiel, Timothy C. , coaut. Ed 2, Mxico Pearson, Educacin, 2006 (cap. 12)

    PARDO MERINO Antonio, RUIZ DIAZ Miguel A. (2002): SPSS 11. Gua para el anlisis de datos. Editorial Mac Graw Hill. 1a edicin.

    SANCHEZ CARRION Juan J. (1999): Manual de anlisis estadstico de los datos.Editorial Alianza. 2a edicin. Cap.8

    TRIOLA Mario (2004): Estadsticas. Editorial Pearson. 9a edicin.

    Webster, A. Estadistica Aplicada a los Negocios y la Economia, Editorial Mac GrawHill 3 edicicin.

    En la web:http://www.cienciaytrabajo.cl/V2/index.htmlAO 8, NMERO 22, OCTUBRE-DICIEMBRE 2006 | Pags. 185/189.AO 10, NMERO 27, ENERO-MARZO 2008

    http://www.ine.es/Importancia de Darwin en el desarrollo de la estadstica modernaToni Monlen Getino; Estadstica espaola,, Vol. 52, N 175, 2010, pgs. 371-392.

    UDP - Facultad de Ciencias Sociales e HistoriaEscuela de Sociologa

    Prof: Berta Teitelboim G.

    Capitulo 1:

    Correlacin bivariada y anlisis de regresin simple

    Agosto 2013

    48