correlacion y regresion lineal: introducción mario briones l. mv, msc
TRANSCRIPT
![Page 1: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/1.jpg)
CORRELACION Y REGRESION LINEAL:
Introducción
Mario Briones L.MV, MSc
![Page 2: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/2.jpg)
Correlación lineal de Pearson. Medida de la estrechez de la
asociación entre dos variables cuantitativas.
Asociación: fluctuación en conjunto de dos variables
![Page 3: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/3.jpg)
Correlación lineal de Pearson: Muchas veces en que se dispone de
datos en pares, se desea conocer si ambas variables está relacionadas o son independientes
![Page 4: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/4.jpg)
Considere los siguientes datos: Valores de pluviometría para once localidades a
diferente altura sobre el nivel del mar:4 1162 6345 844 4306 1008 5737 956 4388 825 4749 899 40910 801 50411 1186 708
![Page 5: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/5.jpg)
Gráfico de la asociación
300
350
400
450
500
550
600
650
700
750
700 800 900 1000 1100 1200 1300
altura sobre el nivel del mar (mts)
plu
vio
me
tría
(m
m)
Promedio de X= 959.2 mts
Promedio de Y= 530 mts
![Page 6: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/6.jpg)
COVARIANZA: Medida de la variación en conjunto de dos variables:
yi
n
jxjXY yx
n
1)( 1
1cov
1cov )(
nn
YXYX ij
ii
XY
CONCEPTO:
FORMULA DE CALCULO:
Donde n es el número de pares de valores X Y
![Page 7: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/7.jpg)
En el ejemplo:
42.1307910
11582910551
16380
XYCOV
Atención! La función COVAR de Excel divide por n...
![Page 8: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/8.jpg)
Covarianza en el ejemplo: Cov(XY)= 13.079,41
El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y
Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y
![Page 9: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/9.jpg)
Estandarización de la medición Pearson, matemático Inglés,
desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y
YX
XYCovrho
)()(
YX
XY
ss
Covr )(
En la población En la muestra
![Page 10: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/10.jpg)
Correlación lineal de Pearson: El índice r, fluctúa entre –1 y +1 Si la fluctuación en conjunto es
estrecha, el valor de r se acerca a –1 o +1.
Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.
![Page 11: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/11.jpg)
Coeficiente de correlación de Pearson en el ejemplo:
YX
XY
ss
Covr )(
856.04.1039.147
42.13079
r
![Page 12: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/12.jpg)
Es la correlación observada diferente de cero? (H0??)
11 2
Nr
rt
XY
XY
11 2
Nr
rz
XY
XY
N< 30 N> 30
N es la cantidad de pares XY
![Page 13: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/13.jpg)
Es la correlación observada diferente de cero, en el ejemplo?
25.5163.0856.0
10733.01
856.0
t
t
t
En la tabla de t,con alfa= 0.05 (dos colas)y 10 grados de libertad(n-1), el valor críticoes 2.22
Por lo tanto se puederechazar H0 respectodel valor poblacional derho:Hay una asociación significativaentre la altura sobre el nivel delmar y la cantidad de precipitación(P<0.05) (en la población)
![Page 14: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/14.jpg)
0.01
0.959
0.0014 0.9 0.95 0.99 0.999
N 0.1 0.05
0.875
0.9916 0.729 0.811 0.917 0.9745 0.805 0.878
0.798
0.9518 0.621 0.707 0.834 0.9257 0.669 0.754
0.735
0.89810 0.549 0.632 0.765 0.8729 0.582 0.666
0.684
0.84712 0.497 0.576 0.708 0.82311 0.521 0.602
0.641
0.80114 0.458 0.532 0.661 0.7813 0.476 0.553
0.606
0.7616 0.426 0.497 0.623 0.74215 0.441 0.514
0.575
0.72518 0.4 0.468 0.59 0.70817 0.412 0.482
0.549
0.69320 0.378 0.444 0.561 0.67919 0.389 0.456
0.526
0.66522 0.36 0.423 0.537 0.65221 0.369 0.433
0.505
0.6424 0.344 0.404 0.515 0.62923 0.352 0.413
0.487
0.61826 0.33 0.388 0.496 0.60725 0.337 0.396
0.471
0.59728 0.317 0.374 0.479 0.58827 0.323 0.381
0.43
0.57930 0.306 0.361 0.463 0.5729 0.311 0.367
0.38
0.53240 0.264 0.312 0.403 0.50135 0.283 0.334
0.33
0.47450 0.235 0.279 0.361 0.45145 0.248 0.294
0.286
0.41470 0.198 0.235 0.306 0.38560 0.214 0.254
0.256
0.36190 0.174 0.207 0.27 0.34180 0.185 0.22
0.324100 0.165 0.197
alfa
Otra opción es compararel valor de r calculadocon el valor de r de la tablaadjunta.Si el valor de r calculadoes mayor que el r delnúmero de grados delibertad de la correlación
(n-1)=10
valor crítico= 0.632
![Page 15: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/15.jpg)
Transformación de Fisher del coeficiente de correlación
rr
zrxy 11
ln5.0
Z tiene distribución aproximadamente normal, conmedia y error estándar:
5.0)3(1
N
ee
![Page 16: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/16.jpg)
Transformación de Fisher en el ejemplo:
275.1
55.25.0
144.856.1
ln5.0
856.01856.01
ln5.0
rxyz
![Page 17: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/17.jpg)
Intervalo de confianza del coeficiente de correlación
3-N1
)( colas dos Pzzrxy
Para obtener el intervalo de confianza en “unidadesde correlación” se transforman de modo inverso usandoel mismo método de r a z
En INTERNET:http://faculty.vassar.edu/lowry/rho.html?
![Page 18: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/18.jpg)
Intervalo de confianza en el ejemplo:
653.0275.1
1111.096.1275.1
3-111
96.1275.1
Según la página de Internet, el intervalo deconfianza de 95% para r=0.856límite inferior=0.527límite superior=0.961
![Page 19: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/19.jpg)
Comparación de coeficientes de correlación
31
31
21
21
nn
zzz rxyrxy
Se utilizan los coeficientes transformados
![Page 20: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/20.jpg)
Correlación entre las líneas eléctricas y el cáncer Epidemiólogos del Instituto
Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje.
Observaron que los niños tenían mayor incidencia de leucemia.
![Page 21: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/21.jpg)
Correlación entre las líneas eléctricas y el cáncer Los hallazgos descritos obligaron al
gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.
![Page 22: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/22.jpg)
Correlación entre las líneas eléctricas y el cáncer En un artículo acerca del estudio, la
revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.
![Page 23: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/23.jpg)
Errores comunes respecto a la correlación Se debe tener cuidado de evitar
concluir que la correlación implica causalidad Variables ocultas
No utilizar tasas o promedios Pérdida de variación entre individuos
Supuesto de linearidad de la relación
![Page 24: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/24.jpg)
Correlación y regresión lineal: Si existe una conexión biológica (o
de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación.
El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)
![Page 25: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/25.jpg)
Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento.
X Yozono (ppm) rendimiento (gr/pl)
0.02 242 0.07 237 0.11 231 0.15 201
Xi= 0.35 Yi= 911 X= 0.0875 Y= 227.75X2
i= 0.0399 Y2i= 208495
XiYi= 76.99
![Page 26: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/26.jpg)
MODELO
Asumiendo una relación lineal entre el rendimiento y el nivel del ozono, el modelo establece que la media verdadera de la variable dependiente cambia a una tasa constante en la medida que la variable dependiente aumenta o disminuye.
La relación funcional entre la media verdadera de Yi, E(Yi) y Xi es la ecuación de la línea recta:
![Page 27: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/27.jpg)
MODELO
Donde = intercepto (valor de E(Y)cuando X es
igual a cero = pendiente de la línea (tasa de cambio
de E(Y) ante un cambio unitario en X.
)()( ii XYE
![Page 28: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/28.jpg)
SUPUESTOS
Las observaciones de la variable dependiente Yi se asumen como observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dada por E(Yi).
La desviación de una observación Yi desde la media de su población, E(Yi) se considera añadiendo un término de error aleatorio i para dar el siguiente modelo:
![Page 29: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/29.jpg)
SUPUESTOS
El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error.
Es decir, son constantes conocidas; los Yi y los Xi son observaciones pareadas, tomadas en cada unidad observacional.
iii XY
![Page 30: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/30.jpg)
Rendimiento de soya frente a diferentes concentraciones de ozono
170
180
190
200
210
220
230
240
250
0 0.05 0.1 0.15 0.2
concentración de ozono (ppm)
ren
dim
ien
to s
oya
(g
r/p
lan
ta)
![Page 31: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/31.jpg)
ESTIMACION DE MINIMOS CUADRADOS
Los parámetros en el modelo son y , a ser estimados desde los datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valores de los parámetros.
La variación aleatoria de Y, sin embargo, hace que cada par de valores de resultados diferentes (Todos los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre una línea recta.)
![Page 32: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/32.jpg)
ESTIMACION DE MINIMOS CUADRADOS
Por lo tanto, el método de resolución debe combinar toda la información para dar una sola solución que sea la “mejor” en base a algún
criterio. El procedimiento de estimación de mínimos
cuadrados utiliza el criterio de que la solución debe dar la suma más pequeña posible para las desviaciones al cuadrado desde los valores observados de Yi hasta sus medias verdaderas dadas por la solución.
![Page 33: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/33.jpg)
ESTIMACION DE MINIMOS CUADRADOS
Sean b y a los estimadores numéricos de los parámetros y , respectivamente, y sea
el promedio estimado de Y para cada Xi, i= 1, 2,…, n.
Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relaciona E(Yi) con Xi, dado por la ecuación de la recta.
ii bXaY ˆ
![Page 34: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/34.jpg)
El principio de los mínimos cuadrados escoge valores de a y bque minimizan la suma de cuadrados de los residuales, SC(Res):
Donde es el valor residual observado para la iésima observación. La suma indicada por es sobre todos losvalores del conjunto como lo indican los índices i= 1 hasta n
Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas deSC(Res) con respecto a b y a son definidas iguales a cero.
2)(
1
2)( )ˆ(
iRES
n
iiiRES
eSC
YYSC
)ˆ( iii YYe
![Page 35: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/35.jpg)
Las ecuaciones normales son:
n(a) + (Xi)b= Yi
(Xi)a + (X2i)b= XiYi
Resolviendo las ecuaciones simultáneamente para a y b, da losestimadores para y :
(Xi-X)(Yi-Y) xiyi
b= = (Xi-X)2 x2
i
a= Y - bX
![Page 36: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/36.jpg)
Para facilidad de cálculo:
(Xi)2
x2i= X2
i - n (Xi)(Yi)xiyi= XiYi - n
Lo que da la siguiente fórmula de cálculo para la pendiente:
n
XX
n
YXYX
bi
i
iiii
22 )(
))((
![Page 37: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/37.jpg)
Cálculo de la pendiente (b)
X Yozono (ppm) rendimiento (gr/pl)
0.02 242 0.07 237 0.11 231 0.15 201
0399.0
0875.0
35.0
2i
i
X
X
X
208495
75.227
911
2i
i
Y
Y
Y
99.76iiYX
53.293
4)35.0(
0399.0
4)911)(35.0(
99.76
2
b
n
XX
n
YXYX
bi
i
iiii
22 )(
))((
![Page 38: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc](https://reader036.vdocuments.site/reader036/viewer/2022081418/5665b43a1a28abb57c902d20/html5/thumbnails/38.jpg)
Cálculo de la constante (a)y ecuación:
XbYa
a= 227.75 - (-293.531)(0.08875)= 253.434
iXY 5.2934.253ˆ
La ecuación de mínimo cuadrado que caracteriza el efecto del ozonosobre el rendimiento promedio de la soya en este estudio, asumiendoque el modelo lineal es correcto es: