teoría de la decisión regresión lineal simple
TRANSCRIPT
1 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una
serie de
Observaciones: Por ejemplo:
* pesoadulto <=> altura / pesoadulto ≈ k*altura
* relación de la circunferencia al radio c = 2. 𝜋.r
* la presión de una masa de gas en relación a su temperatura y volumen V1.P1.T0 = V0.P0.T1
2.- El problema estadístico se convierte en que dado un conjunto de datos hipotéticamente
relacionados entre sí ¿cómo evidenciar esa relación?
Desarrollar un modelo que permita (de ser posible) predecir con determinada certeza el
valor de una variable (dependiente) con respecto a otra relacionada (independiente) cada
vez que esta última toma un valor.
𝑦 = 𝑓(𝑥)
2 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
3.- Diagrama de dispersión: Representación gráfica de las observaciones de dos variables
aparente o hipotéticamente relacionadas, con el objeto de evidenciar tal relación.
Relación lineal positiva Relación lineal negativa Relación curva creciente
Relación curva decreciente Relación curva en “U” No hay relación entre X e Y
3 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
4.- El ajuste de la curva es el procedimiento de hallar una curva que represente lo
más eficazmente posible la distribución de los datos.
El objeto es determinar la ecuación de la curva que represente la menor desviación
posible del conjunto de datos considerado.
5.- A estos efectos el procedimiento de mínimos cuadrados, es la técnica
matemática de análisis numérico que permite encontrar la función que mejor se
aproxime al conjunto de datos (ajuste) siguiendo el criterio del menor error
cuadrático. Se trata de minimizar la suma de los cuadrados entre los puntos
generados por la función y los correspondientes en los datos.
6.- Se llama Regresión a la media de la distribución de una variable (dependiente)
con respecto a un valor determinado de otra (independiente).
7.- Regresión lineal simple es el proceso de ajustar una recta a un conjunto de
datos cuya dispersión sugiere este tipo de síntesis matemática.
4 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
El modelo puede representarse como:
𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝜀𝑖
𝑌𝑖 : variable dependiente
𝑏0 : intersección con el eje de ordenadas
𝑏1: pendiente real de la población
𝑋𝑖: variable independiente
𝜀𝑖: error aleatorio en Y para la observación i 𝑌𝑖 = 𝑏0 + 𝑏1𝑋𝑖 + 𝜀𝑖
Teoría de la decisión Regresión Lineal Simple
8.- Determinación de la ecuación de regresión. En esencia el problema consiste
en determinar a partir de los datos los elementos descriptivos de la recta; a saber
su intersección con el eje de ordenadas y su pendiente.
5 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Sujeto a las siguientes condiciones:
(1) Normalidad: La variable dependiente debe presentar una distribución normal
para cada valor de la variable independiente.
(2) Homocedasticidad: La variación en torno a la recta de regresión debe ser
constante para todos los valores de la variable independiente.
(3) Independencia del error. La diferencia “residual” entre la predicción y la
observación debe ser independiente del valor de X.
6 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
El método de mínimos cuadrados nos permite determinar, dentro de estas premisas, la ecuación
bajo el siguiente modelo general:
ii XbbY 10
^
7 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Ejercicio 1
El contador de costos de una empresa de construcción tiene el problema de
estimar los costos de construcción para viviendas unifamiliares en el próximo año,
para asignar los posibles precios. Tiene a mano los registros de todas las
viviendas construidas en el último año. Por experiencia supone como razonable la
hipótesis que el costo de la construcción está relacionado con el tamaño de la
parcela: decide tomar una muestra aleatoria de 12 casas, según tabla a
continuación:
área parcela
(mts2) 500,0 700,0 1.000,0 1.000,0 1.200,0 2.000,0 2.200,0 1.500,0 3.000,0 4.000,0 1.200,0 1.500,0
Costo Const.
(MBs.)
31,6 32,4 41,7 50,2 46,2 58,5 59,3 48,4 63,7 85,3 53,4 54,5
8 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
A partir de esta data, el contador construye un gráfico de dispersión con el objeto de
determinar a grandes rasgos si su hipótesis es correcta:
0,0
10,0
20,0
30,0
40,0
50,0
60,0
70,0
80,0
90,0
500,0 650,0 800,0 950,0 1.100,0 1.250,0 1.400,0 1.550,0 1.700,0 1.850,0 2.000,0
Co
sto
de
con
stru
cció
n M
Bs.
Tamaño de la parcela (m2)
área parcela vs. costo construcción
9 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
área parcela (mts2) Costo Const.(MBs.) XY X2 Y2
1 500,0 31,6 15.800,00 250.000,00 998,56 2 700,0 32,4 22.680,00 490.000,00 1.049,76 3 1000,0 41,7 41.700,00 1.000.000,00 1.738,89 4 1000,0 50,2 50.200,00 1.000.000,00 2.520,04 5 1200,0 46,2 55.440,00 1.440.000,00 2.134,44 6 2000,0 58,5 117.000,00 4.000.000,00 3.422,25 7 2200,0 59,3 130.460,00 4.840.000,00 3.516,49 8 1500,0 48,4 72.600,00 2.250.000,00 2.342,56 9 3000,0 63,7 191.100,00 9.000.000,00 4.057,69
10 4000,0 85,3 341.200,00 16.000.000,00 7.276,09 11 1200,0 53,4 64.080,00 1.440.000,00 2.851,56 12 1500,0 54,5 81.750,00 2.250.000,00 2.970,25
Sumas 19.800,00 625,20 1.184.010,00 43.960.000,00 34.878,58
medias 1.650,00 52,10
b1 = 0,014
b0 = 29,823
10 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Dato original estimación
área
parcela
(mts2)
Costo
Const
(MBs.)
Yest Y - Yest
1 500,0 31,6 36,57 -4,97 2 700,0 32,4 39,27 -6,87 3 1000,0 41,7 43,32 -1,62 4 1000,0 50,2 43,32 6,88 5 1200,0 46,2 46,02 0,18 6 2000,0 58,5 56,83 1,67 7 2200,0 59,3 59,53 -0,23 8 1500,0 48,4 50,07 -1,67 9 3000,0 63,7 70,33 -6,63
10 4000,0 85,3 83,83 1,47 11 1200,0 53,4 46,02 7,38 12 1500,0 54,5 50,07 4,43
9. Error estándar de la estimación. Al igual que las observaciones no están ubicadas exactamente sobre su media aritmética, tampoco lo estarán sobre la recta de regresión tal cual como observamos en la tabla en la columna Y-Yest. Por tanto las estimaciones obtenidas son aproximaciones, y por ello es necesario desarrollar un estadístico que mida la variabilidad en los valores reales de Y a partir de las estimaciones Yest. Esta medida se llama error estándar de la estimación se le denota por Sxy
o su equivalente
21
1
1
0
1
2
n
YXbYbY
S
n
i
ii
n
i
i
n
i
i
YX
11 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Variación explicada
Variación no explicada
Variación total
Yest = b0 + b1 Xi
Yi
Xi
Ymedia
variación total:
medida de la variación de los
valores de Y en torno a su media.
variación explicada:
consecuencia de la relación que
existe entre Y y X.
variación no explicada:
consecuencia de factores
diferentes de tal relación.
12 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
13 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
11. Coeficiente de determinación (r2). Si obtenemos la razón de la variación
explicada a la variación total podremos calcular el porcentaje de la variación
explicada por el modelo de regresión y por tanto una medida de cuán confiable
es el modelo. Esta medida se define como:
𝑟2 = 𝑉𝑒𝑥𝑝
𝑉𝑡𝑜𝑡𝑎𝑙
12. Correlación. Este estadístico mide cuán fuerte es la relación entre dos
variables, a través de un coeficiente ρ de correlación, tal que
−1 ≤ 𝜌 ≤ +1
Correlación negativa perfecta (ρ = -1) No hay correlación (ρ = 0) Correlación positiva perfecta (ρ = + 1)
14 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
El coeficiente de correlación viene dado por la ecuación
𝑟 = 𝑟2
Si sólo se efectúa el análisis de correlación en un grupo de datos; es decir
sin asociarlo a la regresión, el coeficiente de correlación de la muestra
puede calcularse directamente con:
𝑟 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌 𝑛
𝑖=1
𝑋𝑖 − 𝑋 2𝑛𝑖=1 𝑌𝑖 − 𝑌 2𝑛
𝑖=1
15 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
SYX = 4,976
Vexp = 2.058,008
Vnexp = 247,652
Vtotal = 2.305,660
r2 = 0,893
r = 0,945
Coeficiente de
determinación
Coeficiente de
correlación
Error típico
Variaciones de
la estimación
con respecto a
la observación
16 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Ejercicio 2.- El Director de una Universidad en su proceso de evaluación
de conductas de entrada cree que el promedio de los últimos dos años de
bachillerato y el índice académico de los alumnos están relacionados.
Sólo toma como referencia los alumnos del 4to. Año de ellos toma una
muestra de 15 alumnos que se detalla a continuación:
Promedio bach. 87 88 80 83 80 98 78 85 80 92 76 81 82 89 78 Indice académico 2,3 2,8 2,9 3,0 2,8 3,9 2,6 3,3 2,5 3,0 3,2 3,2 2,6 3,2 2,7
17 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
2,00
2,25
2,50
2,75
3,00
3,25
3,50
3,75
4,00
70,00 75,00 80,00 85,00 90,00 95,00 100,00
Ind
ice
acad
émic
o
Promedio en Bachillerato
Indice académico
18 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Promedio bachillerato
Indice académico
XY X2 Y2 Yest Y - Yest
87,00 2,30 200,10 7.569,00 5,2900 b1 = 0,0323 3,0387 -0,7387
88,00 2,80 246,40 7.744,00 7,8400 b0 = 0,2295 3,0709 -0,2709
80,00 2,90 232,00 6.400,00 8,4100 SYX = 0,3524 2,8126 0,0874
83,00 3,00 249,00 6.889,00 9,0000 Vexp = 0,5301 2,9095 0,0905
80,00 2,82 225,60 6.400,00 7,9524 Vtotal = 2,1442 2,8126 0,0074
98,00 3,86 378,28 9.604,00 14,8996 r2 = 0,2472 3,3938 0,4662
78,00 2,60 202,80 6.084,00 6,7600 r = 0,4972 2,7481 -0,1481
85,00 3,34 283,90 7.225,00 11,1556 2,9741 0,3659
80,00 2,50 200,00 6.400,00 6,2500 2,8126 -0,3126
92,00 3,00 276,00 8.464,00 9,0000 3,2001 -0,2001
76,00 3,20 243,20 5.776,00 10,2400 2,6835 0,5165
81,00 3,20 259,20 6.561,00 10,2400 2,8449 0,3551
82,00 2,64 216,48 6.724,00 6,9696 2,8772 -0,2372
89,00 3,21 285,69 7.921,00 10,3041 3,1032 0,1068
78,00 2,66 207,48 6.084,00 7,0756 2,7481 -0,0881
1.257,00 44,03 3.706,13 105.845,00 131,3869
19 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
20 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Predicciones en el análisis de regresión (interpolación vs. extrapolación)
1. Utilizar el rango del conjunto de datos (interpolación)
2. Las inferencia fuera de ese rango no son aconsejables (no extrapolar).
(a) datos fuera del dominio
(b) cambian media y desviación típica
(c) cambian los supuestos matemáticos
(d) alta probabilidad de no aceptabilidad de la precisión de la predicción
21 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Intervalo de confianza para predecir la media del conjunto (µYX)
El ancho del intervalo depende de:
. El valor del error típico, al aumentar la variación el intervalo es más ancho
. El tamaño de la muestra, su aumento tiende a reducir el intervalo
. La cercanía del dato a la media que estrecha el intervalo a medida que se acercan
22 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA
Teoría de la decisión Regresión Lineal Simple
Ejercicio 3.- se desea calcular el costo promedio real para casas con terrenos de
1.500 mts2 con un intervalo de confianza del 95%