Download - Métodos de regresión logística
Métodos Multivariados de Análisis de datos
Métodos de regresión logística
•Variables predictorias tienen distribución normal multivariada•Regresión logística ≈ regresión múltiple
La variable dependiente suele ser binaria
Variable dependiente es continua
Modelo de regresión logística
X vector de datos para una unidad experimentalY=1 indica que viene de la población 1Y=0 indica que viene de la población 2
P(y=1I x)= exp (βo+ β1’x)/ (1+exp(βo+ β1’x))
Transformación Logit
•Es el log de las posibilidades de que y=1 contra y=0
g(x)= log { p(y=1Ix)/[ 1-p(y=1Ix)]} g(x)= (βo+ β1’x)
•Logit tiene muchas propiedades de regresión logística
• La transformación es lineal en los parámetros del modelo
Ajuste de modelos
•Regresión logística se ajusta a través del método de máxima verosimilitud• Otra regresión a través de mínimos cuadrados.
Análisis discriminante logístico ( mas de dos poblaciones)
Y=0 proviene de la población 1Y=1 proviene de la población 2Y=2 proviene de la población 3
La transformación logit para comparar
Y=1 con Y=0 sabiendo que g1(x)= βo1+ β1’xY=2 con Y=0 g2(x)= βo2+ β2’x
•La probabilidad de y=0 dado x es : P(y=0Ix)=1/(1+exp (βo1+ β1’x)+exp(βo2+ β2’x))
•La probabilidad de y=1 dado x es : P(y=1Ix)=exp(βo1+ β1’x)/(1+exp (βo1+ β1’x)+exp(βo2+ β2’x))
•La probabilidad de y=2 dado x es : P(y=2Ix)=exp(βo2+ β2’x)/(1+exp (βo1+ β1’x)+exp(βo2+ β2’x))
Ejemplo 8.1
Una tienda de departamentos desea desarrollar una regla discriminante para determinar si se les debe dar créditos para compras futuras a los estudiantes locales universitarios.Variables reunidas:
• Sexo ( SEX)•Especialización (MAJOR)• Edad (AGE)•Promedio de puntos por año de estudio (GPT)• Horas trabajadas por semana (HRS)• Riesgo (RISK)
A su vez tenemos las siguientes clasificaciones :
•SEX FEMALE o MALE
• MAJOR SCI (ciencia), HUM( humanidades), SOC ( ciencias sociales), BUS ( comercio)
Variables discretas
Variable continua
Se crean nuevas variables :
SEX NSEX3 variables para MAJOR DUM1—1 ( ciencias)-------------0 ( caso contrario)
DUM2– 1(ciencias sociales)-----0 ( caso contrario)DUM3– 1 (humanidades)--------0 ( caso contrario)
Si DUM1, DUM2, DUM3 0, corresponde a comercio
Perfil de respuesta
Malos riesgos de créditos
Razones de posibilidades
Estimaciones de los parámetros para la función logit
De lo anterior tenemos que:
•Logit se estima por
ĝ= 33.22-0.62(NSEX)+0.82(DUM1)+5.49(DUM2)+5.01(DUM3)-3.94(GPT)-0.55(AGE)-1.25(HRS)
•En las razones de posibilidades tenemos que para DUM3 150.043, de donde se concluye que es 150 veces mas probable que un estudiante de humanidades sea un mal riesgo que uno de comercio.
•DUM2 y DUM3 presentan riesgos muy similares.DUM2 estadísticamente significativo, valor estimado de 5.49( los estudiantes de ciencias sociales son de peor riesgo que los de comercio)
Se obtiene el grupo en que la regla discriminante logística clasificaría a un estudiante
Probabilidades estimadas de que caigan en esos grupos
Matriz resumen de clasificaciones para los 170 estudiantes
79 de 87 son del grupo BAD, serán clasificados de manera correcta
Se eliminó NSEX
Probabilidades de significación
cuando se eliminaron esas
variables
Estimaciones de los parámetros del modelo logit
Probabilidades posteriores
Se resumen las clasificaciones obtenidas a partir del modelo final.95.2% se
clasificaron correctamente