métodos de regresión logística

14
Métodos Multivariados de Análisis de datos

Upload: brenduska03

Post on 04-Jul-2015

1.032 views

Category:

Education


2 download

DESCRIPTION

Métodos de regresión logística

TRANSCRIPT

Page 1: Métodos de regresión logística

Métodos Multivariados de Análisis de datos

Page 2: Métodos de regresión logística

Métodos de regresión logística

•Variables predictorias tienen distribución normal multivariada•Regresión logística ≈ regresión múltiple

La variable dependiente suele ser binaria

Variable dependiente es continua

Modelo de regresión logística

X vector de datos para una unidad experimentalY=1 indica que viene de la población 1Y=0 indica que viene de la población 2

P(y=1I x)= exp (βo+ β1’x)/ (1+exp(βo+ β1’x))

Page 3: Métodos de regresión logística

Transformación Logit

•Es el log de las posibilidades de que y=1 contra y=0

g(x)= log { p(y=1Ix)/[ 1-p(y=1Ix)]} g(x)= (βo+ β1’x)

•Logit tiene muchas propiedades de regresión logística

• La transformación es lineal en los parámetros del modelo

Ajuste de modelos

•Regresión logística se ajusta a través del método de máxima verosimilitud• Otra regresión a través de mínimos cuadrados.

Page 4: Métodos de regresión logística

Análisis discriminante logístico ( mas de dos poblaciones)

Y=0 proviene de la población 1Y=1 proviene de la población 2Y=2 proviene de la población 3

La transformación logit para comparar

Y=1 con Y=0 sabiendo que g1(x)= βo1+ β1’xY=2 con Y=0 g2(x)= βo2+ β2’x

•La probabilidad de y=0 dado x es : P(y=0Ix)=1/(1+exp (βo1+ β1’x)+exp(βo2+ β2’x))

•La probabilidad de y=1 dado x es : P(y=1Ix)=exp(βo1+ β1’x)/(1+exp (βo1+ β1’x)+exp(βo2+ β2’x))

•La probabilidad de y=2 dado x es : P(y=2Ix)=exp(βo2+ β2’x)/(1+exp (βo1+ β1’x)+exp(βo2+ β2’x))

Page 5: Métodos de regresión logística

Ejemplo 8.1

Una tienda de departamentos desea desarrollar una regla discriminante para determinar si se les debe dar créditos para compras futuras a los estudiantes locales universitarios.Variables reunidas:

• Sexo ( SEX)•Especialización (MAJOR)• Edad (AGE)•Promedio de puntos por año de estudio (GPT)• Horas trabajadas por semana (HRS)• Riesgo (RISK)

A su vez tenemos las siguientes clasificaciones :

•SEX FEMALE o MALE

• MAJOR SCI (ciencia), HUM( humanidades), SOC ( ciencias sociales), BUS ( comercio)

Page 6: Métodos de regresión logística

Variables discretas

Variable continua

Se crean nuevas variables :

SEX NSEX3 variables para MAJOR DUM1—1 ( ciencias)-------------0 ( caso contrario)

DUM2– 1(ciencias sociales)-----0 ( caso contrario)DUM3– 1 (humanidades)--------0 ( caso contrario)

Si DUM1, DUM2, DUM3 0, corresponde a comercio

Page 7: Métodos de regresión logística

Perfil de respuesta

Malos riesgos de créditos

Razones de posibilidades

Estimaciones de los parámetros para la función logit

Page 8: Métodos de regresión logística

De lo anterior tenemos que:

•Logit se estima por

ĝ= 33.22-0.62(NSEX)+0.82(DUM1)+5.49(DUM2)+5.01(DUM3)-3.94(GPT)-0.55(AGE)-1.25(HRS)

•En las razones de posibilidades tenemos que para DUM3 150.043, de donde se concluye que es 150 veces mas probable que un estudiante de humanidades sea un mal riesgo que uno de comercio.

•DUM2 y DUM3 presentan riesgos muy similares.DUM2 estadísticamente significativo, valor estimado de 5.49( los estudiantes de ciencias sociales son de peor riesgo que los de comercio)

Page 9: Métodos de regresión logística

Se obtiene el grupo en que la regla discriminante logística clasificaría a un estudiante

Probabilidades estimadas de que caigan en esos grupos

Page 10: Métodos de regresión logística

Matriz resumen de clasificaciones para los 170 estudiantes

79 de 87 son del grupo BAD, serán clasificados de manera correcta

Page 11: Métodos de regresión logística

Se eliminó NSEX

Page 12: Métodos de regresión logística

Probabilidades de significación

cuando se eliminaron esas

variables

Page 13: Métodos de regresión logística

Estimaciones de los parámetros del modelo logit

Probabilidades posteriores

Page 14: Métodos de regresión logística

Se resumen las clasificaciones obtenidas a partir del modelo final.95.2% se

clasificaron correctamente