cursomlg's
TRANSCRIPT
-
8/20/2019 CursoMLG's
1/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel Modelo
LinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Modelos Lineales Generalizados
(MLG’s)
Dr. Francisco J. Ariza-Herná[email protected]
UAGro.
Dr. Paulino Pé[email protected]
C.P.
4a SIEP
11 de julio de 2011
http://find/
-
8/20/2019 CursoMLG's
2/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel Modelo
LinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Contenido
1 Introducción
2 Breve revisión del modelo lineal
3 La familia Exponencial simple
4 Componentes del Modelo LinealGeneralizado
5 Estimación en el MLG
6 Regresión Binaria y Poisson
http://find/
-
8/20/2019 CursoMLG's
3/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel Modelo
LinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Contenido
1 Introducción
http://find/
-
8/20/2019 CursoMLG's
4/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel Modelo
LinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Introducción
• Los MLG’s fueron inicialmente introducidos por Nelder yWeddernburn (1972).
• Son un clase de modelos estadísticos para relacionarvariables respuestas con variables explicativas.
• Incluyen: Modelos de regresión, modelo para proporciones(var nominales, ordinales y de conteo)
• Simplifica la implementación en software estadístico.
http://find/
-
8/20/2019 CursoMLG's
5/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel Modelo
LinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Contenido
2 Breve revisión del modelo lineal
http://find/
-
8/20/2019 CursoMLG's
6/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Breve revisión del modelo
lineal
Decimos que un modelo es lineal, si los parámetros aparecen enforma aditiva en en modelo,
y i = x i β + e i ; i = 1, 2, . . . , n. (1)
Comunmente se supone que e i ∼ N (0, σ2). El modelo (1) en
forma matricial se expresa como:
y = X β + e (2)
Usando este supuesto, se pueden obtener los estimadores demáxima verosimilitud de β, β̂ = (X X )−1X y
http://find/
-
8/20/2019 CursoMLG's
7/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Suposiciones:
1 E (e i ) = 0, para i = 1, 2, . . . , n.
2 V (e i ) = σ2, (σ2 = constante ), para i = 1, 2, . . . , n.
3 Cov(e i , e j ) = 0 para toda i = j .
ConsecuenciasAplicando las suposiciones anteriores al modelo de regresión
múltiple, tenemos que Y es una variable aleatoria tal que
• µY = E (Y ) = β 0 + β 1x 1 + β 2x 2 + ... + β k x k Predictor lineal
• σ2Y
= V (Y ) = σ2
• Cov(y i , y j ) = 0
Es decir,
Y ∼ N (β 0 + β 1x 1 + β 2x 2 + · · · + β k x k , σ2)
http://find/
-
8/20/2019 CursoMLG's
8/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Suposiciones:
1 E (e i ) = 0, para i = 1, 2, . . . , n.
2 V (e i ) = σ2, (σ2 = constante ), para i = 1, 2, . . . , n.
3 Cov(e i , e j ) = 0 para toda i = j .
ConsecuenciasAplicando las suposiciones anteriores al modelo de regresión
múltiple, tenemos que Y es una variable aleatoria tal que
• µY = E (Y ) = β 0 + β 1x 1 + β 2x 2 + ... + β k x k Predictor lineal
• σ2Y
= V (Y ) = σ2
• Cov(y i , y j ) = 0
Es decir,
Y ∼ N (β 0 + β 1x 1 + β 2x 2 + · · · + β k x k , σ2)
http://find/
-
8/20/2019 CursoMLG's
9/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Suposiciones:
1 E (e i ) = 0, para i = 1, 2, . . . , n.
2 V (e i ) = σ2, (σ2 = constante ), para i = 1, 2, . . . , n.
3 Cov(e i , e j ) = 0 para toda i = j .
ConsecuenciasAplicando las suposiciones anteriores al modelo de regresión
múltiple, tenemos que Y es una variable aleatoria tal que
• µY = E (Y ) = β 0 + β 1x 1 + β 2x 2 + ... + β k x k Predictor lineal
• σ2Y
= V (Y ) = σ2
• Cov(y i , y j ) = 0
Es decir,
Y ∼ N (β 0 + β 1x 1 + β 2x 2 + · · · + β k x k , σ2)
http://find/
-
8/20/2019 CursoMLG's
10/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Interpretación de los
coeficientes
• Geométricamente,• La ecuación de RLS representa una línea.• En RLM representa un plano, si k = 2. Y un hiperplano si
k = 3, 4, . . .
• β 0 es el valor de Y cuando X 1 = X 2 = · · · = X k = 0
• β j , j = 1, . . . , k representa el cambio en Y correspondiente a una unidad de cambio en X j , cuando losdemás predictores permanecen constantes.
• β j , j = 1, . . . , k son llamados Coeficientes de RegresiónParcial ; β j representa la contribución de X j a la variable Y después de haber sido ajustada por las otras variablespredictoras.
http://find/
-
8/20/2019 CursoMLG's
11/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Interpretación de los
coeficientes
• Geométricamente,• La ecuación de RLS representa una línea.• En RLM representa un plano, si k = 2. Y un hiperplano si
k = 3, 4, . . .
• β 0 es el valor de Y cuando X 1 = X 2 = · · · = X k = 0
• β j , j = 1, . . . , k representa el cambio en Y correspondiente a una unidad de cambio en X j , cuando losdemás predictores permanecen constantes.
• β j , j = 1, . . . , k son llamados Coeficientes de RegresiónParcial ; β j representa la contribución de X j a la variable Y después de haber sido ajustada por las otras variablespredictoras.
http://find/
-
8/20/2019 CursoMLG's
12/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Interpretación de los
coeficientes
• Geométricamente,• La ecuación de RLS representa una línea.• En RLM representa un plano, si k = 2. Y un hiperplano si
k = 3, 4, . . .
• β 0 es el valor de Y cuando X 1 = X 2 = · · · = X k = 0
• β j , j = 1, . . . , k representa el cambio en Y correspondiente a una unidad de cambio en X j , cuando losdemás predictores permanecen constantes.
• β j , j = 1, . . . , k son llamados Coeficientes de RegresiónParcial ; β j representa la contribución de X j a la variable Y después de haber sido ajustada por las otras variablespredictoras.
http://find/
-
8/20/2019 CursoMLG's
13/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Interpretación de los
coeficientes
• Geométricamente,• La ecuación de RLS representa una línea.• En RLM representa un plano, si k = 2. Y un hiperplano si
k = 3, 4, . . .
• β 0 es el valor de Y cuando X 1 = X 2 = · · · = X k = 0
• β j , j = 1, . . . , k representa el cambio en Y correspondiente a una unidad de cambio en X j , cuando losdemás predictores permanecen constantes.
• β j , j = 1, . . . , k son llamados Coeficientes de RegresiónParcial ; β j representa la contribución de X j a la variable Y después de haber sido ajustada por las otras variablespredictoras.
http://find/
-
8/20/2019 CursoMLG's
14/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Ejemplo..
Estamos interesados en relacionar la edad y la exposición alhumo de cigarros (xi ) con el peso (y i ) de un niño.
El MRL Normal:
y i = x
i β + e i ; e i ∼ N (0, σ2)
= β 0 + β 1E i + β 2F i + β 3E i × F i + e i
Predictor Variable Coeficiente
Edad E i :edad en años β 1Hábito de fumar F i = 1(exp) ó 0 (nexp) β 2
Interacción E i × F i β 3
http://find/
-
8/20/2019 CursoMLG's
15/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Análisis y resultados
Se ajustó el modelo por Máxima Verosimilitud, usando datosde los hijos, en diferentes edades, de 1752 mujeres.
Coef EMV s.e. p-valor
β 0 5025.5 83.18
-
8/20/2019 CursoMLG's
16/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Generalizando el modelo
• En muchos casos la distribución de la respuesta continuapuede ser no normal
• En otros, la respuesta puede ser discreta, p.e.• dicotómica o binaria (y i = 1, y i = 0)• ordinal• nominal• conteo
• Puede necesitarse un modelo no lineal para relacionar lamedia con los predictores.
MLG’
http://find/
-
8/20/2019 CursoMLG's
17/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Algunos ejemplos
1. Estudio sobre nacimientos por cesárea. Datos de infeccionesen nacimientos por cesárea.
Cesárea planeada Cesárea no planeada
Con inf Sin inf Con inf Sin inf
Antibióticos
Con factores de riesgo 1 17 11 87
Sin factores de riesgo 0 2 0 0
No antibióticosCon factores de riesgo 28 30 23 3
Sin factores de riesgo 8 32 0 9
• Variable respuesta: Ocurrencia o no ocurrencia de
infección.• Covariables: 1. Cesárea planeada: (1 : si , 0 : no )
2. Presencia de factores de riesgo (1 : si , 0 : no )3. Tratamiento con antibióticos (1 : si , 0 : n0)
• Escal de la respuesta: binaria
MLG’
http://find/
-
8/20/2019 CursoMLG's
18/57
MLG’s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
2. Tendencia de mortalidad
Los datos corresponde al numero trimestral de muertes porVIH, en Autralia de 1983 (enero-marzo) a 1986 (abril-junio)
Trimestre 1 2 3 4 5 6 7 8 9 10 11 12 1
Muertes 0 1 2 3 1 4 9 18 23 31 20 25 3• Variable respuesta: número de muertes por trimestre.
• Escala de la respuesta: binaria
• interés: modelar la tendencia de mortalidad
MLG’s
http://find/
-
8/20/2019 CursoMLG's
19/57
MLG s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
observaciones
• Claramente los modelos de regresión normal no sonapropiados para los ejemplo anteriores
• Se necesita un contexto mas general para trata condiferente escalas de medida en las variables respuesta
• Métodos para ajustar esos modelo e inferencias en estecontexto.
MLG’s
http://find/
-
8/20/2019 CursoMLG's
20/57
MLG s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Los MLG’s nos permiten extendernos a situaciones masgenerales:
1 Casos donde la variable respuesta tiene distribucionesdiferentes que la normal. Familia Exponencial.
2 Enlazar, a través de una función, el predictor lineal con lamedia de la distribución.
MLG’s
http://find/
-
8/20/2019 CursoMLG's
21/57
MLG s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Contenido
3 La familia Exponencial simple
MLG’s
http://find/
-
8/20/2019 CursoMLG's
22/57
MLG s
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
La familia Exponencial
simple
Sea Y una variable aleatoria con fdp (discreta o continua) quedepende de un único parámetro θ. La distribución de Y pertenece a la familia Exponencial simple si puede escribirsecomo:
f (y ; θ) = exp {a(y )b (θ) + c (θ) + d (y )}
• Si a(y ) = y la distribución está en forma canónica
• b (θ) es el parámetro natural
• Si hay otros parámetros se incluyen en las funcionesa(·), b (·), c (·) y d (·).
Muchas distribuciones comunmente conocidas pertenecen a lafamilia exponencial, por ejemplo: Normal, Bernoulli, Binomial,
Poisson, etc.
MLG’s
http://find/
-
8/20/2019 CursoMLG's
23/57
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Ejemplos
Cuadro 1: Algunos miembros de la familia exponencial
Distribución Parámetro natural c d
Poisson log θ −θ −logy !
Normal µσ2
− µ
2
2σ2 −
12
log(2πσ2) − y 2
2σ2
Binomial log π
1−π
n log(1 − π) log
n
y
MLG’s
http://find/
-
8/20/2019 CursoMLG's
24/57
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Propiedades de la Familia
Exponencial
La media
E {a(Y )} = −c (θ)
b (θ)
La Varianza
Var {a(Y )} = b (θ)c (θ) − c (θ)b (θ)
[b (θ)]3
Estas cantidades son de mucha utilidad al construir elalgoritmo de estimación en los Modelos Lineales Generalizados.
MLG’s
http://find/
-
8/20/2019 CursoMLG's
25/57
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Funciones Score
Sea l (θ; y ) = a(y )b (θ) + c (θ) + d (y ). A dl (θ; y )/d θ se le llamala función Score y puede ser vista como una variable aleatoria,pues depende de Y .
dl (θ; y )
d θ = a(y )b (θ) + c (θ)
U (Y ) := a(Y )b (θ) + c (θ)
La función score se utilizará posteriormente al hacer inferencia.
E (U ) = 0 y Var (U ) = −E (U ) = b
(θ)c
(θ)b (θ) − c
(θ) = I (θ).
Es importante resaltar que la Var (U ) escencialmente coincidecon la matriz de Información de Fisher.
MLG’s
http://find/
-
8/20/2019 CursoMLG's
26/57
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Matriz de Información de
Fisher
I (θ) = −E ∂ 2
∂θ2 log f (y ; θ)
= E
∂
∂θ log f (y ; θ)
2
comunmente usada en Inferencia estadística.
MLG’s
http://find/
-
8/20/2019 CursoMLG's
27/57
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Contenido
4 Componentes del Modelo LinealGeneralizado
MLG’s
http://find/
-
8/20/2019 CursoMLG's
28/57
Introducción
Breve revisión
del modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Componentes del GLMEl GLM tiene 3 componentes: Componente aleatoria,componente sistemática y la función liga.
1 Componente aleatoria: Las variables aleatorias Y 1, ..., Y ntienen distribución que pertenece a la familia exponencialsimple. La distribución de cada Y i está en forma canónicay depende de un único parámetro θi , es decir:
f (y i ; θi ) = exp{y i b (θi ) + c (θi ) + d (y i )}
2 Componente sistemática: Se supone que existe una serie
de covariables X que pueden incidir sobre la los valoresque toman las Y i s . El impacto de estas covariables semide a través de ciertos parámetros del modelo para lasY s , digamos β.
3
Función liga: g (µi ) = x
i β = ηi , con E (Y i ) = µi .
MLG’s
http://find/
-
8/20/2019 CursoMLG's
29/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Propiedades de las
funciones liga
• Funciones monótonas
• Diferenciables
Ejemplos:
Función liga para datos Poisson.
1 En gral., una función liga para este tipo de datos debemapear de R+ a los R
2 Usando la función ηi = log(µi ) = xi β se garantiza queµi > 0 para toda β ∈ R
p y todos los valores de xi
3 la liga log es la selección natural
MLG’s
http://find/
-
8/20/2019 CursoMLG's
30/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Función liga para datos binomiales• En la distribución binomial, la media es ni µi , donde
0 < µi
-
8/20/2019 CursoMLG's
31/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Contenido
5 Estimación en el MLGAlgoritmo de mínimos cuadrados ponderados iterativos
Software
MLG’s
http://find/http://goback/
-
8/20/2019 CursoMLG's
32/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Ajuste del modelo
La verosimilitud de un MLG es
L(y; θ, x) =n
i =1
exp {y i b (θ) + c (θi ) + d (y i )}
El estimador de máxima verosimilitud (EMV) se define como
β̂ = supβ
L(y; θ, x),
En gral., no existe una expresión cerrada para β̂ , y requiere deun algoritmo para calcularlo.
MLG’s
A
http://find/
-
8/20/2019 CursoMLG's
33/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Ajuste del modelo
La verosimilitud de un MLG es
L(y; θ, x) =n
i =1
exp {y i b (θ) + c (θi ) + d (y i )}
El estimador de máxima verosimilitud (EMV) se define como
β̂ = supβ
L(y; θ, x),
En gral., no existe una expresión cerrada para β̂ , y requiere deun algoritmo para calcularlo.
MLG’s
A í
http://find/
-
8/20/2019 CursoMLG's
34/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Algoritmo de mínimos
cuadrados ponderados
iterativosLos estimadores de máxima verosimilitud se obtienenresolviendo iterativamente la ecuación:
X WXb (m) = X Wz
o bien de forma equivalente:
b (m) = (X WX )−1X Wz
El algoritmo se puede resumir en los pasos siguietes:
1.- m = 12.- Calcular estimadores iniciales de los parámetros de interés
b (m)
3.- Calcular el predictor lineal η̂i = x i b (m)
MLG’s
http://find/
-
8/20/2019 CursoMLG's
35/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
4.- Calcular µi = g −1(η̂i )
5.- Calcular la variable dependiente ajustadaz i = η̂i + (y i − µ̂i )∂ηi ∂µi
6.- Calcular los pesos w −1ii =∂ηi ∂µi
2var (Y i ) y construir la
matriz W = diag (w 11,..., w nn)
7.- m = m + 18.- Obtener b (m) = (X WX )−1X Wz
9.- Repetir los pasos 3 a 8 hasta que las estimacionessucesivas de b no cambien significativamente.
Nota: El algoritmo de mínimos cuadrados ponderadositerativos es equivalente al algoritmo de Newton-Raphson.
MLG’s
P Có
http://find/
-
8/20/2019 CursoMLG's
36/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Paquetes de Cómputo
Existen muchos paquetes de cómputo que pueden obtener los
estimadores de máxima verosimilitud para los parámetros de losmodelos lineales generalizados,
• GNU-R/S-Plus: La función glm() del paquete base ajustaeste tipo de modelos, hay que proporcionar una
descripción simbólica del componente sistemático, ladistribución de las Y s y la función liga.
Distribución Ligas
Normal identity (D)Binomial logit (D), probit, cloglocGamma identity, inverse (D), log
• SAS: PROC Genmod.
• Genstat, Matlab
MLG’s
Implementación en R
http://find/
-
8/20/2019 CursoMLG's
37/57
Introducción
Breve revisióndel modelolineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Implementación en RLa función glm(), es usado para ajustar MLG’s en R.Usage:
glm(formula, family = gaussian, data, weights, subset
na.action, start = NULL, etastart, mustart, offse
control = list(...), model = TRUE, method = "glm.
x = FALSE, y = TRUE, contrasts = NULL, ...)"
Donde:
• formula: es un objeto de la clase “formula”• family: descripción de la distribución del error y la
función liga.
binomial(link = "logit")gaussian(link = "identity")
Gamma(link = "inverse")
inverse.gaussian(link = "1/mu^2")
poisson(link = "log")
quasi(link = "identity", variance = "constant")
quasibinomial(link = "logit")
quasipoisson(link = "log")
MLG’s
Contenido
http://find/
-
8/20/2019 CursoMLG's
38/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Contenido
6 Regresión Binaria y PoissonRegresión Logística
Regresión Poisson
MLG’s
Preliminares
http://find/
-
8/20/2019 CursoMLG's
39/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Preliminares
En algunos modelos de regresión la variable respuesta Y toma
solo dos valores, que en general puede ser codificada como 0 ó1.
Suponga que se tiene una sola covariable, digamos x , el modelode regresión lineal simple usual es:
Y = β 0 + β 1x + ε, ε ∼ N (0, σ2)
y se supone que Y ∼ N (β 0 + β 1x , σ2), por lo tanto
E (Y ) = β 0 + β 1x . Pero sabemos que Y ∼ Binomial , y si seajusta el modelo de rls, nada asegura que:
0 ≤ β̂ 0 + β̂ 1x ≤ 1
MLG’s
Continuación
http://find/http://goback/
-
8/20/2019 CursoMLG's
40/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Continuación...
Teóricamente 0 ≤ E (Y |x ) ≤ 1, lo que sugiere tomar unafunción de densidad acumulada para modelar a E (Y |x ),típicamente se selecciona la distribución logística para estaaproximación, ya que:
• Tiene gran flexibilidad matemática
• Es factible de interpretación física o biológica
Se propone tomar
p = P (Y = 1|x ) = π(x ) = exp {β 0 + β 1x }
1 + exp {β 0 + β 1x }
= 1
1 + exp {−β 0 −
Al tomar ln π(x )1−π(x ) = β 0 + β 1x llamada regresión logística que
recuerda a la rls.
MLG’s
Estimación
http://find/
-
8/20/2019 CursoMLG's
41/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Estimación
Los estimadores de β 0
, β 1
se obtienen al maximizar la funciónde verosimilitud:
L(y ; β 0, β 1|x ) =n
i =1
p i y i (1 − p i )
1−y i
El modelo logístico puede generalizarse fácilmente para incluirmás covariables,
p i = P (Y i = 1|X ) = 1
1 + exp {−x
i β}
,
donde β es un vector de parámetros y X es una matriz decovariables.
MLG’s
Pruebas de hipótesis
http://find/
-
8/20/2019 CursoMLG's
42/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Pruebas de hipótesis
Una vez que se ajusta el modelo se prueban hipótesis como las
siguientes: H 0 : β i = 0 vs H 1 : β i = 0
La estadística de prueba utilizada es:
W i =β̂ i
S (β̂ i ),
se rechaza H 0 al nivel de significancia α si |W i | > Z α/2.También es usual probar:
H 0 : El modelo es adecuado vs H 1 : El modelo no es adecuado
se prueba empleando razón de verosimilitudes o bien la deHosmer-Lemeshow.
MLG’s
Hosmer-Lemeshow
http://find/http://goback/
-
8/20/2019 CursoMLG's
43/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
Hosmer-Lemeshow
La prueba de bondad de ajuste de Hosmer-Lemeshow seobtiene calculando el estadístico de Ji-cuadrado de Pearsonpara una tabla de contingencia de 2xg donde g es el numero degrupos. El estadístico es:
χ2HL =g
i =1
(O i − ni p̂ i )2
ni p̂ i (1 − p̂ i )
Se rechaza H 0 para valores grandes de χ2HL. El p − value está
dado por P (χ2 > χ2HL) donde χ2 es una v.a. ji-cuadrada cong − 2 grados de libertad.
MLG’s
Interpretación
http://find/
-
8/20/2019 CursoMLG's
44/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
RegresiónBinaria yPoisson
Regresión Logística
Regresión Poisson
InterpretaciónAl cociente
π(x )1 − π(x )
= P (Y = 1|x )P (Y = 0|x )
,
se le denomina razón de momios, los cuales se utilizan muchasveces para explicar el concepto de probabilidad.
Por ejemplo, se dice que el equipo A es favorito sobre el equipoen una proporción 3:1, equivale a decir que los momios son 3:1.Es decir, la probabilidad de que el equipo A gane el B es 0.75,donde:
0.75 = 3
3 + 1 =
3
40.75
1 − 0.75
= 3/4
1 − 3/4
= 3/4
1/4
= 3
1
MLG’s
Continuación
http://find/
-
8/20/2019 CursoMLG's
45/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Continuación...Sea g (x ) = ln π(x )
1−π(x ) = β 0 + β 1x .
En regresión por mínimos cuadrados β̂ 1 representa un cambioen y como consecuencia de un cambio unitario en la variableexplicativa.
Sea x = x i , entonces ĝ (x i + 1) − ĝ (x i ) = ˆβ 1 representa unadiferencia de momios, es decir:
β̂ 1 = ln π̂(x i + 1)
1 − π̂(x i + 1) − ln
π̂(x i )
1 − π̂(x i )
= ln
π̂(x i + 1)
1 − π̂(x i + 1)/
π̂(x i )
1 − π̂(x i )
Por lo tanto expβ̂ 1 representa el efecto de la variableindependiente en la razón de momios.
MLG’s
Ejemplos
http://find/
-
8/20/2019 CursoMLG's
46/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Ejemplos
Ejemplo 1:Si Y denota la presencia o ausencia de cáncer de pulmón,x = 1 si una persona es fumadora, x = 0 en caso contrario,
entonces exp
β̂ 1
= 2 indica que la enfermedad es dos veces
más frecuente en fumadores que entre no fumadores.
Ejemplo 2:
Si Y denota la presencia o ausencia de una enfermedadcoronaria, x = 1 si una persona hace ejercicio, x = 0 en caso
contrario, entonces exp
β̂ 1
= 0.5 indica que el riesgo detener una enfermedad coronaria se reduce a la mitad enaquellos que realizan ejercicio.
MLG’s
Continuación...
http://find/
-
8/20/2019 CursoMLG's
47/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
Generalizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Continuación...Si en lugar de tomar incrementos unitarios, i.e. c = 1, se tomac > 0,
ln π̂(x i + c )
1 − π̂(x i + c ) − ln
π̂(x i )
1 − π̂(x i ) = c β̂ 1
Ejemplo 3:Supóngase que se realiza un estudio para medir el riesgo detener una enfermedad coronaria, como función de la edad y quese ha ajustado el modelo correspondiente obteniéndoseĝ (x ) = −5.310 + 0.111Edad , la razón estimada para un
incremento de 10 años es:
exp {10(0.111)} = 3.03,
lo cual significa que por cada incremento de 10 años en la edad
el riesgo de tener una enfermedad coronaria se triplifica.
MLG’s
Ejemplo general:
http://find/
-
8/20/2019 CursoMLG's
48/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLineal
GeneralizadoEstimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Se pretende investigar la relación existente entre la edad y lapresencia de enfermedades coronarias significativa se tienen
registros de 100 personas seleccionadas para participar en lainvestigación. Los datos se muestran en la Tabla 2.
Cuadro 2: Presencia de enfermedades coronarias
Edad Frecuencia Prop.Si No
60 8 2 0.8000
55 13 4 0.7647
50 5 3 0.6250
45 6 7 0.4615
40 5 10 0.3333
35 3 9 0.2500
30 2 13 0.1333
25 1 9 0.1000
Ajustar el modelo de regresión logística e interpretar los
resultado.
MLG’s
Continuación...
http://find/
-
8/20/2019 CursoMLG's
49/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
La Figura ?? muestra un diagrama de Proporción de personas
por grupo de edad, y se observa claramente que conforme laedad aumenta, la proporción de personas con enfermedadescoronarias aumenta.
MLG’s
Continuación...
http://find/http://goback/
-
8/20/2019 CursoMLG's
50/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Hosmer and Lemeshow Test
|----|----------|--|-----|
|Step|Chi-square|df|Sig. |
|----|----------|--|-----|
|1 |.218 |6 |1.000|
|----|----------|--|-----|
Variables in the Equation
|---------------|------|-----|------|--|----|------|
| |B |S.E. |Wald |df|Sig.|Exp(B)|
|------|--------|------|-----|------|--|----|------|
|Step 1|Edad |.112 |.024 |21.431|1 |.000|1.118 |
| |--------|------|-----|------|--|----|------|
| |Constant|-5.110|1.085|22.167|1 |.000|.006 ||------|--------|------|-----|------|--|----|------|
MLG’s
Más ejercicios
http://find/
-
8/20/2019 CursoMLG's
51/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Se dan los siguientes datos Y=presencia(0) o ausencia(1) deuna enfermedad 3 años después del tratamiento. La covariable
x mide el número de días. Se desea medir el impacto de X parapredecir el resultado en 3 años.
Cuadro 3: Presencia o ausencia de una enfermedad
Y x Y x 1 21 1 51
1 24 1 55
1 25 0 25
1 26 0 29
1 28 0 43
1 31 0 44
1 33 0 461 34 0 46
1 34 0 51
1 37 0 55
1 43 0 56
1 49 0 58
MLG’s
Preeliminares
http://find/
-
8/20/2019 CursoMLG's
52/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Si la respuesta Y i en un modelo de regresión es un conteo, elmodelo de regresión Poisson puede ser útil. La función dedensidad de una v.a. Poisson es:
f (y ; µ) = µy exp {−µ}
y ! , y = 0, 1, 2,...
En el modelo de regresión Poisson usualmente:
µi = x
i β = β 0 + β 1x i 1 + · · · + β k x ik ,
aunque también es posible usar µi = exp {x
i β}, µi = ln(x
i β).
MLG’s
Continuación...
http://find/
-
8/20/2019 CursoMLG's
53/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
La estimación de parámetros se realiza por el método demáxima verosimilitud, hay que maximizar:
L(β) =
ni =1
f (y i ; µi ) =
ni =1
µ
y i
i exp {−µi }y i !
La optimización de L(β) no es sencilla, se utilizan métodosnuméricos para resolver el problema.
MLG’s
Pruebas de hipótesis
http://find/
-
8/20/2019 CursoMLG's
54/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Una vez que se ajusta el modelo es usual probar hipótesis comolas siguientes:
H 0 : β i = 0 vs H 1 : β i = 0
La estadística de prueba utilizada es:
W i =β̂ i
S (β̂ i ),
se rechaza H 0 al nivel de significancia α si |W i | > Z α/2.
MLG’s
Ejemplo
http://find/
-
8/20/2019 CursoMLG's
55/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Los datos de la Tabla 4 corresponden al número trimestral demuertes por SIDA en Australia de 1983 (enero-marzo) a 1986
(abril-junio).
Cuadro 4: Muertes por trimestre
Trimestre 1 2 3 4 5 6 7 8 9 10 11 12 13 14Muertes 0 1 2 3 1 4 9 18 23 31 20 25 37 45
El interés científico es modelar la tendencia de mortalidad, µi ,
para lo cual se propone el siguiente modelo:
µi = expx i β
= exp {β 0 + β 1 ln Trimestre i } ,
en el contexto del GLM esta ln µi se denomina la liga Log ycorresponde a la liga canónica.
MLG’s
Continuación...
http://find/http://goback/
-
8/20/2019 CursoMLG's
56/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Parameter Estimates|-----------|------|----------|----------------------------------|-----------------------|
|Parameter |B |Std. Error|95% Wald Confidence Interval |Hypothesis Test |
| | | |----------------------------|-----|---------------|--|----|| | | |Lower |Upper|Wald Chi-Square|df|Sig.|
|-----------|------|----------|----------------------------|-----|---------------|--|----|
|(Intercept)|-1.944|.5116 |-2.947 |-.941|14.442 |1 |.000||-----------|------|----------|----------------------------|-----|---------------|--|----||lntrimestre|2.175 |.2151 |1.753 |2.596|102.271 |1 |.000|
|-----------|------|----------|----------------------------|-----|---------------|--|----|
|(Scale) |1a | | | | | | ||-----------|------|----------|----------------------------|-----|---------------|--|----|
Dependent Variable: muertes
Model: (Intercept), lntrimestrea. Fixed at the displayed value.
MLG’s
Artículos, libros, software
http://find/
-
8/20/2019 CursoMLG's
57/57
Introducción
Breve revisióndel modelo
lineal
La familiaExponencialsimple
Componentesdel ModeloLinealGeneralizado
Estimación enel MLG
Algoritmo de
mínimos cuadrados
ponderados
iterativos
Software
Regresión
Binaria yPoisson
Regresión Logística
Regresión Poisson
Dobson, A. (2002).An Introduction to Generalized Linear Models (seconded.).Chapman and Hall.
McCullagh, P. and J. A. Nelder (1989).Generalized Linear Models (second ed.).Chapman and Hall.
Nelder, J. A. and W. M. Weddernburn (1972).
Generalized linear models.Journal of the Royal Statistical Society A 135, 370–384.
http://find/