influencia local en regresión logística

9
© Del documento, de los autores. Digitalización realizada por ULPGC. Biblioteca Universitaria, 2017 Rev. Acad. Canar. Cienc., XII (Núms. 1-2), 23-31 (2000) - (Publicado en julio de 2001) INFLUENCIA LOCAL EN REGRESIÓN LOGÍSTICA Miguel A. González Sierra [email protected] M. Mercedes Suárez Rancel [email protected] Departamento de Estadística, Investigación Operativa y Computación Facultad de Matemáticas. Universidad de La Laguna Tenerife (38271) España Abstract The method of local influence was introduced by Cook [4] and a simplification variation proposal by Billor & Loynes [1). In this paper we develop the concept oflocal influence, following Billor & Loynes, to the logistic regression model. Keywords: Logistic Regression, Local Influence. CLASSIFICATION AMS: 62J20. Resumen El concepto de influencia local fue introducido por Cook [4] y una variante simplificadora propuesta por Billor & Loynes [1). este trabajo se desarrolla el concepto de influencia local, según Billor & Loynes, al modelo de regresión logística. Palabras clave: Influencia local, Regresión logística CLASSIFICATION AMS: 62J20. 23

Upload: others

Post on 16-Oct-2021

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

Rev. Acad. Canar. Cienc., XII (Núms. 1-2), 23-31 (2000) - (Publicado en julio de 2001)

INFLUENCIA LOCAL EN REGRESIÓN LOGÍSTICA

Miguel A. González Sierra [email protected]

M. Mercedes Suárez Rancel [email protected]

Departamento de Estadística, Investigación Operativa y Computación Facultad de Matemáticas. Universidad de La Laguna

Tenerife (38271) España

Abstract

The method of local influence was introduced by Cook [4] and a simplification variation

proposal by Billor & Loynes [1). In this paper we develop the concept oflocal influence, following

Billor & Loynes, to the logistic regression model.

Keywords: Logistic Regression, Local Influence.

CLASSIFICATION AMS: 62J20.

Resumen

El concepto de influencia local fue introducido por Cook [4] y una variante simplificadora

propuesta por Billor & Loynes [1). ~n este trabajo se desarrolla el concepto de influencia local,

según Billor & Loynes, al modelo de regresión logística.

Palabras clave: Influencia local, Regresión logística

CLASSIFICATION AMS: 62J20.

23

Page 2: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

l. INTRODUCCIÓN

Cook [4] propuso un método general para evaluar la influencia local sobre las hipótesis de

partida basadas en modelos de log-verosimilitudes (no necesariamente modelos de regresión). El

punto de partida es que una perturbación pequeña en el modelo puede producir un mayor cambio en

partes esenciales de los resultados del análisis, entonces habrá evidencia de una dificultad. Esto

sugiere medir la sensibilidad de cambio en el modelo por algún tipo de derivada. Cook sugirió usar

la curvatura normal del desplazamiento en la superficie de verosimilitudes. Billor y Loynes [1)

puntualizaron algunas dificultades de calculo para la máxima curvatura en aplicaciones practicas y

propusieron una nueva medida de influencia local más simple de calcular.

Atendiendo a dicha simplicidad, se traslada el concepto de influencia local en el sentido de

Billor y Loynes al modelo de regresión logística. En la sección 2 damos una idea general de la

influencia local. Sección 3 describe el ajuste del modelo logístico. En la sección 4 adaptamos la

influencia local según hemos mencionado, al caso de regresión logística. En la sección 5 aportamos

varios ejemplos.

2. INFLUENCIA LOCAL

Consideremos el modelo estándar de regresión lineal

(1)

donde e es un vector n x 1 cuyos elementos son asumidos como variables aleatorias independientes

de media cero y varianza conocida ri, X es una matriz conocida de n x k con rango de columna

máximo, 13 es un k x 1 vector de parámetros e Y es un n x 1 vector de la variable respuesta.

24

Page 3: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

Muchas medidas han sido sugeridas para evaluar la influencia de observaciones en el

modelo de regresión. Chaterjee y Hadi [2] dieron una excelente revisión del tema. Cook [4]

considero una versión general de la distancia de Cook [3]

llir-Í',,,11· D, = kq'

donde Y, Ycl) son los n x 1 vectores de valores ajustados basados en el conjunto de todas las

observaciones y los datos sin la observación i-esima, respectivamente. Este autor propuso

generalizar a

llir-Í',.,11· D,(w)= kd

donde Y,., representa el vector de valores ajustados cuando la i-ésima observación se pondera con

un peso w (O < w ~ 1) y el resto de observaciones con un peso 1.

Esta idea se puede extender a modelos más generales. La extensión esta parcialmente

motivada por la siguiente relación entre D¡(w) y la log-verosimilitud L(p) del modelo (1)

kD,(w) ~ [llr-Y.~ }- ~'] ~ 2[ L(/J)-L().)] ,

" " . donde /J= /3_1 y /J. son los estimadores de máxima verosimilitud de P cuando la i-ésima

observación tiene un peso igual a w. La forma de esta relación es una consecuencia de la estructura

estadística asumida para los errores del modelo (1).

La log-verosimilitud para los modelos no perturbados y perturbados son denotados por L(0)

y L(01w), respectivamente. Entonces el desplazamiento LD(w) es definido por

LD(w) = 2[ L(O)-L(O.,) J ,

25

Page 4: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

donde fJ y (Jw son Jos estimadores de máxima verosimilitud bajo los modelos no perturbados y

perturbados, respectivamente.

El gráfico de LD(w) frente a w (gráfico de influencia) contendrá la información esencial de

Ja influencia del esquema de perturbación seleccionado. Este grafico puede ser considerado como

una superficie geométrica formada por el vector a(w)=(w' ,LD(w)) cuando wen. Cook [4] propuso

un método basado en Ja dirección donde Ja curvatura Cd es máxima ( dmAx) e indico el grafico de

LD(w0+admAx) frente a 'a' para determinar las observaciones localmente influyentes.

Billor & Loynes [1] muestran algunas dificultades teóricas sobre el enfoque de Cook [4],

además de no tener una expresión analítica general para dicha curvatura máxima. Para evitar estas

dificultades sugieren un desplazamiento de verosimilitud alternativo

LD• (w) = -2[ L(O)-L(Bw J w) J (2)

" donde L(&w J w) es Ja Jog-verosimilitud del modelo perturbado. Además sugieren que Ja primera

derivada de LD• aporta información valiosa acerca del comportamiento local de LD•, así ellos usan

Ja dirección que produce el máximo incremento de LD •, con Ja pendiente

Si tomamos el modelo perturbado:

Y=XJ3+e (la)

con var(e)=cr2W 1 siendo W = diag(l,l,. . .,l+w¡ ,1,. . .,1) entonces se tiene:

l = l . = (1- ej J i max.i 2 (j

(3)

26

Page 5: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

3. MODELO DE REGRESIÓN LOGÍSTICO

Si consideramos una muestra den variables respuesta binomial y1 - B(n1,p1), la función de

log-verosimilitud de la muestra es

(4)

llamando fJ1 = 1ogit(p1) = log(p1 /(1- p1 ))

Dado el correspondiente conjunto de k variables explicativas (X.,X2 ,. .. ,Xk) el modelo de

regresión logística utiliza la relación

fJ = log it(p) = X/J

como la descripción lineal de la componente sistemática de la variable respuesta Y.

En términos del vector /J tenemos la siguiente expresión para la función de log-

verosimilitud (4):

L(/J,Y)= f.L(/J,y¡)= f.[y1x;/J+n11oj_l _·x J+lojn,)] (4a) l•I i•I 6\.l+eA 1 6\_y,

El estimador de máxima verosimilitud de fJ es una solución de :~ = O que nos lleva a

f.(y1 -n1 ;,)xy =O j = 1,2, ... ,k ;-1

o matricialmente a X's = x' (Y -h siendo s =Y - n ~

Estas ecuaciones, similares a las del modelo (1), son no lineales en /J y deben resolverse

iterativamente. Típicamente, usando el algoritmo de Newton-Rapshon se llega al procedimiento

iterativo siguiente

t=O,l, ...

27

Page 6: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

donde V y 's' son evaluados en fJ' , además [- ~~e:] = X' V-\" siendo V = diag{ n, p1 (1- p:)}

Este procedimiento puede expresarse en la siguiente forma más útil

/J'+I = (X1vxr1 X'Vz'

utilizando el seudovector de observaciones z' = X/J' + v-1s

En la convergencia se tiene z =X P+ v-1s (5) y por tanto p = (X1vxr1 X'Vz. Este método

se le conoce también como método iterativo de mínimos cuadrados reponderados.

Una vez ajustado el modelo disponemos, usualmente, de dos estadísticos de bondad de

ajuste, de los modelos log lineales, el estadístico z2 y la deviance D, que nos pennite evaluar dicho

ajuste globalmente y de los residuales a través de los componentes individuales de dichos

estadísticos:

ó residual de Pearson estandarizado r; = ,.,2-;:­...¡ l - h11

Para las observaciones influyentes, en analogía al modelo lineal, dadas las ecuaciones

resultantes, la matriz de proyección es

M = l - H = I - V112 X(X'VXr1 X'V112 = (m11 )

así observaciones con pequeño valor de m¡¡ o grandes de h¡¡, serán útiles para detectar puntos

extremos en el espacio del diseño.

Sabemos que la forma usual de detectar puntos influyentes es observar el efecto de eliminar

dicha observación en los resultados de la regresión. En nuestro caso particular, para los coeficientes

de regresión, tenemos

28

Page 7: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

" " " " " 2h ' oih l::i./J - (/J- n )'(X'VX)(/J- n ) - r, " - !j__g_ ' - fJ(t) tJ¡1¡ - (l-h¡¡)2 -1-hu

" utilizando en ftc,> el estimador de una etapa.

Si llevamos este esquema de eliminación a los residuales, tendremos respectivamente

la observación de estas cantidades junto con h¡¡ determinara la naturaleza del punto anómalo, en

caso de su existencia.

4. PERTURBACIONES EN EL MOD~Ló DE REGRESIÓN LOGÍSTICA

Dada la naturaleza no lineal del modelo de regresión logística proponemos el siguiente

esquema ,de desplazamientos en el logit de p¡ para la observadón x¡.

logit(p1) = (1 + w, )/! x, (6)

Se tiene la siguiente función de log-verosimilitud del modelo perturbado

de donde, la pendiente de la dirección de máximo incremento de LD• es

(3a)

Si fuesen perturbadas todas las observaciones según (6) se tendría

29

Page 8: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

5.EJEMPLOS

5.1 Datos de Finney

Como primera aplicación, consideremos los datos de Finney, utilizados por Pregibon [6] .

Los datos reflejan los valores del volumen y tasa de aire inspirado sobre la vasoconstricción

transitoria en la piel de los dedos, registrados en varios sujetos. Dada la característica de la variable

respuesta solo se pudo registrar la ocurrencia o no de la vasoconstricción de una manera fiable. Se

ajusto el siguiente modelo a los datos

logit(p) =Po+ P1 log(Tasa) + P2 log(Volumen)

Los datos contienen dos observaciones, la 4 y 18, que no se ajustan bien al modelo

propuesto.y producen los mayores residuales. Como se puede observar en la tabla I, estas

observaciones también producen mayores valores sobre la medida l; de (3a).

T bl ID a a . a tos d . . , d F' e vasoconstncc1on e inney: M d'd d 'nfl e i as e1 uenc1a Casos r¡ d¡ hij . A ó.z, 2 w , Curva t. ¡1,¡ 'í ó./l¡ Cook

4 3.518 2.278 .087 3.681 1.287 13.552 6.363 1.074 2.328 18 2.906 2.119 .095 3.056 .984 9.336 5.382 .806 1.908

5.2 Datos ficticios de Pregibon

Este autor propone un conjunto de datos ficticios entre dos variables, que ajusta a un modelo

logístico, donde se refleja notoramiente que la última observación es influyente. Al igual que en el

ejemplo anterior en la tabla II aportamos los valores de los estadísticos, donde también se pone de

manifiesto la detección por parte de la medida que se propone.

30

Page 9: Influencia local en regresión logística

© D

el d

ocum

ento

, de

los a

utor

es. D

igita

lizac

ión

real

izad

a po

r ULP

GC

. Bib

liote

ca U

nive

rsita

ria, 2

017

Tabla 11. Datos ficticios de Pregibon

X y r¡ d¡ h¡¡ l¡ C¡

1 1 -.781 -.976 .255 .187 .155

2 1 -.832 -1.026 .203 .151 .140

3 1 -.886 -1.077 .160 .106 .125

4 1 -.944 -1.129 .127 .055 .113

5 o .995 1.173 .106 .005 .105

6 o .934 1.120 .097 .064 .085

7 o .877 1.068 .101 .114 .077

8 o .823 1.017 .116 .157 .079

9 o .773 .968 .142 .193 .085

10 o .725 .919 .178 .221 .094

17 1 -2.145 -1.856 .516 -1.254 2.373

BIBLIOGRAFIA

[1] Billor, N., Loynes, R.M. (1993). "Local Influence: A New Approach".Comm. Statist.-Theory

Meth.,22, 1595-1611.

[2] Chatterjee, S. and A. S. Hadi (1986). "influential observations, high leverage points, and outliers

in linear regression". Statistical Science, 1 (3), 379-416

[3] Cook, R. D. (1977). "Detection of Influential Observations in Linear Regression'',

Technometrics, 19, 15-18.

[4] Cook, R.D. (1986). "Assessment of Local Influence (with discussion)". Journal of de Royal

Statistical Society, Ser. B., 48, 133-169.

[5] Pregibon, D. (1981). "Logistic Regression Diagnostics". Annals of Statistics, 9, 705-724.

31