modelos lineales generalizados (glm) y sus … · modelos lineales generalizados (glm) y sus...

1
Modelos Lineales Generalizados (GLM) y sus extensiones. Aplicaci´ on en el campo m ´ edico y en las ciencias actuariales. Patricia Carracedo Programa de Doctorado en Estad´ ıstica y Optimizaci´ on 1. OBJETIVOS Aplicaci´ on de GLM y sus extensiones (Modelos lineales Generalizados Mixtos y Modelos Adit- ivos Generalizados) tanto en el ´ ambito m ´ edico como en el actuarial para predecir la probabilidad de que la mujer quede embarazada y la probabilidad de muerte respectivamente. Los modelos obtenidos se comprar´ an mediante las curvas ROC y seleccionar´ a el mejor modelo para cada ´ ambito. Adem´ as se propondr´ a un punto de corte en las puntuaciones que ofrece el mejor modelo para poder clasificar a los distintos individuos. Con todo ello se pretende proponer una nueva metodolog ´ ıa en cada campo, diferente a las propuestas hasta ahora para facilitar la decisi´ on del usuario final, a la vez que objetivarla. Todos los an´ alisis estad ´ ısticos, se implementar´ an con c´ odigo R utilizando muchas librer ´ ıas que ponen a nuestro alcance las m´ as novedosas her- ramientas estad ´ ısticas. Hemos seleccionado este software por la precisi´ on, exactitud en sus resultados y por ser un software libre, y por tanto, de f´ acil implantaci´ on al alcance de todos. 2. ETAPAS PRINCIPALES DEL DESARROLLO DE LA INVESTIGACI ´ ON 1. B ´ usqueda bibliogr´ afica y de las librer ´ ıas necesarias 2. Depuraci´ on y an´ alisis de las bases de datos 3. Desarrollo de varios modelos adecuados a la naturaleza y n ´ umero de nuestras variables para cada campo 4. Comparaci´ on de modelos utilizando las curvas ROC y c´ alculo de sus correspondientes AUC 5. A partir de las puntuaciones que ofrece el mejor modelo, se propone un punto de corte ´ optimo para clasificar a los individuos en cada campo, de tal manera que esta clasificaci´ on se acerque lo m´ aximo posible a los valores observados 3. RESULTADOS 3.1 Campo m´ edico: Predicci´ on de la probabilidad de embarazo utilizando t´ ecnicas de repro- ducci´onasistida A continuaci´ on se comparan los modelos mediante las curvas ROC en ambas muestras utilizando la librer ´ ıa ROCR. False positive rate True positive rate 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Model with embryo variables Model with embryo, maternal and clinical variables AUC = 0.6612 AUC = 0.6930 Figure 1: Comparaci´ on de curvas ROC en la muestra de construcci´ on False positive rate True positive rate 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Modelo with embryo variables Modelo with embryo, clinical and maternal variables AUC = 0.6167 AUC = 0.6348 Figure 2: Comparaci´ on de curvas ROC en la muestra de validaci´ on Comparaci´ on de las AUC de los dos modelos en ambas muestras utilizando la librer ´ ıa pROC. Muestra etodo D= (AUC1-AUC2 / σ ) p-value AUC roc modelo1 AUC roc modelo2 Construcci´ on Bootstrap -4.56 5.02E-06 66.61 73.28 Construcci´ on Bootstrap -3.45 0.0005506 50.50 65.29 Se puede observar tanto en las gr´ aficas como en la tabla anterior, que el modelo 2 (variables embrionarias, maternas y cl ´ ınicas) se selecciona como mejor modelo. Despu ´ es de seleccionar el mejor modelo, se calcul´ o el punto de corte ´ optimo (OOP) con el fin de distinguir entre las mujeres embarazadas y no embarazadas. Este umbral se calcula como aquel cuya distancia vertical a la diagonal fue mayor, es decir, aquel que maximice el ´ Indice de Youden (J). Este ´ ındice est´ a muy extendido en el campo de la medicina. False positive rate True positive rate 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Optimal Cut Point YI --> 0,1046 Figure 3: OOP del modelo modelo 2 (variables embrionarias, maternas y cl ´ ınicas) en la muestra de construcci´ on En conclusi´on, el modelo 2 se selecciona como mejor modelo por tener mayor AUC. Destacar, que las curvas ROC se cruzan las unas sobre las otras. Un resultado positivo en la predicci´ on de no embarazo podr´ ıa implicar asesorami- ento negativo en un programa de FIV. En este caso, el impacto de un resultado positivo falso es claramente m´ as dram´ atico. Una tasa de falsos positivos re- quiere una excelente especificidad, lo cual s´ olo puede obtenerse a expensas de una disminuci´ on de la sensibilidad. Por este motivo, volvemos a seleccionar de modelo 2 como mejor modelo. Adem´ as, hemos propuesto las curvas ROC como una herramienta gr´ afica para la comparaci´on de los diferentes modelos y las AUC y J como valores num´ ericos resumen de las mismas. Este modelo tambi´ en puede ser utilizado en aquellas bases de datos en la que, las variables igualdad y simetr´ ıa se agrupan en la variable grado. False positive rate True positive rate 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Optimal Cut Point YI --> 0,1410 Figure 4: OOP del modelo modelo 2 (variables embrionarias, maternas y cl ´ ınicas) en la muestra de construcci´ on 3.2 Campo actuarial: Predicci´on de la probabilidad de muerte en pa´ ıses de territorio europeo por sexo. La mortalidad ha disminuido en todos los pa ´ ıses de la Uni´ on Europea durante el siglo pasado, presentando patrones similares en el cambio de la misma. A pesar de estas tendencias similares, todav ´ ıa hay diferencias considerables en los niveles de mortalidad, as ´ ı como entre hombres y mujeres. El objetivo de este estudio es presentar un m´ etodo para la detecci´ on de grupos de pa ´ ıses en territorio de la Uni´ on Europea con una mortalidad similar diferenciando entre sexos. El m´ etodo se basa en el an´ alisis de datos funcionales teniendo en cuenta la ubicaci´ on geogr´ afica y, por consiguiente, las relaciones de vecindad entre ellos. Una vez obtenidos los clusters de pa ´ ıses crearemos un modelo com´ un para cada uno de ellos, en vez de crear un modelo para cada uno de los pa ´ ıses. Para ello, utilizaremos los GLM y sus extensiones, teniendo en cuenta el efecto aleatorio espacial y temporal. La gama de colores verde o valores inferiores a 1 de la Figura 5 representa los pa ´ ıses con un defecto de la mortalidad en comparaci´ on con sus pa ´ ıses vecinos. Por otro lado, la gama de color marr´ on o valores superiores a 1 representan los pa ´ ıses con un exceso de mortalidad. Por lo tanto, para las mujeres, Francia, Italia, Espa ˜ na, Suecia, Noruega y Suiza son los pa ´ ıses que representan una menor mortalidad. Por el contrario, Irlanda y Dinamarca son los pa ´ ıses con un mayor exceso de mortalidad. En cuanto a los hombres, nos encontramos con un patr´ on similar , con la excepci´ on de Holanda que muestra una disminuci´ on de la mortalidad en comparaci´ on con sus pa ´ ıses vecinos. Los pa ´ ıses que muestran un exceso de mortalidad son m´ as altas en Portugal e Irlanda. Female 0.8112 1.1927 Male 0.8502 1.1192 Figure 5: Efectos espaciales para ambos sexos Como conclusi´ on principal, podemos decir que hoy en d´ ıa, las diferencias hist´oricas en la mortalidad entre los hombres y las mujeres parecen estar de- sapareciendo, tendiendo a ser igual o incluso invertido en el sentido de que la mortalidad de las mujeres es m´ as alta que la de los hombres. Esto es espe- cialmente debido al aumento de la exposici´on de la primera a la intoxicaci´on por la nicotina, el aumento de la aparici´on de tumores y otras enfermedades directamente relacionadas con este factor. References *Deb´ on, A., Molina, I., Cabrera, S. and Pellicer, A. (2013) Mathematical methodology to obtain and compare different embryo scores. Mathematical and Computer Modelling, 57(5), 1380-1394. *Deb´ on, A. and Carlos Garcia-D ´ ıaz, J. (2012) Fault diagnosis and comparing risk for the steel coil manufacturing process using statistical models for binary data. Reliability Engineering and System Safety, 100, 102-114. *Ward, M. D., and Gleditsch, K. S. (2008) Spatial regression models Sage, (Vol. 155) *Team, R. C. (2005) R: A language and environment for statistical computing. R foundation for Statistical Computing. *Anselin, L. (2003) GeoDa TM 0.9 user´s guide Urbana, 51, 61801. Directora Ana Mar ´ ıa Deb´ on Aucejo. Titular de Universidad. Centro de Gesti´ on de la Calidad y del Cambio. Uni- versitat Polit` ecnica de Val` encia. E-46022. Valencia. Spain. Tel: +34 963877007 (Ext. 74961); Fax: +34963877499; E-mail: [email protected] Colaboradores Inma Molina Botella. Unitat de Reproducci´ o, Hospital Universitari i Polit` ecnic “La Fe”. Valencia. Spain. Francisco Montes Suay. Catedr´ atico en el Departament d’Estad´ ıstica i Investigaci´ o Operativa. Universitat de Val` encia. Spain. Adina Iftimi. Becaria FPI en el Departament d’Estad´ ıstica i Investigaci´ o Operativa. Universitat de Val` en- cia. Spain.

Upload: trinhbao

Post on 03-Oct-2018

242 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelos Lineales Generalizados (GLM) y sus … · Modelos Lineales Generalizados (GLM) y sus extensiones. Aplicacio n en el campo m edico y en las ciencias actuariales. Patricia Carracedo

Modelos Lineales Generalizados (GLM) y sus extensiones.Aplicacion en el campo medico y en las ciencias actuariales.

Patricia Carracedo

Programa de Doctorado enEstadıstica y Optimizacion

1. OBJETIVOSAplicacion de GLM y sus extensiones (Modelos lineales Generalizados Mixtos y Modelos Adit-ivos Generalizados) tanto en el ambito medico como en el actuarial para predecir la probabilidadde que la mujer quede embarazada y la probabilidad de muerte respectivamente. Los modelosobtenidos se compraran mediante las curvas ROC y seleccionara el mejor modelo para cadaambito. Ademas se propondra un punto de corte en las puntuaciones que ofrece el mejor modelopara poder clasificar a los distintos individuos. Con todo ello se pretende proponer una nuevametodologıa en cada campo, diferente a las propuestas hasta ahora para facilitar la decisiondel usuario final, a la vez que objetivarla. Todos los analisis estadısticos, se implementarancon codigo R utilizando muchas librerıas que ponen a nuestro alcance las mas novedosas her-ramientas estadısticas. Hemos seleccionado este software por la precision, exactitud en susresultados y por ser un software libre, y por tanto, de facil implantacion al alcance de todos.

2. ETAPAS PRINCIPALES DEL DESARROLLO DE LA INVESTIGACION

1. Busqueda bibliografica y de las librerıas necesarias

2. Depuracion y analisis de las bases de datos

3. Desarrollo de varios modelos adecuados a la naturaleza y numero de nuestras variables paracada campo

4. Comparacion de modelos utilizando las curvas ROC y calculo de sus correspondientes AUC

5. A partir de las puntuaciones que ofrece el mejor modelo, se propone un punto de corte optimopara clasificar a los individuos en cada campo, de tal manera que esta clasificacion se acerquelo maximo posible a los valores observados

3. RESULTADOS

3.1 Campo medico: Prediccion de la probabilidad de embarazo utilizando tecnicas de repro-duccion asistida

A continuacion se comparan los modelos mediante las curvas ROC en ambas muestras utilizandola librerıa ROCR.

False positive rate

True

pos

itive

rat

e

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Model with embryo variablesModel with embryo, maternal and clinical variablesAUC = 0.6612AUC = 0.6930

Figure 1: Comparacion de curvas ROC en la muestra de construccion

False positive rate

True

pos

itive

rat

e

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Modelo with embryo variablesModelo with embryo, clinical and maternal variablesAUC = 0.6167AUC = 0.6348

Figure 2: Comparacion de curvas ROC en la muestra de validacion

Comparacion de las AUC de los dos modelos en ambas muestras utilizando la librerıa pROC.

Muestra Metodo D= (AUC1-AUC2 / σ ) p-value AUC roc modelo1 AUC roc modelo2Construccion Bootstrap -4.56 5.02E-06 66.61 73.28Construccion Bootstrap -3.45 0.0005506 50.50 65.29

Se puede observar tanto en las graficas como en la tabla anterior, que el modelo 2 (variablesembrionarias, maternas y clınicas) se selecciona como mejor modelo.Despues de seleccionar el mejor modelo, se calculo el punto de corte optimo (OOP) con el finde distinguir entre las mujeres embarazadas y no embarazadas. Este umbral se calcula comoaquel cuya distancia vertical a la diagonal fue mayor, es decir, aquel que maximice el Indice deYouden (J). Este ındice esta muy extendido en el campo de la medicina.

False positive rate

True

pos

itive

rat

e

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Optimal Cut Point YI −−> 0,1046

Figure 3: OOP del modelo modelo 2 (variables embrionarias, maternas y clınicas) en la muestra de construccion

En conclusion, el modelo 2 se selecciona como mejor modelo por tener mayorAUC. Destacar, que las curvas ROC se cruzan las unas sobre las otras. Unresultado positivo en la prediccion de no embarazo podrıa implicar asesorami-ento negativo en un programa de FIV. En este caso, el impacto de un resultadopositivo falso es claramente mas dramatico. Una tasa de falsos positivos re-quiere una excelente especificidad, lo cual solo puede obtenerse a expensas deuna disminucion de la sensibilidad. Por este motivo, volvemos a seleccionarde modelo 2 como mejor modelo. Ademas, hemos propuesto las curvas ROCcomo una herramienta grafica para la comparacion de los diferentes modelosy las AUC y J como valores numericos resumen de las mismas. Este modelotambien puede ser utilizado en aquellas bases de datos en la que, las variablesigualdad y simetrıa se agrupan en la variable grado.

False positive rate

True

pos

itive

rat

e

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Optimal Cut Point YI −−> 0,1410

Figure 4: OOP del modelo modelo 2 (variables embrionarias, maternas y clınicas) en la muestra de construccion

3.2 Campo actuarial: Prediccion de la probabilidad de muerte en paıses de territorio europeopor sexo.

La mortalidad ha disminuido en todos los paıses de la Union Europea durante el siglo pasado,presentando patrones similares en el cambio de la misma. A pesar de estas tendencias similares,todavıa hay diferencias considerables en los niveles de mortalidad, ası como entre hombres ymujeres. El objetivo de este estudio es presentar un metodo para la deteccion de grupos depaıses en territorio de la Union Europea con una mortalidad similar diferenciando entre sexos.El metodo se basa en el analisis de datos funcionales teniendo en cuenta la ubicacion geograficay, por consiguiente, las relaciones de vecindad entre ellos.Una vez obtenidos los clusters de paıses crearemos un modelo comun para cada uno de ellos,en vez de crear un modelo para cada uno de los paıses. Para ello, utilizaremos los GLM y susextensiones, teniendo en cuenta el efecto aleatorio espacial y temporal.La gama de colores verde o valores inferiores a 1 de la Figura 5 representa los paıses con undefecto de la mortalidad en comparacion con sus paıses vecinos. Por otro lado, la gama decolor marron o valores superiores a 1 representan los paıses con un exceso de mortalidad. Porlo tanto, para las mujeres, Francia, Italia, Espana, Suecia, Noruega y Suiza son los paıses querepresentan una menor mortalidad. Por el contrario, Irlanda y Dinamarca son los paıses con unmayor exceso de mortalidad. En cuanto a los hombres, nos encontramos con un patron similar, con la excepcion de Holanda que muestra una disminucion de la mortalidad en comparacioncon sus paıses vecinos. Los paıses que muestran un exceso de mortalidad son mas altas enPortugal e Irlanda.

Female

0.8112 1.1927

Male

0.8502 1.1192

Figure 5: Efectos espaciales para ambos sexos

Como conclusion principal, podemos decir que hoy en dıa, las diferenciashistoricas en la mortalidad entre los hombres y las mujeres parecen estar de-sapareciendo, tendiendo a ser igual o incluso invertido en el sentido de quela mortalidad de las mujeres es mas alta que la de los hombres. Esto es espe-cialmente debido al aumento de la exposicion de la primera a la intoxicacionpor la nicotina, el aumento de la aparicion de tumores y otras enfermedadesdirectamente relacionadas con este factor.

References*Debon, A., Molina, I., Cabrera, S. and Pellicer, A. (2013) Mathematical methodology to obtain and comparedifferent embryo scores. Mathematical and Computer Modelling, 57(5), 1380-1394.*Debon, A. and Carlos Garcia-Dıaz, J. (2012) Fault diagnosis and comparing risk for the steel coil manufacturingprocess using statistical models for binary data. Reliability Engineering and System Safety, 100, 102-114.*Ward, M. D., and Gleditsch, K. S. (2008) Spatial regression models Sage, (Vol. 155)*Team, R. C. (2005) R: A language and environment for statistical computing. R foundation for StatisticalComputing.*Anselin, L. (2003) GeoDaTM 0.9 user´s guide Urbana, 51, 61801.

DirectoraAna Marıa Debon Aucejo. Titular de Universidad. Centro de Gestion de la Calidad y del Cambio. Uni-versitat Politecnica de Valencia. E-46022. Valencia. Spain. Tel: +34 963877007 (Ext. 74961); Fax:+34963877499; E-mail: [email protected]

ColaboradoresInma Molina Botella. Unitat de Reproduccio, Hospital Universitari i Politecnic “La Fe”. Valencia.Spain.Francisco Montes Suay. Catedratico en el Departament d’Estadıstica i Investigacio Operativa. Universitatde Valencia. Spain.Adina Iftimi. Becaria FPI en el Departament d’Estadıstica i Investigacio Operativa. Universitat de Valen-cia. Spain.