modelización mediante regresión logística para estimación

171

Upload: others

Post on 20-Oct-2021

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelización mediante regresión logística para estimación

TRABAJO FIN DE MÁSTER

Máster Universitario en Estadística Aplicada

Modelización mediante regresión

logística para estimación de

proporciones en encuestas complejas

AutorJuan María Gámez Ortiz

DirectoraMaría del Mar Rueda García

Facultad de Ciencias

Granada, Junio de 2016

Page 2: Modelización mediante regresión logística para estimación
Page 3: Modelización mediante regresión logística para estimación

3

Page 4: Modelización mediante regresión logística para estimación
Page 5: Modelización mediante regresión logística para estimación

Modelización medianteregresión logística para

estimación de proporciones enencuestas complejas

AutorJuan María Gámez Ortiz

DirectoraMaría del Mar Rueda García

Page 6: Modelización mediante regresión logística para estimación
Page 7: Modelización mediante regresión logística para estimación

Yo, Juan María Gámez Ortiz, alumno de la titulación Máster Uni-versitario en Estadística Aplicada de la Facultad de Ciencias, con DNI14276408D, autorizo la ubicación de la siguiente copia de mi Trabajo Finde Máster en la biblioteca del centro para que pueda ser consultada por laspersonas que lo deseen.

Fdo: Juan María Gámez Ortiz

Granada a 24 de Junio de 2016.

Page 8: Modelización mediante regresión logística para estimación
Page 9: Modelización mediante regresión logística para estimación

D. María del Mar Rueda García, Profesora del Departamento deEstadística e Investigación Operativade la Universidad de Granada.

Informa:

Que el presente trabajo, titulado Modelización mediante regresión

logística para estimación de proporciones en encuestas complejas,ha sido realizado bajo su supervisión por Juan María Gámez Ortiz, yautorizo la defensa de dicho trabajo ante el tribunal que corresponda.

Y para que conste, expide y �rma el presente informe en Granada a 24de Junio de 2016.

La directora:

María del Mar Rueda García

Page 10: Modelización mediante regresión logística para estimación
Page 11: Modelización mediante regresión logística para estimación

Agradecimientos

Antes de comenzar, deseo expresar mi agradecimiento a la directora deeste Trabajo de Fin de Máster, Doña María del Mar Rueda García, por sudedicación y apoyo, por el respeto a mis sugerencias e ideas y por la direccióny el rigor que ha facilitado a las mismas. Gracias por la con�anza ofrecidadesde que escogí realizar Modelización mediante regresión logística para es-timación de proporciones en encuestas complejas bajo su tutela.

Al término de este año de trabajo, quiero expresar un profundo agra-decimiento a quienes con su ayuda, apoyo y comprensión me alentaron alograr esta hermosa realidad, muy especialmente a mi familia. Gracias a mispadres, María Dolores y Torcuato, por el cariño y apoyo incondicional quesiembre he recibido de vosotros y con el cuál he logrado culminar mi esfuerzo,terminando así este Máster Universitario en Estadística Aplicada.

Page 12: Modelización mediante regresión logística para estimación
Page 13: Modelización mediante regresión logística para estimación

Logistic regression modeling to estimate proportions incomplex surveys.

Juan María Gámez Ortiz

Keywords: logistic, regression, models, Horvitz, Thompson, LGREG, GREG.

Abstract

This paper consists on eight chapters where we will study theoreticaland practical modeling using logistic regression to estimate proportions incomplex surveys.

In the �rst chapter we set a brief introduction to discrete response mo-dels and perform necessary constructions regression models. Through thischapter we present logistic regression models and pro�ts, as well as its ad-vantages over the well known linear regression models.

In the second chapter we will address the need for the use of auxiliaryinformation variables when logistic regression models are built. This aimsto be a chapter that establishes clear links between the projected needs bylogistic regression models in practice and its development through the use ofauxiliary information.

In the third chapter, the last purely theoretical chapter, we present thedevelopment of the primary objective of this work. Our intention so far hadbeen based on the use of auxiliary information provided by various variablesto generate models that have high speci�c capacity prediction.

In what follows, we will focus on the e�ciency of the estimators of atotal population based on logistic regression. The main objective pursuedwith these procedures is to study the behavior of a given population, aboutwhich all individuals would be impossible to know the information we aresearching for, from the study of a representative sample of that population.In this case it is not important speci�c predictive capability in the sense thatit does not a�ect us greatly prediction data, but we should focus on checkingthe parameter estimate based on the sample provides accurate estimates.

Along the following chapters, we set examples and procedures for actionagainst various data sets and with di�erent objectives, we give a clearer pic-ture of the forgoing idea as well.

Page 14: Modelización mediante regresión logística para estimación

10

The fourth chapter consists on two parts, along which we will discussthe practical development. With them we will illustrate the processes we aretreating. First we present a practical approach to development that focuseson the analysis of the general elections of December 20th, 2015 in Spain.The data that we use are available on the website of the National Insti-tute of Statistics (INE) and the Sociological Research Centre (CIS).

Secondly, for this fourth chapter we will establish a series of objectivesused to propose as a good exercise to apply the theoretical aspects seen be-fore and thus to illustrate the need to use of logistic regression models forsuch predictions.

The �fth chapter focuses on the analysis of data through a statisticalprogram called R-project, where elaborate functions that are helpful to usto study samples that we have and, later, we will explain in detail its ope-rations. We also will include a previous section that describe programmingneeds we have and how we will deal with them, so that the reader is fullylocated in the analysis subsequently performed.

Along the sixth chapter, taking one of the barometers collected throug-hout 2015, we will have a brief example that will help us to explain moreeasily the theoretical aspects addressed. We will focus on the generation ofsimple logistic regression models whose speci�c predictive needs to be high,and various models of multinomial logistic regression to show us how it a�ectsthe use of auxiliary variables to the overall prediction of a sample informa-tion.

However, the aim of the sixth chapter is not to develop the models aboutwhich we have spoken before, but to provide an idea of the in�uence theyhave on them auxiliary information variables. This information will help usto choose these variables correctly, among all barometers and all questionsthat we can use to optimize the population prediction we are seeking.

In this chapter we study the cross-population auxiliary information va-riables available. These will serve to extend the sampling results to the totalpopulation through the estimators seen in the third chapter and thanks toa regression model that �ts well the study sample. Once we have the to-tal population according to di�erent models, we present a brief analysis ofthe goodness-of-�t and the main di�erences among them. Along the seventhchapter we will conduct an analysis of the evolution of the voting intentionsof Spanish throughout 2015, since the �rst barometer registered in January,until the day of the General Election, December 20th. When developing thischapter we will omit Control procedures detailed in the previous chapterused in one single example. We will focus on the analysis of results and their

Page 15: Modelización mediante regresión logística para estimación

11

interpretation.

Finally, in the eighth chapter we will make an overview of the study andthe needs that drive us to do it. We will provide many examples in whichsuch procedures are performed and we will also provide the motivations res-ponsible for analyzes.

Page 16: Modelización mediante regresión logística para estimación
Page 17: Modelización mediante regresión logística para estimación

Modelización mediante regresión logística para estimaciónde proporciones en encuestas complejas

Juan María Gámez Ortiz

Palabras clave: regresión, logística, modelos, Horvitz, Thompson, LGREG,GREG.

Resumen

El presente trabajo consta de ocho capítulos a lo largo de los cualesabordaremos de forma teórica y práctica la modelización mediante regresiónlogística para estimación de proporciones en encuestas complejas.

Como primer capítulo establecemos una breve introducción a los mode-los de respuesta discreta, para los que realizamos las construcciones de losmodelos de regresión necesarios. A través de este capítulo presentamos losmodelos de regresión logística y sus utilidades, así como sus ventajas frentea los bien conocidos modelos de regresión lineal.

En el segundo capítulo abordaremos la necesidad del uso de variables deinformación auxiliar a la hora de construir modelos de regresión logística.Éste pretende ser un capítulo que establezca conexiones claras entre las ne-cesidades previstas por los modelos de regresión logística en la práctica y suelaboración por medio del uso de información auxiliar.

En cuanto al tercer capítulo, último capítulo puramente teórico, presen-tamos el desarrollo del objetivo primordial de este trabajo. Nuestra intenciónhasta ahora se basaba en el uso de información auxiliar aportada por diver-sas variables para generar modelos que tengan una capacidad de predicciónespecí�ca alta.

En lo que sigue, nos centraremos en la e�ciencia de los estimadores de untotal poblacional basados en regresión logística. El principal objetivo que sepersigue con este tipo de procedimientos consiste en estudiar el comporta-miento de una determinada población, de cuya totalidad de individuos seríaimposible conocer la información acerca de diversos aspectos, a partir delestudio de una muestra signi�cativa de dicha población. En este caso no pri-ma la capacidad predictiva especí�ca, en el sentido en que no nos afecta engran medida la predicción dato a dato, sino que debemos centrarnos en com-probar que la estimación del parámetro en base a la muestra, proporcionaestimaciones precisas.

Page 18: Modelización mediante regresión logística para estimación

14

A lo largo de los siguientes capítulos, en los que establecemos ejemplos yprocedimientos de actuación frente a diversos conjuntos de datos y con dis-tintos objetivos, daremos una idea más clara de lo expresado anteriormente.

El cuarto capítulo consta de dos partes principales, a lo largo de las cuálesexpondremos el desarrollo práctico con el que vamos a ejempli�car los pro-cesos de los que hablamos. En primer lugar, presentamos un planteamientopara dicho desarrollo práctico que se centra en el análisis de las EleccionesGenerales del 20 de diciembre de 2015 en nuestro país. Los datos que va-mos a usar están disponibles en la página web del Instituto Nacional deEstadística (INE) y en la página web del Centro de InvestigacionesSociológicas (CIS).

En segundo lugar, para este cuarto capítulo estableceremos una serie deobjetivos cuyo cumplimiento proponemos como un buen ejercicio para aplicarlos aspectos teóricos vistos anteriormente y ejempli�car así la necesidad dehacer uso de los modelos de regresión logística para este tipo de predicciones.

El quinto capítulo se centra en el análisis de los datos a través de unprograma estadístico llamado R-project, donde elaboraremos funciones quenos sean de ayuda para el estudio de las muestras de las que disponemosy, más adelante, explicaremos de forma detallada su funcionamiento. Inclui-remos además un apartado previo en el que describimos las necesidades deprogramación que tenemos y cómo vamos a afrontarlas, de modo que el lec-tor quede plenamente situado en el análisis que se realizará posteriormente.

A lo largo del sexto capítulo, tomando uno de los barómetros recogidos alo largo del año 2015, realizaremos un breve ejemplo que nos sirva para ex-plicar con mayor facilidad los aspectos teóricos abordados. Nos centraremosen la generación de modelos de regresión logística simple, cuya necesidadpredictiva especí�ca debe ser alta, y en diversos modelos de regresión logís-tica multinomial que nos muestren cómo afecta el uso de las variables deinformación auxiliar a la predicción global de una muestra.

No obstante, el objetivo del sexto capítulo no consiste en desarrollar losmodelos sobre los que hemos hablado, sino en proporcionar una idea de lain�uencia que tienen sobre ellos las variables de información auxiliar. Estainformación nos servirá para seleccionar dichas variables correctamente, deentre todos los barómetros y todas las preguntas que podemos utilizar, paraoptimizar la predicción poblacional que buscamos.

En este mismo capítulo estudiamos las conexiones cruzadas de variablesde información auxiliar poblacional de las que disponemos. Éstas nos servi-rán para extender el resultado muestral al total poblacional a través de los

Page 19: Modelización mediante regresión logística para estimación

15

estimadores vistos en el tercer capítulo y gracias a un modelo de regresiónque ajuste bien la muestra en estudio. Una vez que tengamos el total pobla-cional en función de distintos modelos, presentaremos un breve análisis desu bondad de ajuste y las principales diferencias entre ellos.

A lo largo del séptimo capítulo vamos a realizar un análisis de la evolu-ción de la intención de voto de los españoles a lo largo del año 2015, desde elprimer barómetro registrado, en enero, hasta el día de las Elecciones Genera-les, el 20 de diciembre. A la hora de desarrollar este capítulo omitiremos losprocedimientos de control pormenorizados en el capítulo anterior empleadosen un sólo ejemplo. Nos centraremos en el análisis de resultados y su inter-pretación.

Por último, como octavo capítulo realizaremos un repaso general del estu-dio llevado a cabo y las necesidades que nos mueven a ejecutarlo. Proporcio-naremos diversos ejemplos en los que se realizan este tipo de procedimientosy las motivaciones que promueven dichos análisis.

Page 20: Modelización mediante regresión logística para estimación
Page 21: Modelización mediante regresión logística para estimación

Índice general

1. Modelos de respuesta discreta 11.1. Modelos de respuesta binaria. . . . . . . . . . . . . . . . . . . 1

1.1.1. Principales problemas de los modelos de probabilidadlineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.2. Modelo de regresión logística simple. . . . . . . . . . . 41.1.3. Modelo de regresión logística múltiple. . . . . . . . . . 5

1.2. Ajuste de modelos logit. . . . . . . . . . . . . . . . . . . . . . 61.2.1. Estimación por máxima verosimilitud. . . . . . . . . . 7

2. Variables de Información auxiliar. 112.1. Tipos de variables de información auxiliar. . . . . . . . . . . . 12

3. Estimadores generalizados. 153.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2. Estimador de Horvitz-Thompson. . . . . . . . . . . . . . . . . 16

3.2.1. De�nición. . . . . . . . . . . . . . . . . . . . . . . . . . 173.2.2. Construcción. . . . . . . . . . . . . . . . . . . . . . . . 173.2.3. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . 18

3.3. Estimador de regresión generalizada. GREG. . . . . . . . . . 193.3.1. Construcción. . . . . . . . . . . . . . . . . . . . . . . . 20

3.4. Estimador logístico de regresión generalizada. LGREG. . . . . 203.4.1. Construcción. . . . . . . . . . . . . . . . . . . . . . . . 21

4. Elecciones Generales 234.1. Presentación de datos a tratar. . . . . . . . . . . . . . . . . . 234.2. Análisis de variables auxiliares. . . . . . . . . . . . . . . . . . 244.3. Declaración de objetivos. . . . . . . . . . . . . . . . . . . . . . 26

5. Programación con R-project. 295.1. Uso de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . 305.2. Declaración de necesidades. . . . . . . . . . . . . . . . . . . . 305.3. Programación. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.3.1. Regresión logística simple. . . . . . . . . . . . . . . . . 335.3.2. Regresión logística múltiple. . . . . . . . . . . . . . . . 39

i

Page 22: Modelización mediante regresión logística para estimación

ii ÍNDICE GENERAL

6. Desarrollo de procedimientos prácticos. 496.1. Enero de 2015. Estudio 3050. . . . . . . . . . . . . . . . . . . 49

6.1.1. Modelo de regresión logística simple. . . . . . . . . . . 506.1.2. Modelo de regresión logística múltiple. . . . . . . . . . 63

6.2. Generalización. . . . . . . . . . . . . . . . . . . . . . . . . . . 766.2.1. Elección de variables. . . . . . . . . . . . . . . . . . . . 766.2.2. Modelo de regresión logística múltiple. . . . . . . . . . 816.2.3. Estimadores poblacionales del total. . . . . . . . . . . 88

7. Análisis de la intención de voto a lo largo de 2015 937.1. Modelos de regresión logística multinomial. . . . . . . . . . . 937.2. Estimador del total poblacional. . . . . . . . . . . . . . . . . . 987.3. Análisis de evolución. . . . . . . . . . . . . . . . . . . . . . . . 1017.4. Escrutinio 20 de diciembre de 2015. . . . . . . . . . . . . . . . 105

8. Conclusiones 1098.1. Objetivos alcanzados. . . . . . . . . . . . . . . . . . . . . . . 1098.2. Uso de modelos de regresión logística. . . . . . . . . . . . . . 1108.3. Uso de variables de información auxiliar. . . . . . . . . . . . . 1128.4. Aplicación práctica. Elecciones Generales de 2015. . . . . . . 112

8.4.1. Resultados. . . . . . . . . . . . . . . . . . . . . . . . . 113

Bibliografía 117

ANEXOS 117Cuestionario del barómetro de Enero de 2015. Estudio 3050. . . . . 119Cuestionario del barómetro de Julio de 2015. Estudio 3104. . . . . 129Cuestionario del barómetro de Octubre de 2015. Estudio 3114. . . 137

Page 23: Modelización mediante regresión logística para estimación

Índice de �guras

6.1. Grá�ca de la curva ROC. Modelo P13+P24A+P27. . . . . . . 546.2. Modelos de regresión simple de Enero de 2015 con una variable. 586.3. Modelos de regresión simple de Enero de 2015 de dos variables. 606.4. Modelos de regresión simple de Enero de 2015 con más de dos

variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.5. Modelo P34+P20+P24A. Análisis del ajuste. . . . . . . . . . 676.6. Modelo P20+P24A. Análisis del ajuste. . . . . . . . . . . . . 686.7. Modelos de regresión múltiple de Enero de 2015 con una variable. 716.8. Modelos de regresión múltiple de Enero de 2015 de dos variables. 736.9. Modelos de regresión múltiple de Enero de 2015 con más de

dos variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . 756.10. Modelo P24A. Análisis del ajuste. . . . . . . . . . . . . . . . . 836.11. Modelo P24A. Análisis del ajuste global. . . . . . . . . . . . . 836.12. Modelo P26+P34. Análisis del ajuste. . . . . . . . . . . . . . 856.13. Modelo P26+P34. Análisis del ajuste global. . . . . . . . . . . 866.14. Modelo P26+P27+P34. Análisis del ajuste. . . . . . . . . . . 876.15. Modelo P26+P27+P34. Análisis del juste global. . . . . . . . 876.16. Estudio de Enero de 2015. Predicciones poblacionales. . . . . 91

7.1. Estudio de Julio de 2015. Análisis del ajuste. . . . . . . . . . 967.2. Estudio de Julio de 2015. Ajuste global del modelo P26A. . . 967.3. Estudio de Octubre de 2015. Análisis del ajuste. . . . . . . . . 987.4. Estudio de Octubre de 2015. Ajuste global del modelo P29A. 987.5. Estudio de Julio de 2015. Predicciones Poblacionales. . . . . . 1007.6. Estudio de Octubre de 2015. Predicciones Poblacionales. . . . 1017.7. Enero, Julio y Octubre de 2015. Evolución de predicciones. . . 1027.8. Enero, Julio y Octubre de 2015. Predicciones poblacionales.

Diagramas de sectores. . . . . . . . . . . . . . . . . . . . . . . 1027.9. Elecciones Generales del 20 de diciembre de 2015. Diagrama

de sectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1077.10. Elecciones Generales del 20 de diciembre de 2015. Diagrama

de sectores. Principales Partidos. . . . . . . . . . . . . . . . . 108

iii

Page 24: Modelización mediante regresión logística para estimación
Page 25: Modelización mediante regresión logística para estimación

Índice de cuadros

6.1. Resultado de las Elecciones Generales de 2011 al Congreso delos Diputados en España. . . . . . . . . . . . . . . . . . . . . 77

6.2. Población mayor de 16 años por actividad económica y sexo(Miles de personas). . . . . . . . . . . . . . . . . . . . . . . . 79

6.3. Paro registrado por el INEM por edades (no. de personas). . 80

7.1. Resultado de las Elecciones Generales del 20 de diciembre de2015 al Congreso de los Diputados en España. . . . . . . . . . 106

v

Page 26: Modelización mediante regresión logística para estimación
Page 27: Modelización mediante regresión logística para estimación

Capítulo 1

Modelos de respuesta discreta

Como es bien sabido, los modelos que llamamos de regresión se basanen una serie de características observables y, a priori, independientes entre síde un individuo en estudio. Éstas son denominadas variables explicativas,y son principalmente utilizadas para describir una o varias características dedicho individuo, a las que consideramos variables respuesta.

A lo largo de este apartado introduciremos los modelos de regresiónlogística como un paso más de los modelos predictivos sobre conjuntos dedatos. En muchos casos, o bien la dispersión de los datos, o bien su par-ticular organización nos impedirán recurrir a los modelos de regresiónlineal, pues no nos servirán para ajustar satisfactoriamente los datos y laspredicciones obtenidas de ellos no serán buenas.

Para elaborar este capítulo hemos utilizado las referencias indicadas enla bibliografía como [4], [5], [7], [11], [13], [15] y [21].

1.1. Modelos de respuesta binaria.

Los modelos de respuesta binaria se basan en considerar una variablerespuesta, Y , que pueda tomar tan sólo dos valores. En dicha situación asig-namos Y = 1 al caso de interés e Y = 0 al caso contrario.

El tipo de variable que admite una expresión basada en la descripción an-terior se denomina dicotómica. Podemos contemplar, por ejemplo, el riesgoexistente de padecer o no un infarto, donde no existen grados para dichaobservación. En este caso tenemos dos opciones: o se ha padecido un infarto(Y = 1) o no se ha padecido (Y = 0).

1

Page 28: Modelización mediante regresión logística para estimación

2 1.1. Modelos de respuesta binaria.

Una variable, Y , con estas características tendría una distribución deBernouilli de esperanza

E[Y ] = P [Y = 1] = p,

donde p ∈ (0, 1).

Si consideramos entonces una variable explicativa, X, de la cuál asu-mimos que nos sirve para predecir el resultado de la variable Y con mayorexactitud, entonces la distribución de la variable respuesta, Y , en cadavalor observado de la variable explicativa, X, sigue también una distribuciónde Bernouilli con esperanza

E[Y |X = x] = P [Y = 1|X = x] = p(x),

y varianzaV ar[Y |X = x] = p(x)(1− p(x)).

En tal caso, hemos llegado a la clara dependencia de la variable res-puesta respecto de la variable explicativa. Teniendo en cuenta lo razonadoanteriormente, buscamos un modelo de la forma

Y (x) = F (α+ βx) + ε(x),

donde ε(x) sean variables aleatorias independientes de esperanza nula yα, β ∈ R parámetros. Se puede expresar también como

p(x) = F (α+ βx),

donde F es una función de distribución estrictamente creciente que, a su vez,puede expresarse en la forma

F−1(p(x)) = α+ βx.

1.1.1. Principales problemas de los modelos de probabilidad

lineal.

A la hora de considerar el modelo presentado anteriormente, tenemos quepercatarnos de que existen ambigüedades a la hora de llevarlo a la práctica.Supongamos un caso sencillo para una variable aleatoria respuesta, Y , en

Page 29: Modelización mediante regresión logística para estimación

Modelos de respuesta discreta 3

término de una variable aleatoria explicativa, X. El modelo a considerarsegún lo descrito anteriormente sería

Y (x) = α+ βx+ ε(x),

donde los errores ε(x) son variables aleatorias no observables, independientes,con esperanza cero, cuya distribución es también de Bernouilli con valores

(1− (α+ βx)) si Y = 1 con probabilidad p(x),

− (α+ βx) si Y = 0 con probabilidad (1− p(x)).

Dado que ε(x) tiene esperanza nula, se tiene que

E[e(x)] = p(x)− (α+ βx) = 0.

Se tiene, por tanto, un modelo de regresión lineal de la forma

E[Y |X = x] = p(x) = α+ βx,

y recibe el nombre de modelo de probabilidad lineal.

Como podemos apreciar, el hecho de que una probabilidad dependa deuna variable que no está acotada crea un con�icto con su de�nición. Losprincipales problemas se enumeran a continuación:

1. Tal y como todos sabemos, las probabilidades toman valores entre 0 y1, mientras que, en nuestro caso, según el valor de la variable X y de losparámetros que la acompañan, tenemos un rango mucho más ampliode valores posibles. Deducimos entonces que el modelo será efectivotan sólo sobre un conjunto de valores acotados.

2. No se satisface la condición de homocedasticidad, ya que la varianzade la variable respuesta no es constante sobre los valores observados dela variable explicativa.

3. Al no tener Y distribución normal, no se pueden utilizar las distribu-ciones muestrales de los estimadores de mínimos cuadrados ordinariospara hacer inferencia sobre el modelo.

4. El modelo lineal implica variaciones iguales de la probabilidad de res-puesta frente a variaciones iguales de la variable explicativa. Esto noes realista, ya que los cambios producidos en X deberían tener menosimpacto sobre p cuando la probabilidad de respuesta esté próxima acero o a uno que cuando esté próxima a 0.5.

Page 30: Modelización mediante regresión logística para estimación

4 1.1. Modelos de respuesta binaria.

Debido a estas di�cultades nos planteamos ajustar un modelo no linealque implique una relación entre x y p(x) que sea curvilínea, monótona y aco-tada entre cero y uno. Las funciones de distribución de variables continuasde�nidas sobre toda la recta real podrían ser transformaciones adecuadasque cumplen estos objetivos.

Es así como surgen los modelos de regresión logística, donde lasfunciones logaritmo y exponencial eliminan los problemas que ocasiona unmodelo lineal.

1.1.2. Modelo de regresión logística simple.

El conocido comomodelo logit es el modelo de regresión logística simpley consiste en la siguiente expresión para la probabilidad

p(x) =exp(α+ βx)

1 + exp(α+ βx)=

1

1 + exp [−(α+ βx)]. (1.1)

El modelo se puede describir equivalentemente como

ln

[p(x)

1− p(x)

]= α+ βx,

donde dicha transformación,

ln

[p(x)

1− p(x)

],

recibe el nombre de logit yp(x)

1− p(x)

representa la ventaja de respuesta Y = 1 para el valor observado x.

Con motivo de comprobar si los problemas que mencionábamos anterior-mente han sido subsanados, veamos las características principales de la curvade respuesta logística.

1. La curva logística representada por la ecuación 1.1 implica una relaciónestrictamente monótona entre la probabilidad de respuesta y la variableexplicativa que tiene forma de S y con valores en el intervalo [0, 1]. Porahora hemos logrado acotar la respuesta de manera que trabajamoscon una probabilidad.

Page 31: Modelización mediante regresión logística para estimación

Modelos de respuesta discreta 5

2. La función de probabilidad p(x) está acotada entre las funciones cons-tantes y = 1 e y = 0. Además, el signo del parámetro β determina elcrecimiento o decrecimiento de la función.

3. La tasa de cambio en p(x) deja de ser constante.

p′(x) = βp(x)(1− p(x)).

4. Cuando el modelo se veri�ca con β = 0, la curva logística es unalínea recta. Esto nos indica de manera inequívoca que la variable Y esindependiente de la variable X.

1.1.3. Modelo de regresión logística múltiple.

En línea con el apartado anterior, si consideramos R variables explicativasX1, ..., XR, entonces para cada combinación de dichas variables, se tiene quela variable respuesta Y sigue una distribución de Bernoulli

Y |(X − 1 = x1, ..., XR = xR) B(1, p(x1, ..., xR)).

A partir de esto, nos interesa modelar la esperanza condicionada

E[Y |X1 = x1, ..., XR = xR] = P [Y = 1|X1 = x1, ..., XR = xR] = p(x1, ..., xR).

De este modo podemos describir el modelo de regresión logística múltiplepara la variable Y en términos de las variables explicativas como

p(x1, ..., xR) =eα+

∑Rr=1 βrxr

(1 + eα+∑Rr=1 βrxr)

.

Con el principal objetivo de simpli�car la expresión, podemos considerarβ0 = α y x0 = 1, de modo que tenemos

p(x1, ..., xR) =e∑Rr=0 βrxr

(1 + e∑Rr=0 βrxr)

.

Para poder utilizar más adelante esta fórmula conviene expresarla entérminos matriciales como

p(x) =eβx

t

1 + eβxt,

donde x = (x1, ..., xR) y β = (β0, β1, ..., βR).

Page 32: Modelización mediante regresión logística para estimación

6 1.2. Ajuste de modelos logit.

Al igual que en el caso anterior, podemos modi�car la expresión pararealizar la regresión en una expresión polinómica, puesto que

ln

[p(x)

1− p(x)

]=

R∑r=0

βrxr.

En el caso de que todos los parámetros βr sean nulos salvo β0, se veri�caque la variable Y es independiente de las variables explicativas.

1.2. Ajuste de modelos logit.

En lo que sigue abordaremos el problema de la estimación de los pará-metros de los modelos logit.

Los datos están constituidos por una muestra de tamaño N de la varia-ble aleatoria respuesta, Y . Esto es, tenemos N observaciones de N variablesque tienen distribución de Bernouilli independientes, donde a cada una lecorresponde una combinación de valores (x0, x1, ..., xR) de las R variablesexplicativas X1, ..., XR.

Si denotamos por xq = (xq0, xq1,, ..., xqR)′, con q = 1, ..., Q ∈ N, a laq−ésima combinación de valores de las R variables explicativas de la muestra,pueden suceder dos casos:

1. Para cada individuo muestral existe una combinación diferente de ni-veles de las R variables explicativas, o lo que es lo mismo, Q = N .Esto signi�ca que hay una única observación de la variable aleatoriade respuesta, Y , en cada combinación de variables explicativas. Es-te acontecimiento se produce normalmente cuando todas las variablesexplicativas son continuas.

2. A individuos muestrales diferentes corresponden valores iguales de lasvariables explicativas, es decir, Q < N . Esto nos deja más de unaobservación de la variable aleatoria de respuesta en cada combinaciónde valores de las variables explicativas.

Si denotamos como nq al número de observaciones muestrales conX = xqy por yq al número de respuestas Y = 1 de estas nq observaciones, se disponede una muestra deQ variables aleatorias independientes Yq con distribucionesB(nq, pq), donde

pq = P [Y = 1|X = xq].

Page 33: Modelización mediante regresión logística para estimación

Modelos de respuesta discreta 7

Por lo tanto, tenemos que

E[Yq] = nqpq,

Q∑q=1

nq = N.

A partir de esto, el modelo de regresión logística muestral es de la forma

pq =e∑Rr=0 βrxqr

1 + e∑Rr=0 βrxqr

.

También podemos transformarlo en su forma lineal,

Lq = ln

[pq

1− pq

]=

R∑r=0

βrxqr.

Por último, podemos considerar su equivalente forma matricial

L = Xβ,

donde

L = (L1, ..., LQ)′ es el vector de transformaciones logit,

β = (β0, β1, ..., βR)′ es el vector de parámetros y

X =

x10 x11 · · · x1r · · · x1Rx20 x21 · · · x2r · · · x2R· · · · · · · · · · · · · · · · · ·xq0 xq1 · · · xqr · · · xqR· · · · · · · · · · · · · · · · · ·xQ0 xQ1 · · · xQr · · · xQR

es la matriz del diseño.

1.2.1. Estimación por máxima verosimilitud.

Uno de los pasos más importantes a la hora de ajustar un modelo deregresión logística, ya sea simple o múltiple, consiste en la estimación delos parámetros que intervienen en el mismo. Hay numerosos procedimientospara la estimación de dichos parámetros, entre los que podemos destacar laestimación por máxima verosimilitud.

Page 34: Modelización mediante regresión logística para estimación

8 1.2. Ajuste de modelos logit.

Es bien sabido que los estimadores de máxima verosimilitud son los valo-res de los parámetros que dan máxima probabilidad a los datos observados.Para poder calcularlos se recurre a la función de verosimilitud de los datosen estudio respecto a los parámetros a estimar.

La función de verosimilitud se calcula como el producto de las funcionesmasa de probabilidad de las binomiales independientes que intervienen. En elcaso que hemos descrito anteriormente, donde tenemos Q variables aleatoriasindependientes, Yq, con distribuciones B(nq, pq), la función de verosimilitudvendría dada por

Q∏q=1

(nqyq

)pyqq (1− pq)nq−yq .

Usualmente se maximiza el logaritmo del núcleo de la función de ve-rosimilitud, que tiene el máximo en el mismo punto que ésta. Así pode-mos escribir la función de verosimilitud para un conjunto de parámetrosβ = (β0, β1, ..., βR), como

L(β) = log

Q∏q=1

pyqq (1− pq)nq−yq

=

= log

Q∏q=1

(1− pq)nq log

Q∏q=1

pyqq (1− pq)−yq

=

=

Q∑q=1

nqlog(1− pq) +

Q∑q=1

yqlogpq

(1− pq)=

= −Q∑q=1

nqlog

(1 + exp

(R∑r=0

βrxqr

))+

Q∑q=1

yqlog

(exp

(R∑r=0

βrxqr

))=

= −Q∑q=1

nqlog

(1 + exp

(R∑r=0

βrxqr

))+

R∑r=0

Q∑q=1

yqxqr

βr.

Hemos conseguido que dependa de los datos observados yq tan sólo a travésde los estadísticos su�cientes.

Derivando entonces con respecto a cada uno de los parámetros βr e igua-lando los resultados a cero obtendremos los estimadores máximo verosímiles

Page 35: Modelización mediante regresión logística para estimación

Modelos de respuesta discreta 9

de dichos parámetros.

∆L(β)

∆βr=

Q∑q=1

yqxqr −Q∑q=1

nqxqr

exp

(R∑r=0

βrxqr

)

1 + exp

(R∑r=0

βrxqr

) .

Igualando entonces a cero, tenemos

∆L(β)

∆βr=

Q∑q=1

yqxqr −Q∑q=1

nqxqrpq = 0, r = 0, ..., R,

donde pq es el estimador máximo verosímil de pq, dado por

pq =

exp

(R∑r=0

βrxqr

)

1 + exp

(R∑r=0

βrxqr

) ,

con βr los estimadores máximo verosímiles de los parámetros.

Finalmente hemos concluido la estimación de los parámetros que nosservirán para ajustar el modelo a partir de los datos. Como veremos másadelante, este tipo de modelos nos servirán como un paso intermedio entre losdatos en bruto y el resultado que buscamos. Es necesario para poder abordarestimadores como el de Horvitz y Thompson o los de regresión generalizada.

Page 36: Modelización mediante regresión logística para estimación
Page 37: Modelización mediante regresión logística para estimación

Capítulo 2

Variables de Informaciónauxiliar.

Para la elaboración de este capítulo nos hemos centrado en los comenta-rios de los artículos y libros presentados en las referencias que hablan sobrela información auxiliar y su importancia a la hora de utilizar este tipo demodelos.

Dada una población U , de tamaño N , sobre la que queremos estimar eltotal de una cierta característica Y , a veces resulta muy difícil, si no im-posible, encuestar a todos y cada uno de los individuos de dicha población,lo cual presenta un problema a la hora de analizar dicha característica enrelación al total poblacional.

Por ejemplo, podemos pensar en el proceso electoral y en las encuestasde intención de voto donde, como es lógico, no se puede encuestar a todoslos individuos que podrán ejercer su voto en las urnas, por lo que se utilizandistintos métodos para predecir el resultado electoral.

En estos casos, se toman una o varias muestras de la población y se es-tudia el comportamiento de dicha característica en los individuos que lascomponen. En el ejemplo mencionado nos referiríamos a grupos de votantesde diferentes provincias.

Aunque es una buena aproximación, el total de Y sobre los individuosobservados no va a ser el mismo que su total poblacional. Este problema losolventamos por medio de estimadores del total poblacional, que analizare-mos en el siguiente capítulo. La idea de este proceso reside en considerarmuestras y, a partir de ellas, predecir qué sucederá en la característica estu-

11

Page 38: Modelización mediante regresión logística para estimación

12 2.1. Tipos de variables de información auxiliar.

diada de la población.

En relación al ejemplo electoral, si queremos conocer la participación quehabrá el día de las elecciones, la característica a estudiar sería Asistencia pa-ra ejercer el voto o No asistencia para ejercer el voto. Más adelante veremoscómo en estos casos podemos establecer la característica Y como una varia-ble dicotómica que toma los valores 0 y 1, pues consiste en realizar o no unadeterminada acción, o tener o no una determinada característica.

Este tipo de estimación es también utilizada para compensar la pérdidade muestra debida a la falta de respuesta, donde por diversas circunstancias,la mayoría de los individuos de una población han decidido no participar enla encuesta y, por tanto, conviene estimar los valores de la población com-pleta en base a los escasos datos recogidos.

En general, además de la variable objetivo Y , tendremos otras caracte-rísticas observadas en la población y en la muestra, denominadas variablesde información auxiliar. A priori, se supone una relación entre la variableobjetivo y dichas variables auxiliares, por lo que a menudo la variable Y sedenomina variable dependiente.

Gracias a estas variables auxiliares podremos predecir con mayor pre-cisión el resultado poblacional para la variable Y . En el caso de nuestroejemplo, tendríamos como variables auxiliares la edad, el sexo, los ingresosanuales, etc. En de�nitiva, variables que nos aportan información que puedesernos útil al hablar de cierta característica Y en estudio.

2.1. Tipos de variables de información auxiliar.

En cuanto a lo referente a variables de información auxiliar, son las va-riables objetivo, sobre las que se quiere conocer cierta información, las quedeterminan en gran medida la cantidad y la diversidad de las variables deinformación auxiliar que intervienen en el ajuste de los diferentes modelos.

Hay que decir que, para cada conjunto de datos, existen in�nidad demodelos que podemos ajustar teniendo en cuenta numerosas variables muydiversas. La bondad de ajuste de dichos modelos dependerá de la cantidadde dichas variables explicativas o auxiliares y de la in�uencia que tienen so-bre la variable en estudio. Así podemos de�nir el mejor modelo, de entretodos los que podemos generar, como aquél que se ajusta mejor a los datos.Para analizar este hecho se tienen en cuenta diferentes medidas en las que

Page 39: Modelización mediante regresión logística para estimación

Variables de Información auxiliar. 13

intervienen tanto datos predichos como observados.

No obstante, no hay que olvidar que el mejor modelo en relación a labondad de ajuste no siempre será el más e�ciente. Esto suele deberse a laimposibilidad de utilizar decenas de variables auxiliares en el ajuste. Este ti-po de limitaciones nos muestran otro camino para conocer el mejor modelo,de entre los que nos son factibles generar. En tal caso tendríamos que teneren cuenta la prioridad de intervención de las variables auxiliares recogidas,que vendrá dada por la capacidad de predicción que éstas tengan sobre lavariable objetivo.

En relación a los dos argumentos anteriores, por ejemplo, para ajustarun modelo que ayude a predecir la altura de los niños en un periodo de cre-cimiento, no será lógico considerar la pasta dentífrica que utilizan a diario,o las veces que se levantan de su silla al cabo del día. Sin embargo, serásigni�cativo su sexo, si juega o no al baloncesto (aunque en menor medida),si se alimenta de forma saludable, su peso, etc. Después de descartar las va-riables auxiliares que, a priori, no tienen in�uencia en la altura, tendremosque seleccionar, de entre las demás, las que tengan mayor in�uencia. El prin-cipal objetivo de esta reducción es simpli�car el modelo que vamos a obtener.

Todas las variables aleatorias que conocemos pueden ser, en un momentodeterminado, para un caso concreto, variables de información auxiliar. En elcaso de variables auxiliares discretas podemos hablar del sexo, la cantidadde hijos, año, religión que se profesa, etc. En cuanto a las variables auxiliarescontinuas tenemos, por ejemplo: altura, ingresos, velocidad, etc.

Por otro lado, podemos considerar variables auxiliares cualitativas ycuantitativas. En el caso de las cualitativas, en lugar de considerar en elmodelo un parámetro general, se considera un parámetro para cada situa-ción concreta. En el caso de la religión que se profesa, por ejemplo, en unmodelo logit podemos encontrar diferentes modi�cadores o parámetrossegún si hablamos del catolicismo, judaísmo, budismo, etc.

Page 40: Modelización mediante regresión logística para estimación
Page 41: Modelización mediante regresión logística para estimación

Capítulo 3

Estimadores generalizados.

A lo largo de este capítulo introduciremos los estimadores del total po-blacional con los que vamos a trabajar en lo que sigue. La importancia deeste tipo de estimadores reside en la predicción de una o diversas caracterís-ticas de una población a partir a los modelos de regresión logística aplicadossobre una muestra de dicha población.

En el ejemplo práctico que resolveremos más adelante nos servirán parapredecir la intención de voto de los españoles en las elecciones del 20 de di-ciembre de 2015. Para ello se tendrá en cuenta una base de datos de algunosmeses previos a la fecha señalada. Tras generar el mejor modelo de regresiónlogística asociado a los datos, teniendo en cuenta la bondad de ajuste y laefectividad, utilizaremos los estimadores que vamos a presentar en este ca-pítulo para extender la predicción de la muestra al total poblacional.

Vamos a estudiar el estimador de Horvitz y Thompson, H-T, el estima-dor de regresión generalizada, GREG, y el estimador logístico de regresióngeneralizada, LGREG.

Para elaborar este capítulo hemos utilizado las referencias indicadas enla bibliografía como [5], [6], [9], [10], [13], [16], [17], [19] y [20].

3.1. Introducción.

Antes de entrar en el cálculo de los estimadores mencionados, tenemosque proporcionar una serie de de�niciones previas de conceptos que nos ser-virán en su construcción y uso.

15

Page 42: Modelización mediante regresión logística para estimación

16 3.2. Estimador de Horvitz-Thompson.

Probabilidad de inclusión: Dada una determinada población U , pa-ra cada i ∈ U se de�ne la probabilidad de inclusión bajo el diseñomuestral d = (Sd, Pd) como:

1er orden: coloquialmente podemos de�nir la probabilidad de in-clusión de primer orden bajo las hipótesis anteriores como la probabili-dad de que un elemento concreto pertenezca a la población considerada,esto es

πi(d) =∑i∈s

Pd(s), ∀i.

La suma anterior se extiende a todas las muestras del diseño d quecontengan a la unidad i−ésima.

2o orden: de igual modo podemos de�nir la probabilidad de inclu-sión de primer orden bajo las hipótesis anteriores como la probabilidadde que dos elementos concretos pertenezcan a la población considerada,esto es

πij(d) =∑i,j∈s

Pd(s), ∀i, j.

La suma anterior se extiende a todas las muestras del diseño d quecontengan simultáneamente a las unidades i−ésima y j−ésima.

Un diseño muestral d = (Sd, Pd) de una población U se denominaprobabilístico si

πi(d) > 0, ∀i ∈ U .

Un diseño muestral d = (Sd, Pd) de una población U se denominacuanti�cable si

πij(d) > 0, ∀i, j ∈ U .

3.2. Estimador de Horvitz-Thompson.

Nuestro principal objetivo en este apartado consiste en predecir el valorde uno o varios parámetros a través de ciertas herramientas que nos facilitanlos cálculos. Para ello hacemos uso del estimador deHorvitz y Thompson,que nos servirá para dar una primera estimación del parámetro o parámetrosbuscados.

Para introducir su uso, en primer lugar, de�niremos su forma general yposteriormente lo construiremos, adaptándolo al caso que nos concierne.

Page 43: Modelización mediante regresión logística para estimación

Estimadores generalizados. 17

3.2.1. De�nición.

Dado un parámetro desconocido, θ, que depende de los valores de unadeterminada variable o un determinado conjunto de variables, Y , nuestro ob-jetivo consiste en calcular dicho parámetro haciendo uso de los valores de lasvariables que conocemos. Supongamos que tenemos el siguiente parámetro:

θ(y) =N∑i=1

aiyi con ai ∈ R.

Entonces, podemos generar el estimador de Horvitz y Thompson como

θHT (s, y) =∑i∈s

aiyiπi

.

Podemos interpretar el estimador anterior en términos del uso de losvalores conocidos de las variables dependientes con el objetivo de calcularparámetros en los que intervienen dichas variables. Esta herramienta es muypoderosa, ya que podemos hacer uso de ella para calcular cualquier pará-metro de los datos, como la media o la varianza.

Principalmente este método está enfocado a variables cuya recogida dedatos es incompleta por diversas razones. Así podemos estimar medidas signi-�cativas de una población a partir de una muestra de la misma, sin necesidadde recurrir a gigantescas bases de datos que, a menudo, suelen ser inviables.

3.2.2. Construcción.

De entre los estimadores de los que disponemos, utilizaremos principal-mente el total de la población, lo cual es arriesgado si partimos de unamuestra de dicha población. Para contrarrestar los posibles problemas quenos surjan, usaremos el estimador de Horvitz y Thompson, descrito an-teriormente, sobre el siguiente parámetro

Y =N∑i=1

yi,

donde Y identi�ca al total de la población �nita en estudio de tamaño N .

A continuación, aplicando a dicho parámetro lo aprendido en el subapar-tado anterior, llegamos a una expresión para la estimar el total de la pobla-ción en estudio

YHT (s, y) =∑i∈s

yiπi. (3.1)

Page 44: Modelización mediante regresión logística para estimación

18 3.2. Estimador de Horvitz-Thompson.

3.2.3. Propiedades.

Insesgadez: El estimador de Horvitz y Thompson del total es in-sesgado de dicho parámetro.

Demostración:

E(YHT ) =E

(∑i∈s

yiπi

)= E

(N∑i=1

yiπiIi(s)

)=

=N∑i=1

yiπiE(Ii(s)) =

N∑i=1

yiπiπi = Y.

Donde hemos considerado Ii(s) = 1 si i ∈ s y Ii(s) = 0 en otro caso.

Varianza: la varianza del estimador de Horvitz y Thompson deltotal viene dado por la siguiente expresión

V (YHT ) =

N∑i,j=1

∆ijyiπi

yjπj,

donde ∆ij = πij − πiπj .

Demostración:

V (YHT ) =N∑i=1

(yiπi

)2

πi(1− πi) +

N∑i 6=j=1

yiπi

yjπj

(πij − πiπj) =

=

N∑i,j=1

yiπi

yjπj

(πij − πiπj).

Nota: Si el diseño muestral de la población es cuanti�cable (πij > 0),podemos utilizar un estimador insesgado para la varianza del estimadorde Horvitz y Thompson a partir de una muestra poblacional, s.

V (YHT ) =N∑

i,j∈s

∆ij

πij

yiπi

yjπj.

Page 45: Modelización mediante regresión logística para estimación

Estimadores generalizados. 19

Demostración:

E(V (YHT )) = E

N∑i,j=1

IiIj∆ij

πij

yiπi

yjπj

=

=N∑

i,j=1

E(IiIj)∆ij

πij

yiπi

yjπj

=

=

N∑i,j=1

∆ijyiπi

yjπj

= V (YHT ).

Intervalo de con�anza: el siguiente es un intervalo de con�anza parael total, YHT , con nivel de con�anza de 1− α.

YHT ∈(YHT ± zα

2

√V (YHT )

).

3.3. Estimador de regresión generalizada. GREG.

El estimador de regresión generalizada es un estimador que utiliza in-formación auxiliar de la variable. Se diferencia del estimador de regresiónhabitual en que introduce pesos en la estimación de los coe�cientes del mo-delo. Este tipo de estimadores utilizan los modelos de regresión como unmedio para conseguir estimadores consistentes desde el punto de vista deldiseño.

En nuestro caso, nos interesa especialmente el estimador de regresióngeneralizada del total, que viene dado por

YGREG =∑j∈U

yj +∑i∈s

1

πi(yi − yi) ,

donde yj es, por regresión lineal,

yj = x′jβ, j ∈ U ,

y donde x′j y β son vectores que identi�can respectivamente a las variablesde información auxiliar y sus coe�cientes en la expresión.

Page 46: Modelización mediante regresión logística para estimación

20 3.4. Estimador logístico de regresión generalizada. LGREG.

3.3.1. Construcción.

Para construir el estimador de regresión generalizada, tenemos que partirde la información que tenemos sobre las variables de información auxiliar decada uno de los individuos que componen la población. Para ello hacemosuso de la expresión de yj por medio de regresión lineal.

Nuestra intención es calcular un estimador para el total, por lo que te-nemos que conocer la suma de los valores predichos por medio de regresiónlineal y después controlar los errores de predicción, conocidos en la muestraque tenemos, s. Para ello procedemos de la siguiente forma

Y =∑j∈U

x′jβ,

ya que tenemos que contemplar a todos los individuos de la población unavez hemos calculado el estimador para cada uno de ellos.

Para controlar los posibles errores utilizamos la diferencia entre los valorespredichos y los conocidos de los individuos de la muestra poblacional quetenemos, s.

∑i∈s

(yi − x′iβ

).

Si tenemos entonces en cuenta ambos resultados, el segundo de ellosponderado según lo conocido sobre la muestra s, obtenemos el estimador deregresión generalizada como sigue

YGREG =∑j∈U

x′jβ +∑i∈s

1

πi

(yi − x′iβ

).

Este estimador nos abre las puertas a toda la población considerada sinlimitaciones, salvo las que puedan producirse por el ajuste de los diferentesparámetros a lo largo del proceso llevado a cabo.

3.4. Estimador logístico de regresión generalizada.

LGREG.

A continuación, describiremos la estructura y construcción del estimadorlogístico de regresión generalizada a partir del estimador de regresión gene-

Page 47: Modelización mediante regresión logística para estimación

Estimadores generalizados. 21

ralizada, expuesto anteriormente.

La motivación para construir este estimador reside en simpli�car la ver-sión anterior de regresión generalizada mediante el uso de regresión logística.

3.4.1. Construcción.

El primer paso consiste en recordar el modelo logístico, por el cuál po-demos hacer uso de la función exponencial para simpli�car el cálculo de unmodelo de regresión lineal como sigue

P (Yi = 1|xi, β) =exp(x′iβ)

1 + exp(x′iβ).

Asumiendo entonces que podemos calcular los estimadores de Horvitz yThompson de los parámetros β por log-verosimilitud, tenemos que

L(β) =∑i∈s

1

πi(I(Yi = 0)log(1− µi) + I(Yi = 1)log(µi)) ,

donde µi = E (Yi|xi, β) = P (Yi = 1|xi, β) y I(A) es el indicador para elconjunto A.

Entonces los valores predichos de µi vienen dados por

µi = P(Yi = 1|xi, β

), i ∈ s.

Para obtener el estimador logístico de regresión generalizada tenemos quesustituir la predicción lineal de yi por la de µi.

YLGREG =∑j∈U

µj +∑i∈s

1

πi(yi − µi) .

Page 48: Modelización mediante regresión logística para estimación
Page 49: Modelización mediante regresión logística para estimación

Capítulo 4

Elecciones Generales

En el presente capítulo plantearemos el desarrollo práctico de los concep-tos teóricos tratados en capítulos anteriores. Para ello vamos a llevar a caboun análisis electoral sobre la intención de voto de los españoles frente a losdiversos partidos que se presentaron a las Elecciones Generales el pasado 20de diciembre de 2015.

Como hemos ido adelantando, éste es un problema que no se puede abor-dar con todos los datos, pues sería tarea imposible encuestar a la poblacióncompleta capaz de ejercer su derecho a voto en España. Además, una reco-gida de datos tan desproporcionada llevaría un largo lapso de tiempo, lo queno nos facilita ver una evolución. También es posible que los individuos enestudio se negasen a responder a las preguntas, lo que volvería a situarnosde lleno en el problema de falta de información que se nos presenta.

Una vez que hemos argumentado lo descabellado que sería abordar unagran base de datos que nos acarrearía mayor cantidad de problemas, la ideaprincipal para desarrollar el análisis mencionado pasa por tomar una muestrade la población y estudiarla. En nuestro caso, dicha muestra estará compues-ta por ciudadanos españoles, mayores de edad y con derecho a voto.

4.1. Presentación de datos a tratar.

Los datos que vamos a utilizar en lo que sigue provienen de la página webdel Centro de Investigaciones Sociológicas (CIS), que es un organis-mo autónomo dependiente del Ministerio de la Presidencia. La funciónprincipal que el CIS tiene encomendada es la de contribuir al conocimientocientí�co de la sociedad española.

23

Page 50: Modelización mediante regresión logística para estimación

24 4.2. Análisis de variables auxiliares.

En concreto trabajaremos con los barómetros realizados por el CIS a lolargo del año 2015. Dado que los estudios de este tipo se realizan de formamensual, normalmente, tendremos una base importante para estudiar la evo-lución de la intención de voto.

Cada barómetro consta de un archivo comprimido en el que podemosencontrar los datos de los cuestionarios realizados, la descripción de las va-riables que intervienen, una copia del cuestionario (debido a que �uctúan suestructura y la cantidad y el tipo de preguntas), tarjetas que debe enseñarel entrevistador al entrevistado en algunas de las preguntas y la descripcióndel cuestionario.

En todos los barómetros utilizados existe una pregunta clave, que será laque llamaremos variable objetivo, en la que se le pregunta al encuestadopor su intención de voto proporcionándole, normalmente, una tarjeta con laamplia gama de partidos políticos que se presentan a las próximas elecciones.La respuesta a esta pregunta nos proporcionará, para cada partido, el valor1 si es elegido por el votante y el valor 0 si no lo es. De este modo tendremostantas variables dicotómicas como partidos se presenten y podremos formarmodelos logit para cada uno de ellos.

Dado que una persona no puede votar a dos partidos distintos a la vez,podemos considerar también un modelo de regresión logística múltiple paraabordar la intención de voto. En este caso es posible que perdamos informa-ción con respecto al anterior, pero esta pérdida puede verse compensada porla ventaja que nos proporciona tener un modelo cohesionado.

Finalmente, tendremos que tener en cuenta numerosas variables aleato-rias auxiliares recogidas junto a la variable objetivo. Dado que las pre-guntas �uctúan entre los distintos cuestionarios, habrá que elegir las queaparezcan en todos y que sean signi�cativas frente a la intención de voto.

4.2. Análisis de variables auxiliares.

A continuación, nos centraremos en el análisis y clasi�cación de algunasde las variables auxiliares que pueden intervenir en nuestro estudio. Comohemos mencionado anteriormente priorizaremos el estudio de aquéllas quesean signi�cativas y comunes a todos los barómetros en consideración. Princi-palmente nos centraremos en variables socioeconómicas y sociodemográ�cas.

Page 51: Modelización mediante regresión logística para estimación

Elecciones Generales 25

Edad: La edad es una variable que aparece en todos y cada uno delos barómetros mencionados y que, normalmente, es signi�cativa a lahora de ejercer el voto a un determinado partido político. Además, esinteresante utilizar la edad como información auxiliar para analizar laintención de voto en función de las distintas generaciones.

Sexo: Aunque el sexo no sea claramente signi�cativo en cuanto a inten-ción de voto, podemos incluir esta variable auxiliar para poder analizartambién los datos en función de la misma. Previsiblemente esta variableno in�uirá en gran medida en el modelo de regresión que presentare-mos, pero en vista a los datos, a la hora de extender la estimación altotal poblacional nos puede ser útil.

Partido votado en pasadas elecciones: Obviamente ésta es una delas preguntas que más condicionarán la respuesta a la pregunta sobreintención de voto, de modo que será una de las mejores variables deinformación auxiliar. Además, podemos conocer el total poblacionalgracias a los datos y porcentajes registrados en las pasadas elecciones.

Preguntas sobre situación económica de España: Aunque estetipo de preguntas se postulan como signi�cativas, hay que tener encuenta la imposibilidad de conocer los valores poblacionales asociados.Para que pudiésemos hacer un buen uso de estas variables tendría-mos que conocer la opinión de todos los españoles en edad de votosobre ellas. Estos datos no están disponibles, ya que, como hemos di-cho anteriormente, sería imposible entrevistar a todos y cada uno delos individuos en estudio. Habrá, por tanto, que considerar este tipo devariables en un modelo teórico para comprobar su signi�cación, peroconociendo la inviabilidad práctica del mismo.

Preguntas sobre situación política de España: Al igual que eltipo de variables anterior, tienen una probabilidad alta de in�uir en laintención de voto de los individuos, pero sólo a través de un modeloteórico. Cuando menciono modelo teórico no me re�ero a un modeloen el que no se puedan ajustar parámetros, sino a un modelo quesólo serviría para predecir el resultado en casos concretos con toda lainformación. De hecho, podremos comprobar en algunos ejemplos deeste tipo de modelos el ajuste con respecto a la muestra que tenemos.

Preguntas sobre la con�anza depositada en distintos líderespolíticos: Este tipo de preguntas siguen la misma línea que las dosanteriores, ya que al tratarse de una respuesta subjetiva sobre la que nose tienen datos poblacionales, tan sólo podemos comprobar el resultadoen la muestra.

Page 52: Modelización mediante regresión logística para estimación

26 4.3. Declaración de objetivos.

Situación laboral presente: Ésta se presenta como una variable deinformación auxiliar factible de ser signi�cativa y de la que, además,podemos comprobar datos poblacionales. Podremos incluirla en los mo-delos, tanto en los que ajusten las muestras, como en aquellos que ele-vemos al total poblacional por medio de los estadísticos descritos enpasados capítulos.

Preguntas de índole económica y laboral personal: Normalmen-te serían consideradas signi�cativas, por ejemplo, variables como lacantidad de ingresos o la probabilidad subjetiva de ser contratado. Noobstante, tenemos que tener en cuenta de nuevo la imposibilidad deconocer los datos poblacionales de las mismas.

Preguntas ideológicas: Algunas de éstas preguntas pueden resultarsigni�cativas, como la religión profesada o la ideología política domi-nante. Sin embargo, en España no existe un registro que contemple lapoblación por grupos religiosos o ideología política, lo cual hace queno podamos elevar un modelo generado por ellas al total poblacional.

Dado que las variables cambian dependiendo del estudio en cuestión,ahora tenemos una idea general clara sobre los tipos de preguntas que va-mos a encontrar. Más adelante realizaremos un análisis exhaustivo sobre laintervención de variables concretas, tanto en un ejemplo aislado como en laestimación global.

4.3. Declaración de objetivos.

Como todo análisis de datos, el que planteamos en este documento poseeunos objetivos claros que pasamos a detallar a continuación.

OB1. Regresión logística simple: Nuestro primer objetivo consisteen elaborar un modelo de regresión logística simple que nos muestre,dependiendo de ciertas variables consideradas, la probabilidad de queun individuo, del cual conocemos las respuestas a las preguntas aso-ciadas a dichas variables, tenga intención de votar a un determinadopartido político en las próximas elecciones.Este objetivo está pensado como ejemplo, utilizando un sólo partidopolítico con los datos de uno de los barómetros mencionados.Podemos desglosar este objetivo base en algunos objetivos especí�cos.

OB1E1. En cuanto a los datos, nuestra primera tarea debe serla identi�cación de las variables que intervienen en un modelo comoel mencionado a través de diversos procedimientos. Principalmente se

Page 53: Modelización mediante regresión logística para estimación

Elecciones Generales 27

tendrán en cuenta la e�ciencia, en la cual in�uye, en gran medida, lacantidad de variables incluidas, y la bondad de ajuste, para lo queprestaremos gran atención a los resultados predichos por el modelo ylos resultados observados en la muestra.

OB1E2. En cuanto a la presentación de los resultados obtenidos,presentaremos el modelo acompañado de una descripción grá�ca quecontemple la bondad de ajuste del modelo, así como un breve análisisde los resultados obtenidos.

OB2. Regresión logística múltiple: Nuestro segundo objetivo con-siste en elaborar un modelo de regresión logística múltiple que nosmuestre, dependiendo de ciertas variables consideradas, la probabilidadde que un individuo, del cual conocemos las respuestas a las preguntasasociadas a dichas variables, tenga intención de votar a cada uno delos partidos políticos que se presentan en las próximas elecciones.Este objetivo está pensado como ejemplo, utilizando todos los partidospolíticos con los datos de uno de los barómetros mencionados.Podemos desglosar este objetivo base en los mismos objetivos especí-�cos que el objetivo anterior. Por nomenclatura tendríamos, respecti-vamente, OB2E1 y OB2E2.

OB3. Estimación poblacional: este objetivo se encuentra cimenta-do en los dos objetivos anteriores. Consiste en considerar el modeloque mejor ajusta los datos, de entre todos los calculados, y cuyas va-riables son conocidas en toda la población, a saber, españoles mayoresde edad con derecho a voto. Seguidamente se realiza el cálculo de losestimadores del total poblacional deHorvitz y Thompson y, a partirde éste, logístico de regresión generalizada. Finalmente se obtienen ypresentan los resultados sobre intención de voto en las elecciones del20 de diciembre de 2015.Este objetivo base podemos disgregarlo en algunos objetivos especí�-cos que nos guiarán en el proceso.

OB3E1. En primer lugar, se debe elegir el modelo, de entre losgenerados, que se ajuste más a nuestras necesidades. En este aspecto,habrá que buscar y presentar datos poblacionales que podamos utilizarpara la predicción y que nos guíen a la hora de la selección del modeloóptimo.

OB3E2. En segundo lugar tendremos que estimar el total pobla-cional según el estimador de Horvitz y Thompson.

OB3E3. En tercer lugar, se estimará el total poblacional según elestimador logístico de regresión generalizado.

Page 54: Modelización mediante regresión logística para estimación

28 4.3. Declaración de objetivos.

OB3E4. Por último, realizaremos un análisis de los resultadosobtenidos.

Page 55: Modelización mediante regresión logística para estimación

Capítulo 5

Programación con R-project.

En el presente capítulo desarrollaremos, por medio del programa esta-dístico R-project, procedimientos para analizar satisfactoriamente los datosque estamos tratando de los barómetros mencionados y poder así cumplirlos objetivos propuestos en el capítulo anterior.

Vamos a dar una progresión pormenorizada de introducción de datos uti-lizando los programas SPSS y el ya mencionado R-project. Posteriormentedescribiremos las necesidades técnicas a las que nos enfrentaremos, para lasque crearemos diversas funciones y las explicaremos de forma detallada. Es-tas funciones nos serán de utilidad a la hora de profundizar en el análisis delos datos en el próximo capítulo.

Para llevar a cabo lo comentado anteriormente necesitamos, paso a paso,ir describiendo el proceso y su necesidad para alcanzar los objetivos plantea-dos.

Algunos de los procedimientos de programación seguidos en este capítulohan sido consultados en los libros y artículos de las referencias, entre ellosmencionamos especialmente los numerados como [7], [8] y [22], por tratarR-project con mayor profundidad. En cuanto a los aspectos teóricos rela-cionados, han sido consultados e implementados gracias a los apuntes de laasignatura Aplicaciones Biosanitarias, impartida en el Máster Universi-tario en Estadística Aplicada. Aparte de las consultas puntuales, todas lasfunciones implementadas a continuación son de mi autoría.

29

Page 56: Modelización mediante regresión logística para estimación

30 5.1. Uso de los datos.

5.1. Uso de los datos.

La forma de recoger los datos en cada uno de los barómetros consta dedos archivos con los pre�jos DA y ES, seguidos del mismo código numérico,que varía dependiendo del barómetro en cuestión. Para poder hacer uso deellos tendremos que utilizar un �chero de texto, con comandos compatiblescon R-project. Este proceso podemos llevarlo a cabo a través de SPSS pormedio de los pasos siguientes.

1. Almacenados los dos archivos descritos en la misma carpeta, abrimosen el programa SPSS la interfaz de sintaxis. Abrimos entonces el ar-chivo pre�jado por ES con el bloc de notas y seleccionamos todo sucontenido. Copiamos las órdenes anteriores en la ventana de sintaxisindicando la dirección del archivo pre�jado por DA.

2. Tras ejecutar las órdenes anteriores se creará un archivo con el conjuntode datos de la muestra. Este archivo se puede guardar en diferentesformatos, eligiendo si se utilizan las etiquetas nominales de las variableso sólo su código.

3. Ahora que tenemos un archivo que puede abrir SPSS de forma rápida,normalmente con extensión .sav, tendremos que exportar los datos parapoder incluirlos en R-project. Preferiblemente usaremos el archivo conextensión .csv.

4. Finalmente, mediante la función de R-project llamada read.csv, inclui-mos los datos en el programa para poder trabajar con ellos.

5.2. Declaración de necesidades.

A continuación, describiremos las necesidades técnicas que tenemos quesatisfacer para poder analizar los datos. A partir del conocimiento de lasmismas elaboraremos más adelante funciones que las solventen.

En primer lugar, necesitamos generar un modelo de regresión logís-tica simple. Por lo que sabemos, este proceso se puede llevar a cabo pormedio de un sistema de pasos llamado stepwise, que ya está programado enR-project, por lo que podemos hacer uso del mismo.

El proceso stepwise se lleva a cabo mediante la función step, que vienedada por los siguientes argumentos.

> args(step)

Page 57: Modelización mediante regresión logística para estimación

Programación con R-project. 31

function (object, scope, scale = 0, direction = c("both", "backward","forward"), trace = 1, keep = NULL, steps = 1000, k = 2,...)

De ellos, utilizaremos principalmente los siguientes:

Object: se trata de un objeto del tipo glm que se utiliza como modeloinicial del proceso stepwise. Si el proceso se realiza hacia adelante, elmodelo inicial es el que no tiene variables. En este caso dicho objetose asigna como

> Ajuste.Datos.0<-glm(VariableEstudio~1, family=binomial,+ data=BaseDatos)

Scope: de�ne el modelo inicial y �nal deseado mediante sentencias deR-project. Se trata de una lista con un elemento inferior, lower, y otrosuperior, upper.

lower = VariableEstudio~1upper = VariableEstudio~#TODAS LAS VARIABLES QUE INCLUYAMOS#

Direction: Indica la dirección de la búsqueda en el proceso stepwise,siendo sus opciones: forward para búsqueda hacia delante (introducien-do variables), backward para búsqueda hacia atrás (eliminando varia-bles) y both para ambos sentidos. La opción por defecto es backward.

La que hemos de�nido como VariableEstudio en los anteriores ejemplosde código es una variable dicotómica. Ésta será la variable que nos indique sila intención de voto hacia un determinado partido es positiva, en cuyo casodicha variable valdrá 1, o es negativa, en cuyo caso la variable tomará el va-lor 0. Si un individuo pretende votar al Partido A implica que no pretendevotar a un Partido B, de modo que la variable, llamémosla indicadora,del voto al Partido A nos mostrará un 1, mientras que la relativa al Parti-do B nos mostrará un 0. Necesitaremos entonces otra función que, dado elconjunto de datos y el partido en cuestión, nos devuelva un vector de cerosy unos, dependiendo de si los individuos tienen intención de votar o no alpartido tratado.

Después de utilizar la función step, podemos utilizar sobre el resultadoel comando summary para observar los coe�cientes alcanzados con el ajuste.Sobre dichos coe�cientes hablaremos más adelante, cuando podamos realizaraclaraciones sobre el tratamiento práctico de los datos.

Page 58: Modelización mediante regresión logística para estimación

32 5.2. Declaración de necesidades.

Para aceptar un ajuste necesitamos comprobar la bondad de ajuste,procedimiento que expondremos más adelante al detalle. La idea de incluirloen este apartado se basa principalmente en la necesidad de implementar unafunción que automatice el proceso. No obstante, para comprender mejor elproceso, el primer ejemplo lo elaboraremos detalladamente.

Una de las características necesarias que nos servirán para conocer elajuste del modelo es la Curva ROC del mismo. Cuanto mayor sea el áreaque queda bajo la misma, mejor será el ajuste alcanzado. Ésta es una delas medidas que debería devolver la función con la que automatizaremos elproceso.

En cuanto a lo referente a la generación de un modelo de regresiónlogística múltiple en R-project, podemos utilizar la función multinom. Pa-ra poder usarla tenemos que incluir en nuestro proyecto el paquete nnet pormedio del siguiente código.

> library(nnet)> args(multinom)function (formula, data, weights, subset, na.action, contrasts = NULL,

Hess = FALSE, summ = 0, censored = FALSE, model = FALSE,...)

Donde los argumentos que utilizaremos son:

Formula: se trata de la fórmula que ajustará el modelo, donde tendría-mos en primer lugar a la VariableEstudio seguida de todas las variablesque vayan a intervenir.

formula = VariableEstudio~#TODAS LAS VARIABLES QUE INCLUYAMOS#

Data: corresponde a los datos que servirán para el ajuste del modelo.

Weights: cuando existen diversas categorías de varias variables invo-lucradas, se pueden indicar las repeticiones de cada suceso como pesosen un vector. En nuestro caso no necesitaremos utilizarlo.

Para el caso multinomial, el primer paso que debemos dar es analizarlas variables que intervienen. Para ello iremos comparando modelos en losque intervengan las distintas variables en estudio y calcularemos la tablaANOVA de dicho modelo. El que nos otorgue el menor p−valor será elegi-do. Una vez tengamos la primera variable, volveremos a realizar el procesohasta conocer todas las variables que son signi�cativas en nuestro estudio.

Page 59: Modelización mediante regresión logística para estimación

Programación con R-project. 33

Este proceso se llevará a cabo por otra función, que tendrá como salida unalista de las variables óptimas que intervienen.

5.3. Programación.

A continuación, vamos a crear las funciones necesarias y vamos a detallarsus características, empezando por las variables de entrada y terminando porlas variables de salida programadas.

5.3.1. Regresión logística simple.

En primer lugar implementaremos los procedimientos para generar y ana-lizar un modelo de regresión logística simple, basado en la intención devoto referente a un sólo partido político.

Funciones auxiliares.

Para desglosarlo iremos de�niendo el código de funciones intermedias oauxiliares que nos servirán para simpli�car y estructurar los cálculos.

F.Voto: Para poder analizar los datos de manera individual para cadauno de los partidos propuestos implementamos una función que nospermita obtener un vector de unos y ceros en función de si un indivi-duo votará a un partido concreto o no, respectivamente.

> F.Voto = function(Partido, PreguntaVoto){# Esta función nos permite obtener un vector# de verdaderos y falsos que, en operaciones,# se convierten en unos y ceros, en función# del voto a un partido concreto.

PartidoVoto<-PreguntaVoto==Partido;return(PartidoVoto);}

Esta función se compone de dos argumentos:

Partido: argumento de texto que identi�cará inequívocamente alpartido seleccionado de entre todos los partidos posibles.

Page 60: Modelización mediante regresión logística para estimación

34 5.3. Programación.

PreguntaVoto: vector de categorías que contiene la intención devoto de todos los individuos en estudio. Cada posición de dicho vec-tor puede tener diferentes categorías que corresponden a los partidospolíticos implicados en el estudio.

F.Validacion:Para validar el modelo realizaremos un análisis de resi-duos y medidas de in�uencia. Para una validación completa, necesita-mos conocer los siguientes aspectos:

• Probabilidad predicha de respuesta Y = 1 en cada valor obser-vado de las variables explicativas. Para implementarlo usamos lafunción �tted.values.

• Error estándar de la probabilidad predicha de respuesta Y = 1.Para implementarlo usamos la función predict.glm.

• Residuos de Pearson ajustados. Para implementarlo usamos lafunción rstandard.

• Transformaciones logit predichas. Para implementarlo usamos lafunción predict.glm con ciertas variables distintas de las que usá-bamos para el Error estándar de la probabilidad predicha de res-puesta Y = 1.

• Residuos de la desviación ajustados. Para implementarlo usamosla función residuals.

• Valores superiores. Para implementarlo usamos la función hatva-lues.

• Distancias de Cook modi�cadas. Para implementarlo usamos eldoble de la función cooks.distance.

Para agilizar el cálculo, implementamos la siguiente función

F.Validacion = function(Datos){# Creamos una tabla con todas las medidas# descritas anteriormente.

Validacion<-data.frame(fitted.values(Datos),predict.glm(Datos,type='response',se.fit=T)[[2]],rstandard(Datos,type='pearson'),rstandard(Datos,type="deviance"),predict.glm(Datos,type="link"),hatvalues(Datos),2*cooks.distance(Datos,type="deviance"));

Page 61: Modelización mediante regresión logística para estimación

Programación con R-project. 35

names(Validacion)<-c("P.Est", "S.E(P.Est)","Res.Pear","Res.Dev","Lin.Pred","Lev","Cooks");

return(Validacion);}

A la presente función se le proporciona como argumento el ajuste rea-lizado por medio del método stepwise.

Automatización.

Una vez que hemos implementado las funciones auxiliares F.Voto yF.Validacion, es el momento de abordar una función que nos devuelvatodos los datos necesarios para un ajuste correcto y un análisis riguroso delmismo. La llamaremos F.Modelo

F.Modelo =function(Pregunta= 'P18',

N.archivo= "DA3050",N.Partido= 'PP',Graphic=TRUE,Salida= FALSE,L.preguntas=c('P26','P27')){

# El primer paso es importar los datos para poder utilizarlos.# Para ello usamos el nombre del archivo, N.archivo, y el# siguiente código.

Datos<-read.csv(paste(N.archivo,"csv",sep='.'),header=T,sep=";");names(Datos)[1]<-c('ESTU');

# A continuación incluimos en el conjunto de datos una nueva# variable que, gracias al uso de la función F.Voto, nos# proporciona una lista de verdaderos y falsos dependiendo# de la intención de voto de los individuos bajo estudio.

Datos<-data.frame(Datos,F.Voto(N.Partido, Datos[Pregunta]));names(Datos)[length(Datos)]<-'Y';

# Para iniciar el ajuste correctamente se procede como sigue.

Ajuste.Datos.0<-glm(Y~1, family=binomial, data=Datos);

Page 62: Modelización mediante regresión logística para estimación

36 5.3. Programación.

# En cuanto a las variables que intervienen, tenemos que# escribirlas como las utiliza la función step por defecto.# Para ello recorremos el vector L.preguntas y vamos uniendo# las variables por medio de la función �paste�.

for(k in 1:length(L.preguntas)){if(k==1){Variables=L.preguntas[k]}else{Variables=paste(Variables,L.preguntas[k],sep='+')}}

# Ya estamos en condiciones de realizar el ajuste del modelo# con los datos que hemos ido generando anteriormente.

Ajuste.Datos.step<-step(Ajuste.Datos.0,scope=list(lower = Y~1,

upper = paste(Pregunta, Variables, sep='~')),direction="both");

# Registramos el resultado del ajuste y los coeficientes# resultantes.

Datos.Sum<-summary(Ajuste.Datos.step);

# Procedemos a la validación del modelo.

Datos.Val<-F.Validacion(Ajuste.Datos.step);

# Recordemos que los residuos son significativamente distintos# de cero al nivel de significación 0.05 cuando sus valores ajustados# son, en valor absoluto, mayores o iguales que 1.96.

Val.Residuos.Sign<-Datos.Val$Res.Pear[abs(Datos.Val$Res.Pear)>=1.96];

# Registramos también la influencia máxima de los residuos.

Val.Infl.Max<-max(Datos.Val$Cooks);

# Para usar la siguiente función necesitamos incluir el paquete ROCR.# En la descripción de salidas analizaremos su uso.

Datos.prediccion<-prediction(fitted.values(Ajuste.Datos.step),Datos$Y);

Page 63: Modelización mediante regresión logística para estimación

Programación con R-project. 37

Datos.predicion.frame<-data.frame(Datos.prediccion@cutoffs,Datos.prediccion@fp,Datos.prediccion@tp,Datos.prediccion@tn,Datos.prediccion@fn,(Datos.prediccion@tp[[1]])/(Datos.prediccion@tp[[1]]+Datos.prediccion@fn[[1]]),(Datos.prediccion@tn[[1]])/(Datos.prediccion@fp[[1]]+Datos.prediccion@tn[[1]]

),(Datos.prediccion@tp[[1]]+Datos.prediccion@tn[[1]])/(Datos.prediccion@tp[[1]]+Datos.prediccion@tn[[1]]+Datos.prediccion@fp[[1]]+Datos.prediccion@fn[[1]]));

names(Datos.predicion.frame)<-c("cutoffs","fp","tp","tn","fn","Sensibilidad","Especificidad","CCR");

# Por último generamos la curva ROC y registramos el área# bajo la misma.

Datos.ROC<-performance(Datos.prediccion, measure="auc");

Area.ROC<- round ([email protected][[1]],4);

TasaClasCorrect<-performance(Datos.prediccion,measure="acc")@x.values[[1]][sapply(

performance(Datos.prediccion,measure="acc")@y.values,which.max)];

# Si Graphic=TRUE, entonces se mostrará la curva ROC.

if(Graphic){

Page 64: Modelización mediante regresión logística para estimación

38 5.3. Programación.

plot(performance(Datos.prediccion,"tpr","fpr"),main=N.Partido);abline(a=0,b=1);text(0.55,0.15,paste([email protected],

round ([email protected][[1]],4)),cex=0.7);};

# Si Salida=TRUE, entonces se exportará la gráfica de# la curva ROC a un archivo con extensión .png con el# nombre del archivo de origen y el nombre del partido# en cuestión separados por una barra baja.

if(Salida){png(paste(paste(N.archivo, N.Partido,sep='_'),'.png',sep=''));plot(performance(Datos.prediccion,"tpr","fpr"),main=N.Partido);abline(a=0,b=1);text(0.55,0.15,paste([email protected],

round ([email protected][[1]],4)),cex=0.7);dev.off();};

# Tan sólo nos queda devolver una lista con los elementos necesarios# para generar y analizar el modelo.

return(list("Ajuste" = Ajuste.Datos.step,"ResAjuste" = Datos.Sum,"Val" = Datos.Val,"ResiSign" = Val.Residuos.Sign,"MaxInflResi" = Val.Infl.Max,"Pred" = Datos.predicion.frame,"Tcc" = TasaClasCorrect,"AROC" = Area.ROC));

}

Esta función nos calcula todos los resultados obtenidos necesarios paraun correcto análisis del modelo. Los datos de entrada consisten en:

Pregunta. Se re�ere al nombre de la pregunta que corresponde a laque estamos tratando (Intención de voto). En nuestro primer ejemplose trata de P18.

N.archivo. Se re�ere al nombre del archivo (con extensión .csv) conel que trabajamos. En nuestro primer ejemplo se trata de DA3050.

Page 65: Modelización mediante regresión logística para estimación

Programación con R-project. 39

N.Partido. Partido político sobre el que se desea realizar el estudioindividual. En nuestro primer ejemplo se trata del PP.

Graphic. Registra TRUE o FALSE dependiendo de que se desee ono una representación grá�ca de la curva ROC asociada al modelo.

Salida. Registra TRUE o FALSE dependiendo de que se desee o noexportar la imagen de la curva ROC a un archivo con formato .png.

L.Preguntas. Consiste en un vector nominal que registra el nombreinequívoco de las variables que intervienen en el modelo.

Entre la lista de valores que devuelve la función tenemos:

Ajuste. Se trata del ajuste realizado utilizando las variables propor-cionadas.

ResAjuste. Esta salida nos ofrece un resumen de la salida anterior, através de la función summary().

Val. Nos ofrece los datos para la validación del modelo propuesto.

ResiSign. Nos ofrece los residuos signi�cativos que obtenemos me-diante la validación.

MaxIn�Resi. Nos ofrece la máxima in�uencia residual de los residuossigni�cativos anteriores.

Pred. Se trata de la predicción, según el modelo propuesto, de los datosque conocemos. Además tenemos los falsos positivos (fp), los falsosnegativos (fn), los verdaderos positivos (tp), los verdaderos negativos(tn), la especi�cidad, la sensibilidad y la tasa global de clasi�cacionescorrectas (CCR).

Tcc. Ésta es la máxima tasa de clasi�caciones correctas de este modelo.

AROC. Se trata del área bajo la curva ROC. Si es mayor que 0.7, elmodelo logit ajustado se considera preciso con capacidad de discrimi-nación alta.

5.3.2. Regresión logística múltiple.

Funciones auxiliares.

F.AjusteMulti. Esta función nos sirve para comprobar cuál es el ajus-te óptimo de variables a partir de la comparación de predicciones yobservaciones dato a dato.

Page 66: Modelización mediante regresión logística para estimación

40 5.3. Programación.

> F.AjusteMultifunction(N.Pregunta='P18',

N.archivo= 'DA3050',L.preguntas= c('P26', 'P27', 'P31', 'P40'),L.preguntas.Ini=1,stop=3){

L.preguntas.Ini.1=L.preguntas.Ini;

# En primer lugar, como medida de control,# comprobamos si aún quedan preguntas que# analizar, ya que, al tratarse de una función# recursiva, en algún momento dejaremos de tener# variables o llegaremos al máximo de elecciones# requerido en el enunciado (argumento 'stop').

if(length(L.preguntas)!=0 && stop!=0){

# Importamos los datos en estudio para poder# utilizarlos.

Datos<-read.csv(paste(N.archivo,"csv",sep='.'),header=T,sep=";");

names(Datos)[1]<-c('ESTU');

# En el siguiente vector almacenaremos el# ajuste de cada modelo generado.

v <- 1:length(L.preguntas);

# Mediante el siguiente bucle registramos los# datos que cada modelo de los posibles nos# ofrece y buscamos el mejor ajuste particular,# esto es, el que mejor se ajusta dato a dato.

for(i in 1: length(v)){if (L.preguntas.Ini[1]!=1){

mmodel<-multinom(formula=paste(N.Pregunta,

paste(L.preguntas.Ini,L.preguntas[i],sep='+'),

sep='~'),data= Datos);

}

Page 67: Modelización mediante regresión logística para estimación

Programación con R-project. 41

else{mmodel<-multinom(formula=paste(N.Pregunta,

L.preguntas[i], sep='~'),data= Datos);

};

Datos.pred<-predict(mmodel, Datos);

V=(Datos.pred[1:length(Datos.pred)] ==Datos[N.Pregunta][,1]);

v[i] <- sum(V)/length(V);};

# Por último, volvemos a llamar a la función de# forma recursiva. Le pasamos como argumentos# los dos primeros iguales y, de los siguientes:# del que corresponde a la lista de preguntas# extraemos el que maximiza el ajuste;# al que contempla la lista de variables que# serán usadas se le incluye la variable que# hemos extraído en el argumento anterior;# y, finalmente, se resta un paso de parada.

if (L.preguntas.Ini[1]!=1){L.preguntas.Ini.1 <-F.AjusteMulti(N.Pregunta,

N.archivo,L.preguntas[-which.max(v)],paste(L.preguntas.Ini,

L.preguntas[which.max(v)],sep='+'),

stop-1);}else{

L.preguntas.Ini.1 <-F.AjusteMulti(N.Pregunta,

N.archivo,L.preguntas[-which.max(v)],L.preguntas[which.max(v)],stop-1);

}};

Page 68: Modelización mediante regresión logística para estimación

42 5.3. Programación.

return(L.preguntas.Ini.1);}

La anterior es una función recursiva que elige una variable en cada paso,de entre todas las introducidas, y vuelve a realizar el mismo proceso conlas restantes hasta que llega a un número concreto de variables (stop)o hasta que no queda ninguna variable que elegir. Los argumentos quese le proporcionan son los siguientes:

• N.pregunta. Se re�ere al nombre de la pregunta que correspondea la que estamos tratando (Intención de voto). En nuestro primerejemplo se trata de P18.

• N.archivo. Se re�ere al nombre del archivo (con extensión .csv)con el que trabajamos. En nuestro primer ejemplo se trata deDA3050.

• L.preguntas. Consiste en un vector nominal que registra el nom-bre inequívoco de las variables que pueden intervenir en el modelo.

• L.preguntas.Ini. Se re�ere al modelo inicial sobre el que se es-tudia la in�uencia de las diferentes variables. Por defecto es iguala 1, pero ha sido necesario implementarlo como una variable más,debido a que tratamos con una función recursiva que va a haceruso del mismo con diferentes modelos de inicio.

• Stop. Es el número de variables máximo que intervendrán enel ajuste. Por defecto son tres, debido a que mayor cantidad devariables pueden ocasionar un error en la función multinom.

La única salida de la función anterior consiste en la lista de variablesque intervienen en un ajuste óptimo dato a dato.

F.Porcentaje. Esta función es una medida de control y calidad deajuste, nos devolverá el porcentaje de fallo global del ajuste multino-mial establecido.

F.Porcentaje =function(N.Pregunta= 'P18',

N.archivo= 'DA3050',Preguntas='P20+P24A'){

# Incluimos los datos con los que vamos a trabajar.

Datos<-read.csv(paste(N.archivo,"csv",sep='.'),header=T,sep=";");

Page 69: Modelización mediante regresión logística para estimación

Programación con R-project. 43

names(Datos)[1]<-c('ESTU');

# Efectuamos el cálculo del modelo elegido.

multi.modelo<- multinom(formula= paste(N.Pregunta,Preguntas, sep='~'),

data=Datos);

pred <- predict(multi.modelo, Datos);

# Calculamos el porcentaje de cada# partido involucrado en la predicción.

Porc.pred<- summary(pred)/sum(summary(pred));

# Calculamos el porcentaje de cada# partido involucrado en la muestra.

Porc.obs<- summary(Datos[N.Pregunta][,1])/sum(summary(Datos[N.Pregunta][,1]));

# Estudiamos la diferencia entre los# resultados anteriores según los datos# observados en la muestra.

Porc.dif<- abs(Porc.pred- Porc.obs)/Porc.obs;

# Registramos la media de los valores# del vector anterior

Porc.dif.max <- mean(Porc.dif);

# Devolvemos los resultados hallados.

return(list('Porcentaje.dif'=Porc.dif,'Porcentaje.max'=Porc.dif.max));

}

La anterior es una función que calcula la diferencia entre el total de losvalores ajustados y el total de los valores observados y nos la muestra enla proporción de dicha diferencia en función de los valores observados. Losargumentos que se le proporcionan son los siguientes:

Page 70: Modelización mediante regresión logística para estimación

44 5.3. Programación.

N.pregunta. Se re�ere al nombre de la pregunta que corresponde a laque estamos tratando (Intención de voto). En nuestro primer ejemplose trata de P18.

N.archivo. Se re�ere al nombre del archivo (con extensión .csv) conel que trabajamos. En nuestro primer ejemplo se trata de DA3050.

Preguntas. Consiste en un vector nominal que registra el nombreinequívoco de las variables que pueden intervenir en el modelo.

La interpretación de los resultados nos muestra que, para valores obte-nidos próximos a 1 el ajuste no es bueno (signi�caría que la diferencia entrelos valores predichos y los observados es del mismo orden que los valorespredichos), mientras que para valores próximos a 0 sí lo es (puesto la dife-rencia entre valores predichos y observados sería pequeña y, por tanto, seríansimilares).

Automatización.

Con todas las funciones anteriores seremos capaces de automatizar dosprocesos. El primero ajustará un modelo óptimo partiendo de las variablesque deseemos. El segundo nos proporcionará los totales poblacionales de lospartidos indicados a partir de un modelo y los datos poblacionales de los quedispongamos.

F.RegMultiple. Esta función nos servirá para ajustar el modelo segúnlas variables deseadas. Los argumentos que se utilizan son el nombrede la variable objetivo, N1.pregunta, el nombre del archivo en el quese encuentran los datos, N1.archivo, y una lista de preguntas que pue-den intervenir en el modelo, L1.preguntas. En cuanto a los argumentosGraphic y Salida, hacen referencia a la representación grá�ca de losdatos calculados en el mismo programa y exportándolos del mismo,respectivamente.

F.RegMultiple =function(N1.Pregunta='P18',

N1.archivo= 'DA3050',L1.preguntas= c('P26', 'P27', 'P31', 'P40'),Graphic= FALSE,Salida= FALSE){

# En primer lugar se importan los datos a utilizar.

Datos<-read.csv(paste(N1.archivo,"csv",sep='.'),

Page 71: Modelización mediante regresión logística para estimación

Programación con R-project. 45

header=T,sep=";");names(Datos)[1]<-c('ESTU');

# Utilizamos la función creada anteriormente para# seleccionar las variables, de entre las que# son introducidas como argumento, que mejor# ajustan el modelo.

Formula<-F.AjusteMulti(N.Pregunta=N1.Pregunta,N.archivo= N1.archivo,L.preguntas= L1.preguntas,L.preguntas.Ini=1,stop=3);

# Calculamos el modelo óptimo y lo devolvemos.

Modelo<- multinom(formula=paste(N1.Pregunta,Formula, sep='~'),

data=Datos);

# Registramos el porcentaje de fallo global# del modelo en cuestión.

Porc <- F.Porcentaje(N1.Pregunta, N1.archivo, Formula);

# Representamos un histograma con los datos.

if(Graphic){hist(Porc$Porcentaje.dif,

xlab='Porcentajes de fallo',ylab='Frecuencia',main=paste('Histograma. Modelo', Formula, sep=': '));

}

# Damos salida a ciertas representaciones gráficas# para los datos.

if(Salida){png(paste(paste(paste(N1.archivo,'histmultimodel',sep='_'),

Formula,sep='_'),'png',sep='.'));

hist(Porc$Porcentaje.dif,xlab='Porcentajes de fallo',ylab='Frecuencia',

Page 72: Modelización mediante regresión logística para estimación

46 5.3. Programación.

main=paste('Histograma. Modelo', Formula, sep=': '));dev.off();

png(paste(paste(paste(N1.archivo,'Cajabigotesmultimodel',sep='_'),Formula,sep='_'),'png',sep='.'));

boxplot(Porc$Porcentaje.dif,ylab='Porcentajes de fallo',main=paste('Caja con bigotes. Modelo', Formula, sep=': '));

dev.off();}

return(list('Modelo' = Modelo,'Porc.dif' = Porc$Porcentaje.dif,'Porc.dif.max' = Porc$Porcentaje.max));

}

A continuación presentamos dos funciones que nos servirán para rea-lizar la predicción del total poblacional en función de las distintas va-riables que compongan el modelo elegido. Para facilitar los cálculos depredicción, los datos poblacionales se establecerán por frecuencias decategorías cruzadas.

F.Paso. La primera función que implementamos para este propó-sito pone de mani�esto la teoría que abordamos en el capítulo tercero.Estamos calculando el estimador logístico de regresión generalizada deltotal para cada uno de los partidos.

F.Paso= function(Modelo,Partido,N.Pregunta,Datos.Pob,Datos.Muest){

# Esta función nos calcula la intención# de voto hacia un partido

## MUESTRA

# Como pi_i elegimos el cociente entre el# tamaño muestral y el tamaño de la población# considerada.

suma1 =

Page 73: Modelización mediante regresión logística para estimación

Programación con R-project. 47

sum((Datos.Muest[N.Pregunta] == Partido)-(predict(Modelo, Datos.Muest) == Partido))/(dim(Datos.Muest)[1]/sum(Datos.Pob[,1]));

## POBLACIÓN

suma2=0

for(i in 1:length(Datos.Pob[,1])){suma2= suma2+ Datos.Pob[i,1]*sum(predict(Modelo,

Datos.Pob)[i] == Partido);}

## Calculamos el resultado del estimador

res<- suma1 + suma2;

return(res);}

Los argumentos que intervienen son:

• Modelo: identi�ca al modelo de regresión logística múltiple queestamos utilizando para la extensión al total poblacional.

• Partido: identi�ca al partido político sobre el que se realiza laestimación.

• N.Pregunta: se re�ere al nombre que toma la variable objetivodel modelo, en el caso del estudio 3050 se trata de la variabledenominada P18.

• Datos.Pob: se trata de un vector que contiene los datos pobla-cionales. Para establecer los datos poblacionales se escribe la fre-cuencia de un caso concreto y se especi�ca dicho caso concreto.Los casos se formarán por el cruce de categorías de las variablesque intervengan en el modelo.

• Datos.Muest: identi�ca a los datos muestrales a través de losque se ha construido el modelo.

F.LGREG. Como extensión de la función anterior implementa-mos la función F.LGREG que nos servirá para calcular el total pobla-cional de todos los partidos que deseemos de forma simultánea. De losargumentos podemos destacar, como novedad de la función anterior,el denominado Partidos, una lista de los partidos de los que se desea

Page 74: Modelización mediante regresión logística para estimación

48 5.3. Programación.

conocer la extensión poblacional de la predicción.

F.LGREG =function(Modelo,

N.Pregunta,Datos.Muest,Partidos,Datos.Pob){

# Esta función comprueba todos# los partidos para las muestras dadas.

respartido<- 1: length(Partidos);

for (i in 1:length(Partidos)){

respartido[i]=F.Paso(Modelo,

Partidos[i],N.Pregunta,Datos.Pob,Datos.Muest);

names(respartido)[i]<- Partidos[i];};

return(respartido[1:length(respartido)]);}

Page 75: Modelización mediante regresión logística para estimación

Capítulo 6

Desarrollo de procedimientosprácticos.

A lo largo de este capítulo describiremos pormenorizadamente los pro-cesos que se han de seguir para el ajuste, análisis e interpretación de losdatos en estudio. Principalmente estos procesos nos han servido para gene-rar las funciones del capítulo anterior, por lo que conviene tenerlos presentes.

En primer lugar, desarrollaremos un modelo de regresión logística simple,teniendo en cuenta uno de los partidos en uno de los barómetros utilizados.

Para extender al caso múltiple utilizaremos un sólo barómetro con todoslos partidos que intervienen y prestaremos gran atención a la elección de lasvariables de información auxiliar.

Por último, englobaremos el estudio de todos los barómetros de los quedisponemos y generaremos, a partir de la misma lista de variables (a menudocon distinto nombre según el barómetro en cuestión), los modelos que ajus-ten cada uno de ellos. Sobre los resultados obtenidos realizaremos un análisisde evolución de la intención de voto a los diferentes partidos.

6.1. Enero de 2015. Estudio 3050.

Como primer contacto práctico con el desarrollo teórico planteado y eldesarrollo informático implementado, proponemos estudiar los datos del ba-rómetro del CIS de enero de 20151, cuyo código identi�cativo es 3050.

1Este cuestionario se encuentra adjunto a este documento, a partir de la página 119

49

Page 76: Modelización mediante regresión logística para estimación

50 6.1. Enero de 2015. Estudio 3050.

Para los datos mencionados utilizaremos las funciones implementadas eiremos analizando sus usos y necesidades con vistas a una mejor extensiónal total poblacional, que es, en de�nitiva, lo que buscamos con este tipo deestudios.

6.1.1. Modelo de regresión logística simple.

En primer lugar, nos centraremos en los modelos de regresión logísticasimple, partiendo del análisis de la intención de voto hacia un partido políti-co concreto en diversas situaciones, es decir, en modelos ajustados medianteel uso de diversas variables de información auxiliar.

La comparación de modelos generados a partir de diferentes cantidadesde variables de naturaleza diversa nos servirá para comprender la di�cultaden que radica buscar un modelo general para todas las predicciones.

Seremos testigos de cómo modelos que ajustan casi a la perfección laintención de voto hacia un partido concreto no nos servirán para predecir laintención de voto hacia el resto de partidos de manera satisfactoria.

Generación y análisis del ajuste.

En este modelo vamos a tener en cuenta las siguientes variables, cuyosnombres vienen determinados por el cuestionario adjunto, correspondienteal estudio mencionado:

P24A Voto ejercido en las pasadas elecciones. A priori, una buena aproxima-ción puede resultar al ajustar un modelo que contemple el voto ejercidocon anterioridad.

P27 Edad. La edad es uno de los factores clave para la evolución de laintención de voto de algunos partidos, por lo que puede ser bene�ciosapara ajustar el modelo.

P13 Cali�cación de la gestión del Gobierno del Partido Popular. Es ló-gico que habrá una dependencia mutua entre la intención de voto alPartido Popular y la opinión sobre su gestión.

Podemos entonces generar dicho modelo gracias a la función F.Modelocomo sigue

Page 77: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 51

> Model.ESTU3050.PP.132724A <-F.Modelo(N.Partido = 'PP',

L.preguntas =c ('P13', 'P27', 'P24A'),Graphic= FALSE)

Para poder interpretar el ajuste, tenemos que observar los coe�cientesdel modelo creado y las diferentes medidas calculadas.

1. En primer lugar tenemos ResAjuste, que nos proporcionará el resumendel modelo.

> Model.ESTU3050.PP.132724A$ResAjuste

Call:glm(formula = Y ~ P13 + P24A + P27, family = binomial, data = Datos)

Deviance Residuals:Min 1Q Median 3Q Max

-2.2377 -0.1374 -0.0425 -0.0001 3.2179

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.562e+01 2.358e+03 -0.007 0.9947P13Mala -4.102e+00 3.720e-01 -11.027 < 2e-16 ***P13Muy buena 1.817e+01 2.590e+03 0.007 0.9944P13Muy mala -5.655e+00 7.525e-01 -7.516 5.67e-14 ***P13N.C. -1.900e+01 3.289e+03 -0.006 0.9954P13N.S. -1.575e+00 7.695e-01 -2.046 0.0407 *P13Regular -1.762e+00 2.468e-01 -7.140 9.34e-13 ***P24ABNG -1.674e+00 4.092e+03 0.000 0.9997P24ACC-NC -2.299e+00 4.994e+03 0.000 0.9996P24ACiU 1.351e+01 2.358e+03 0.006 0.9954P24ACompromís-Equo -1.930e-01 3.394e+03 0.000 1.0000P24AEn blanco -2.059e+00 2.605e+03 -0.001 0.9994P24AERC 2.565e-02 2.891e+03 0.000 1.0000P24AFAC -7.273e-02 7.683e+03 0.000 1.0000P24AGeroa Bai -8.886e-01 4.060e+03 0.000 0.9998P24AIU (ICV en Cataluña) -7.855e-01 2.472e+03 0.000 0.9997P24AN.C. 1.410e+01 2.358e+03 0.006 0.9952P24ANo procede 1.396e+01 2.358e+03 0.006 0.9953P24ANo recuerda 1.320e+01 2.358e+03 0.006 0.9955P24AOtros partidos -1.661e+00 2.769e+03 -0.001 0.9995P24APNV 1.634e+01 2.358e+03 0.007 0.9945

Page 78: Modelización mediante regresión logística para estimación

52 6.1. Enero de 2015. Estudio 3050.

P24APP 1.627e+01 2.358e+03 0.007 0.9945P24APSOE 1.135e+01 2.358e+03 0.005 0.9962P24AUPyD -2.046e+00 2.620e+03 -0.001 0.9994P24AVoto nulo -2.034e+00 3.084e+03 -0.001 0.9995P27 2.207e-02 5.363e-03 4.114 3.88e-05 ***---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1911.43 on 2480 degrees of freedomResidual deviance: 739.75 on 2455 degrees of freedomAIC: 791.75

Number of Fisher Scoring iterations: 18

La interpretación de los coe�cientes que podemos ver vendría dada,según las tres variables en estudio, por:

a) P13. En cuanto a la opinión acerca de la labor del Gobierno pode-mos observar cómo el único coe�ciente que in�uye positivamenteen la intención de voto hacia el Partido Popular viene dado porla respuesta Muy buena, lo que nos indica que un individuo queconsidera muy buena la labor del Gobierno del Partido Populartiene mayor probabilidad de votar a dicho partido en las próximaselecciones. Sin embargo, el resto de respuestas predisponen a losvotantes a no decantarse por el Partido Popular.

b) P27. La edad, como ya adelantábamos, es un factor determinantepara predecir el voto al Partido Popular. En nuestro caso, alser el modi�cador o coe�ciente positivo y mayor que cero, pode-mos asegurar que cuanto mayor sea el votante, más probabilidadtendrá de votar a dicho partido.

c) P24A. Esta pregunta nos muestra la in�uencia que podría tenerun cambio de opinión por parte de un votante que ejerció su dere-cho a voto en las pasadas elecciones. Podemos mencionar algunosejemplos signi�cativos según el partido votado en las pasadas elec-ciones:

PP. Es lógico que, una persona que en las pasadas eleccionesvotó al Partido Popular, tenga mayor probabilidad de volver avotarlo.

PSOE. En éste caso nos muestra un coe�ciente positivo ymayor que cero que podemos interpretar como que el cambio de

Page 79: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 53

voto de una persona que votara en su día al Partido Socialis-ta Obrero Español, se podría producir con tendencia hacia elPartido Popular no negativa.

Geroa Bai. Aquél que votara en las pasadas elecciones a estepartido tiene una de las tendencias negativas más altas de votohacia el Partido Popular. Su coe�ciente es el menor de todoslos correspondientes a las categorías de la variable P24A. Dichosresultados predisponen a los individuos con tal característica a novotar al Partido Popular en las próximas elecciones.

2. En segundo lugar, estudiamos los residuos del ajuste del modelo pro-puesto por medio de los comandos declarados como ResiSign y Ma-xIn�Resi, que nos mostrarán, respectivamente, los residuos signi�cati-vos y la máxima in�uencia de éstos.

> Model.ESTU3050.PP.132724A$ResiSign

[1] 2.656016 -2.211750 5.556644 2.121472 3.931709 2.526071[7] 3.305469 -2.140448 -2.236067 -2.724618 -2.094259 2.263213[13] 3.378865 2.846995 4.449294 -2.140448 2.191112 -2.336165[19] -2.414293 4.498617 12.263326 2.418946 2.747096 -2.140448[25] 2.363315 3.453929 -1.983336 3.660356 -1.961909 3.771595[31] -2.049121 7.539597 5.202369 2.488363 -2.026939 -2.049121[37] -2.847357 2.526071 3.580709 3.580709 6.768676 -2.878913[43] -3.286433 4.352275 2.468135 2.263213 4.257386 -3.359810[49] 13.323033 -2.847357 2.941663 3.147662

> Model.ESTU3050.PP.132724A$MaxInflResi

[1] 0.09813091

De los resultados anteriores deducimos que el modelo se ajusta biendato a dato, lo cuál es algo deseable y necesario para tratar con unbuen modelo.

3. Por último, tenemos que comprobar que el área bajo la curva ROCdel modelo es aceptable (al menos superior a 0.7). Para ello recurrimosa la representación grá�ca de la curva y al cálculo del área mencionada.

> Model.ESTU3050.PP.132724A$AROC

[1] 0.9672

Page 80: Modelización mediante regresión logística para estimación

54 6.1. Enero de 2015. Estudio 3050.

Figura 6.1: Grá�ca de la curva ROC.Modelo P13+P24A+P27.

Este resultado nos muestra que tenemos entre manos un buen ajustede los datos, de modo que el modelo generado a partir de las tresvariables utilizadas es muy bueno. Podemos apreciarlo especialmenteen la Figura 6.1, donde tenemos la representación de la curva ROCasociada al mismo.

Para comprobar la efectividad del modelo propuesto, podemos recurrir agenerar un modelo con alguna variable menos y comprobar el área que quedabajo la curva ROC. Por ejemplo podemos generar un modelo con la edad yla opinión acerca de la labor del Gobierno, a saber, excluyendo la preguntaP24A, que registra el voto en las pasadas elecciones.

> Model.ESTU3050.PP.1327 <-F.Modelo(N.Partido = 'PP',

L.preguntas =c ('P27', 'P13'))

El área que queremos comparar viene dada por el valor

> Model.ESTU3050.PP.1327$AROC

[1] 0.9342

Observamos que el modelo de dos variables sigue siendo un buen modelocuyo ajuste es ligeramente inferior al anterior. En esta situación habrá quedecidir si la ligera pérdida de ajuste merece la pena en relación a la reducciónde variables y a la consecuente simpli�cación del modelo.

Page 81: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 55

Podemos pensar además en reducir este segundo modelo, dado que loaceptemos, excluyendo alguna de las dos variables que intervienen. Por ejem-plo, podemos generar un modelo que tan sólo dependa de la opinión del indi-viduo acerca de la labor del Gobierno, es decir, excluyendo la variable edad,P27.

> Model.ESTU3050.PP.13 <-F.Modelo(N.Partido = 'PP', L.preguntas =c ('P13'))

> Model.ESTU3050.PP.13$AROC

[1] 0.9148

De nuevo nos encontramos con un buen modelo, ligeramente peor ajus-tado que el propuesto en segundo lugar. También habrá que decidir si nosmerece la pena utilizarlo en relación a la pérdida sufrida y a la simpli�caciónconseguida.

Análisis de generalidad.

En el ejemplo anterior hemos logrado obtener un modelo de regresiónlogística simple para uno de los partidos a través de una sola variable auxi-liar. Esta situación sería deseable para todos los partidos, pero a menudo, sisucede éste fenómeno independientemente con cada uno de los modelos deregresión asociados a los diferentes partidos, es muy probable que no sucedacon el uso de la misma variable auxiliar. De modo que para predecir datosaislados suele ser muy efectivo, mientras que para tener en cuenta otras op-ciones no es muy recomendable.

Podemos utilizar la misma variable para comprobar el grado de ajuste demodelos correspondientes a diferentes partidos. Por ejemplo, generaremos unmodelo con únicamente la variable P13 para el Partido Socialista ObreroEspañol y para Podemos.

> Model.ESTU3050.PSOE.13 <-F.Modelo(N.Partido = 'PSOE',L.preguntas =c ('P13'))

> Model.ESTU3050.PSOE.13$AROC

[1] 0.5828

Page 82: Modelización mediante regresión logística para estimación

56 6.1. Enero de 2015. Estudio 3050.

> Model.ESTU3050.Podemos.13 <-F.Modelo(N.Partido = 'Podemos',L.preguntas =c ('P13'))

> Model.ESTU3050.Podemos.13$AROC

[1] 0.699

Como podemos observar, la misma variable que sirve para predecir conun alto grado de ajuste si una persona votará al Partido Popular en laspróximas elecciones, no resulta ni siquiera aceptable (pues ninguna de lasdos áreas es mayor que 0.7) para predecir si un individuo votará al PartidoSocialista Obrero Español o a Podemos.

Análisis de diversos modelos en función de los principales partidos.

A continuación vamos a analizar el área bajo la curva ROC de diver-sos modelos generados a partir de la combinación de las variables de las quedisponemos.

Este análisis, como reza su título, lo vamos a realizar sobre los partidosmás signi�cativos o mayoritarios de la escena política, a saber: Partido Po-pular, Partido Socialista Obrero Español, Podemos, Ciudadanos eIzquierda Unida.

La disposición grá�ca de las imágenes nos facilitará comprobar cómo seajustan en relación al resto y distinguiendo cada uno de los partidos políticosimplicados, a los que se les ha asignado un color según se viene realizandocomúnmente (azul al Partido Popular, rojo al Partido Socialista Obre-ro Español, morado a Podemos, naranja a Ciudadanos y amarillo aIzquierda Unida).

Page 83: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 57

1. En el conjunto de grá�cas organizado bajo el nombre de Figura 6.2:Mo-delos de regresión simple de Enero de 2015 con una variable, tenemosprecisamente una serie de modelos basados en la predicción otorgadapor una sola variable. Podemos destacar los siguientes:

Modelo P19, Figura 6.2j. Este modelo es el que mejor ajusta alos datos de todos los partidos en estudio de entre todos los que hemosgenerado en la Figura 6.2.La pregunta asociada a dicha variable (que podemos encontrar en elcuestionario anexo, página 119) registra la simpatía del entrevistadopor un partido determinado.Es lógico pensar que la respuesta a la pregunta P18, sobre a qué par-tido otorgará su voto, se ve directamente condicionada por el partidohacia el cuál el entrevistado se siente más afín.Esta pregunta, aunque ajuste bien las respuestas que buscamos, es in-viable a la hora de ser extendida al total poblacional.

Modelo P16, Figura 6.2h. Este modelo presenta una diferenciasustancial en el ajuste de los diferentes partidos. Mientras que para elPP establece un ajuste muy bueno, para el resto de partidos no resultaun ajuste aceptable.La pregunta asociada a esta variable registra la con�anza que inspirael Presidente del Gobierno, Mariano Rajoy, a los entrevistados.Es lógico pensar que una respuesta benevolente a esta pregunta iden-ti�ca a aquellos que tienen intención de votar al Partido Popularmientras que en las demás respuestas se verá entremezclado el electo-rado del resto de partidos.Éste es el caso también de los modelos P3, Figura 6.2c, y P13, Figura6.2f.

Modelo P1, Figura 6.2a. Este modelo nos muestra un mal ajus-te para todos los partidos, ya que el área bajo la curva ROC enningún caso excede el 0.7 (que considerábamos aceptable), por lo queno es necesario profundizar en su estudio.Es el caso también de otros modelos como el de P2, Figura 6.2b, P4,Figura 6.2d, P14, Figura 6.2g, y P27, Figura 6.2l.

Page 84: Modelización mediante regresión logística para estimación

58 6.1. Enero de 2015. Estudio 3050.

Figura 6.2: Modelos de regresión simple de Enero de 2015 con una variable.

(a) P1 (b) P2 (c) P3

(d) P4 (e) P5 (f) P13

(g) P14 (h) P16 (i) P17

(j) P19 (k) P20 (l) P27

Page 85: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 59

2. A continuación, bajo el nombre de Figura 6.3: Modelos de regresiónsimple de Enero de 2015 de dos variables, presentamos nuevos mode-los generados a partir de la combinación de dos variables. Podemosdestacar los siguientes:

Modelo P19+P27, Figura 6.3i. Sin duda alguna, es el mejorde los modelos de dos variables presentados, en gran parte debido a lain�uencia de la pregunta P19, que ya hemos visto anteriormente.La pregunta P27 registra la edad de los entrevistados, de donde pro-viene la ligera mejoría en las predicciones de intención de voto hacia elPartido Popular.No obstante, este modelo no nos otorga una ganancia su�ciente comopara incluir una nueva variable que hay registrar y ajustar.

Modelo P1+P2, Figura 6.3a. Este modelo no es bueno, perose observa cómo las dos variables juntas mejoran la estimación de laintención de voto hacia el Partido Popular hasta hacerla aceptable.Si bien por separado ninguna servía para predecir la intención de votohacia los partidos considerados, un modelo generado por ambas sirve,al menos, para predecir de manera aceptable la intención de voto haciaalguno de ellos.

Modelo P20+P31, Figura 6.3j. Este modelo se encuentra allímite, pues mientras PP e IU son predichos con un buen ajuste, Ciu-dadanos registra un mal ajuste y PSOE y Podemos parecen teneruno aceptable.A priori, esta combinación de variables no es la mejor que podemos to-mar, pero más adelante comprobaremos si combinándolas con algunaotra se nos presenta un modelo mejorado.

Page 86: Modelización mediante regresión logística para estimación

60 6.1. Enero de 2015. Estudio 3050.

Figura 6.3: Modelos de regresión simple de Enero de 2015 de dos variables.

(a) P1+P2 (b) P2+P3 (c) P3+P4

(d) P13+P14 (e) P13+P16 (f) P14+P27

(g) P16+P17 (h) P19+P20 (i) P19+P27

(j) P20+P31 (k) P20+P26 (l) P26+P27

Page 87: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 61

3. Por último, bajo el título de Figura 6.4: Modelos de regresión simple deEnero de 2015 con más de dos variables, presentamos nuevos modelosgenerados a partir de la combinación de más de dos variables. Podemosdestacar los siguientes modelos:

Modelo P19+P20+P26+P27, Figura 6.4i. Éste es el mejormodelo con diferencia de entre los que hemos propuesto. La precisiónes muy alta y sólo usa 4 variables de información auxiliar.Una gran parte del éxito de este modelo reside en considerar la variableP19, que nos ha otorgado los mejores modelos en los casos de una ydos variables.

Modelo P1+P2+P3+P4, Figura 6.4a. Ya veníamos comen-tando que los modelos generados con éstas preguntas no estaban bienajustados. Finalmente podemos decir que ni siquiera la combinaciónde ellas aporta mejoría alguna sobre el ajuste, por lo que es precisodescartar su uso para próximos modelos.

Modelo P20+P26+P31, Figura 6.4l. En este modelo, deriva-do del modelo P20+P31, no parece tener un mal ajuste de los datos,sin embargo, el hecho de estar construido por tres variables y no pre-sentar una mejoría respecto al modelo primigenio, nos hace plantearnosque quizá sería mejor mantener el modelo de dos variables.

Page 88: Modelización mediante regresión logística para estimación

62 6.1. Enero de 2015. Estudio 3050.

Figura 6.4: Modelos de regresión simple de Enero de 2015 con más de dosvariables.

(a) P1+P2+P3+P4 (b) P1+P2+P26+P27 (c) P3+P5+P6

(d) P3+P4+P27+P20 (e) P5+P6+P13+P14 (f) P13+P16+P20

(g) P14+P27+P30 (h) P16+P17+P20 (i) P19+P20+P26+P27

(j) P19+P27+P31 (k) P20+P30+P31 (l) P20+P26+P31

Page 89: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 63

6.1.2. Modelo de regresión logística múltiple.

Del mismo modo que en el ajuste de modelos de regresión logística sim-ple, tendremos que tener en cuenta las variables que deben intervenir en elmodelo. Tendremos que tener en cuenta la capacidad predictiva de las va-riables que intervengan en el modelo en relación a los partidos involucrados,esto viene al caso por el motivo que expusimos en el segundo subapartadodel apartado anterior.

Para dar un ejemplo de construcción nos centraremos en los datos de lamisma muestra que utilizamos en el apartado anterior, a saber, los datos delbarómetro correspondiente al código 3050, que fue realizado en Enero de2015.

Generación y análisis del ajuste.

En primer lugar, tenemos que exponer las variables auxiliares que vamosa utilizar, preferiblemente aquéllas que sean más in�uyentes en la predicciónbuscada. Después, gracias a la función que creamos en el capítulo anterior,elegiremos las que mejor ajustan el modelo múltiple buscado.

P20 Auto posicionamiento ideológico de índole política. Esta variable nosda información acerca de la de�nición política personal del encuestadoutilizando los términos izquierda y derecha para referirse a ideologíapolítica. Además, se establece una escala en la que cada individuoposiciona su ideología.

P24A Voto en pasadas elecciones. Recoge la información acerca del voto ejer-cido en las pasadas elecciones que, del mismo modo que en los modelosde regresión logística simple, se postula como una de las variables mássigni�cativas a la hora de predecir la intención de voto en las próximasElecciones Generales.

P34 Situación laboral. Esta variable nos proporciona información sobre lasituación laboral de los individuos encuestados. Recoge si el individuotrabaja, es pensionista, está parado, es estudiante, trabaja en su do-micilio de forma no remunerada, etc. Ésta será una de las variablesde las que podamos conocer datos poblacionales, por lo que resultainteresante estudiar su comportamiento.

P27 Edad. Incluimos también la edad de las personas encuestadas con moti-vo de observar el comportamiento de diversas variables de informaciónauxiliar, de las que sólo algunas serán signi�cativas.

Page 90: Modelización mediante regresión logística para estimación

64 6.1. Enero de 2015. Estudio 3050.

Una vez que tenemos decididas las variables que pueden in�uir más ennuestro modelo, vamos a generarlo sin tener en cuenta la función F.AjusteMultique creamos anteriormente.

> P34272024A <-multinom(formula=P18~P34+P27+P20+P24A,

data=Datos.3050, model=TRUE)

A continuación utilizamos la función F.AjusteMulti para averiguar cuáles el mejor modelo de tres variables de todos los posibles con las variablespropuestas.

> F.AjusteMulti(N.Pregunta='P18',L.preguntas=c('P20','P24A','P34','P27'),N.archivo= 'DA3050')

[1] "P24A+P20+P34"

De modo que generamos el modelo con las variables que se nos indican.

> P342024A <- multinom(formula=P18~P34+P20+P24A, data=Datos.3050)

A partir de este momento sabemos que el modelo elegido es el que mejorajusta, dato a dato, la muestra que tenemos, pero ¾De qué grado será dichoajuste?, ¾Hasta qué punto nos servirá para ajustar un modelo global?

Las preguntas anteriores no son triviales, por lo que tendremos que abor-darlas con cautela. En primer lugar, nos centraremos en la calidad del ajusteparticularizando las respuestas, es decir, veremos si dato a dato el ajuste sepostula �el a los datos. Para ello seguimos el mismo procedimiento que enla función F.AjusteMulti.

> Datos.prediccion<-predict(P342024A,Datos.3050)> V<-Datos.prediccion==Datos.3050$P18> sum(V)/length(V)

[1] 0.4623136

Mientras que el modelo anterior, formado por las mismas variables y unavariable más nos proporciona el siguiente ajuste dato a dato.

Page 91: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 65

> Datos.prediccion<-predict(P34272024A,Datos.3050)> V<-Datos.prediccion==Datos.3050$P18> sum(V)/length(V)

[1] 0.4675534

Podemos observar que el modelo que utiliza mayor cantidad de variablestiene un ajuste ligeramente superior. Este suceso no entra en contradiccióncon la salida obtenida por medio de la función F.AjusteMulti, ya que conésta pretendíamos encontrar un modelo de tres variables de entre las queteníamos con el mejor ajuste.

Sorprendentemente, el modelo que hemos elegido por ajustarse mejor da-to a dato nos proporciona un ajuste a tal efecto de menos del 50 %, por locual se supondría, a priori, un mal modelo. La interpretación de tal resul-tado no se realiza del mismo modo que con modelos de regresión logísticasimple, pues nosotros no buscamos predecir �elmente el voto personalizado,ya que, como hemos visto en el apartado anterior, según la variable auxiliarque usemos, cada predicción se ve ajustada de mejor o de peor manera.

Nuestra intención primordial consiste en estudiar el ajuste global de lamuestra para poder extenderlo al total poblacional. Así pues, en nuestro es-tudio tendremos que elegir aquél modelo que mejor ajuste globalmente losdatos. Gracias a la función F.RegMultiple podemos estudiar el ajuste globaldel modelo propuesto.

> F.RegMultiple(N1.Pregunta='P18',N1.archivo= 'DA3050',Salida=TRUE,L1.preguntas=c('P24A','P20','P34'))

$Porc.dif

Amaiur BNG0.50000000 0.60000000

CC CiU0.66666667 0.35714286Ciudadanos Compromís-Equo0.96153846 0.12500000En blanco ERC

0.57553957 0.21212121FAC Geroa Bai

Page 92: Modelización mediante regresión logística para estimación

66 6.1. Enero de 2015. Estudio 3050.

0.00000000 0.25000000IU (ICV en Cataluña) N.C.

0.20224719 0.53333333No sabe todavía No votará

0.08123791 0.25222552Otros partidos PNV

0.70833333 0.00000000Podemos PP

0.07322176 0.28660436PSOE UPN

0.28664495 1.00000000UPyD Voto nulo

0.43636364 0.50000000

$Porc.dif.max

[1] 0.3912828

El ajuste que presentamos parece un buen ajuste debido a que la mediade fallo global se sitúa por debajo de 0.4, donde recordemos que aquellosvalores más próximos a cero indican un mejor ajuste.

Si observamos el porcentaje de fallo de los partidos de manera detallada,podemos comprobar que, exceptuando a Ciudadanos, UPN, BNG y CC,todos los demás signi�cativos tienen un fallo global inferior al 50 %, lo quenos muestra que, a la hora de ser predichos, los resultados de los mismosserán más �ables que los de los partidos mencionados. Grá�camente presen-tamos un histograma que recoge los datos presentados en la Figura 6.5b.

En la Figura 6.5a podemos ver que el modelo que presentamos es bueno,ya que el ajuste se organiza en torno al 0.3 aproximadamente, que nos ofreceuna visión mucho más realista que la media de los modelos que intervienen.La diferencia entre el fallo global medio y esta medida aproximada reside enlos valores aislados, en nuestro caso, principalmente aquellos que valen 1.

Al igual que en el apartado anterior, es factible pensar en qué sucederási suprimimos alguna de las tres variables que hemos usado. La primeracomprobación que debemos realizar consiste en comprobar el ajuste dato adato, que ya sabemos que será menor que el anterior.

> P272024A<-multinom(formula=P18~P20+P24A,data=Datos.3050)

> Datos.prediccion<-predict(P272024A,Datos.3050)

Page 93: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 67

Figura 6.5: Modelo P34+P20+P24A.Análisis del ajuste.

(a) Dispersión. (b) Calidad del ajuste.

> V<-Datos.prediccion==Datos.3050$P18> sum(V)/length(V)[1] 0.4546554

El ajuste dato a dato es ligeramente peor que el anterior, pero aún asíseguirá siendo aceptable siempre que el ajuste global sea un buen ajuste.

> F.RegMultiple(N1.Pregunta='P18',N1.archivo= 'DA3050',Salida=TRUE,L1.preguntas=c('P24A','P20'))

$Porc.dif

Amaiur BNG0.35714286 0.60000000

CC CiU0.16666667 0.45238095Ciudadanos Compromís-Equo1.00000000 0.25000000En blanco ERC

0.48920863 0.15151515FAC Geroa Bai

0.00000000 0.75000000IU (ICV en Cataluña) N.C.

0.32584270 0.96666667No sabe todavía No votará

0.09090909 0.21958457Otros partidos PNV

0.75000000 0.07142857

Page 94: Modelización mediante regresión logística para estimación

68 6.1. Enero de 2015. Estudio 3050.

Figura 6.6: Modelo P20+P24A.Análisis del ajuste.

(a) Dispersión. (b) Calidad del ajuste.

Podemos PP0.05648536 0.32087227

PSOE UPN0.33224756 1.00000000

UPyD Voto nulo0.47272727 0.75000000

$Porc.dif.max

[1] 0.4351672

En este caso, al extraer una variable, hemos podido comprobar que elajuste global del modelo ha empeorado ligeramente. Si bien no hemos tenidoun descenso vertiginoso de la bondad de ajuste, sí podemos ver cómo algu-nos de los partidos han experimentado un cambio, en algunos casos a mejor,como Podemos o el PSOE, y en otros a peor, como el PP o Ciudadanos.

En la Figura 6.6b podemos comprobar cómo se organizan los datos grá-�camente, mientras que en la Figura 6.6a podemos observar el grado dedispersión que tienen. En este caso tenemos una media de datos centralesaproximada (indicada por la línea gruesa horizontal en el grá�co de disper-sión de la Figura 6.6a) similar a la del modelo anterior, mientras que losvalores ya no se encuentran tan próximos.

Tal y como hacíamos para los modelos simples, será conveniente decidirsi merece la pena la pérdida de información frente a la simpli�cación delmodelo.

Page 95: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 69

Análisis de diversos modelos en función de los principales partidos.

Del mismo modo que en el apartado anterior, en lo que sigue estudiare-mos el ajuste de diversos modelos generados usando distintas variables. Paraello hemos hecho uso de la función F.RegMultiple para obtener los ajustesindividuales de cada partido.

Es conveniente recordar que, según la función en uso, el ajuste es mejorcuanto más próximo se encuentre de cero el valor y peor será cuanto más seaproxime a uno. Sin embargo, para visualizar con mayor facilidad los buenosy los malos ajustes, hemos invertido dichos valores, de modo que en las Figu-ras que se presentan, los buenos ajustes vienen dados por valores próximosa uno.2

En lo demás, la estructura es idéntica al del homónimo subapartado delapartado anterior.

2Los valores que aparecen negativos vienen al caso debido a que el número de datospredichos excede en más del doble al de casos reales de la muestra, de donde se superala unidad al realizar el cociente entre la diferencia mencionada y el número de valoresobservados.

Page 96: Modelización mediante regresión logística para estimación

70 6.1. Enero de 2015. Estudio 3050.

1. En el conjunto de �guras organizado bajo el nombre de Figura 6.7:Mo-delos de regresión múltiple de Enero de 2015 con una variable, tenemosprecisamente una serie de modelos múltiples basados en la predicciónotorgada por una sola variable. Podemos destacar los siguientes:

Modelo P1, Figura 6.7a. Este modelo, como muchos otros deuna variable, ajustan de forma pésima los datos en general. En las úni-cas predicciones en las que podemos depositar algo de con�anza son enlas referentes al Partido Popular y a Podemos. Lógicamente ésteno es un buen modelo para predecir la intención de voto.

Modelo P19, Figura 6.7j. Nuevamente el modelo ajustado te-niendo en cuenta la información registrada por la variable P19 resultaser el mejor de todos los presentados.

Modelo P20, Figura 6.7k. Este modelo entra dentro de los lí-mites generales aceptables, teniendo en cuenta que Ciudadanos e Iz-quierda Unida no se ven siquiera representados en él.

Page 97: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 71

Figura 6.7: Modelos de regresión múltiple de Enero de 2015 con una variable.

(a) P1 (b) P2 (c) P3

(d) P4 (e) P5 (f) P13

(g) P14 (h) P16 (i) P17

(j) P19 (k) P20 (l) P27

Page 98: Modelización mediante regresión logística para estimación

72 6.1. Enero de 2015. Estudio 3050.

2. A continuación, bajo el nombre de Figura 6.8: Modelos de regresiónmúltiple de Enero de 2015 de dos variables, presentamos nuevos mo-delos múltiples generados a partir de la combinación de dos variables.Podemos destacar los siguientes:

Modelo P13+P14, Figura 6.8d. Observamos cómo este modelonos puede servir para predecir �elmente los votos dirigidos al PartidoPopular y al Partido Socialista, que son los dos partidos mayorita-rios a fecha del estudio en cuestión.Es el caso también de los modelos P14+P27, Figura 6.8f, P16+P17,Figura 6.8g, y P20+P31, Figura 6.8j, donde aparece también una pre-dicción aceptable para Podemos.

Modelo P19+P20, Figura 6.8h. Derivado del modelo P19, esde esperar que mantenga la bondad de ajuste del mismo, si bien algomejorada en lo que respecta a Ciudadanos.Éste es también el caso del otro modelo en el que interviene dicha va-riable, P19+P27, Figura 6.8i, que mejora levemente la estimación conrespecto al Partido Popular.

Page 99: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 73

Figura 6.8: Modelos de regresión múltiple de Enero de 2015 de dos variables.

(a) P1+P2 (b) P2+P3 (c) P3

(d) P13+P14 (e) P13+P16 (f) P14+P27

(g) P16+P17 (h) P19+P20 (i) P19+P27

(j) P20+P31 (k) P20+P26 (l) P26+P27

Page 100: Modelización mediante regresión logística para estimación

74 6.1. Enero de 2015. Estudio 3050.

3. Por último, bajo el título de Figura 6.9: Modelos de regresión múlti-ple de Enero de 2015 con más de dos variables, presentamos nuevosmodelos múltiples generados a partir de la combinación de más de dosvariables. Podemos destacar los siguientes:

Modelo P16+P17+P20, Figura 6.9h. Este modelo nos mues-tra el mejor ajuste para el Partido Popular, Partido Socialista yPodemos utilizando variables distintas de la ya notoria en nuestroanálisis P19. Sin embargo, el ajuste de Ciudadanos y el de Izquier-da Unida resultan pésimos.

Modelo P19+P20+P26+P27, Figura 6.9i. Éste resulta ser elmejor de los modelos ajustados, con el inconveniente de estar genera-do por cuatro variables de información auxiliar. En esta línea tenemostambién el modelo P19+P27+P31, Figura 6.9j, que aun perdiendobondad de ajuste nos ofrece alta precisión en la estimación global.

Page 101: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 75

Figura 6.9: Modelos de regresión múltiple de Enero de 2015 con más de dosvariables.

(a) P1+P2+P3+P4 (b) P1+P2+P26+P27 (c) P3+P5+P6

(d) P3+P4+P27+P20 (e) P5+P6+P13+P14 (f) P13+P16+P20

(g) P14+P27+P30 (h) P16+P17+P20 (i) P19+P20+P26+P27

(j) P19+P27+P31 (k) P20+P30+P31 (l) P20+P26+P31

Page 102: Modelización mediante regresión logística para estimación

76 6.2. Generalización.

6.2. Generalización.

Con respecto a lo que hemos visto a lo largo de los apartados anteriores,es necesario estructurar un modelo de regresión logística múltiple que nossirva para extender la información que conocemos al total poblacional. Paraello tenemos que seleccionar las variables que serán factibles de usar.

6.2.1. Elección de variables.

En cuanto a la elección de variables de información auxiliar, a pesar deque numerosas son signi�cativas para la predicción de la intención de voto,al no tener datos poblacionales de cada una de ellas particularizadas o de ungrupo de las mismas de forma cruzada, no podemos efectuar modelos a laligera.

Nuestro primer paso consiste en acceder al Instituto Nacional de Es-tadística (INE)3 y descargar los datos poblacionales cruzados relacionadoscon las variables que tenemos. A partir del momento en que conozcamos losmodelos que podemos llevar a término, los generaremos y analizaremos, bus-cando el que mejor ajuste los datos y que, en consecuencia, nos sirva parapredecir más �elmente el resultado en las próximas elecciones.

Voto realizado en las pasadas elecciones.

Es lógico pensar que el voto que una persona efectuó en las pasadas elec-ciones condiciona, en mayor o menor medida, la intención de voto de caraa las próximas elecciones. Además, este tipo de variable de información au-xiliar es conocido, ya que, gracias a los registros y los resultados electoralespúblicos de las pasadas elecciones, tenemos toda la información necesariapara poder extender nuestros resultados al total poblacional.

En el Cuadro 6.14 mostramos los resultados electorales mencionados, delos cuáles haremos uso más adelante.

En este caso también podríamos estudiar la intención de voto a nivel au-

3Accediendo a la siguiente dirección web podemos encontrar muchas de las variablesque tenemos cruzadas, basándose en la población española, de forma que podamosutilizarlas en nuestro ajuste.http://www.ine.es/dynt3/inebase/index.htm?type=pcaxis&path=%2Ft38%2Fp604%2Fa2000&�le=pcaxis&N=&L=0.

4Datos tomados de la dirección web de El País.http://resultados.elpais.com/elecciones/2011/generales/congreso/

Page 103: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 77

Partido político Escaños Votos registrados PorcentajePP 186 10830693 44.62%PSOE 110 6973880 28.73%CIU 16 1014263 4.17%IU 11 1680810 6.92%AMAIUR 7 333628 1.37%UPyD 5 1140242 4.69%PNV 5 323517 1.33%ERC 3 256393 1.05%BNG 2 183279 0.75%CC-NC-PNC 2 143550 0.59%COMPROMÍS-Q 1 125150 0.51%FAC 1 99173 0.4%GBAI 1 42411 0.17%EQUO 0 215776 0.88%PACMA 0 101557 0.41%Eb 0 97706 0.4%PA 0 76852 0.31%PxC 0 59781 0.24%P.R.C. 0 43903 0.18%

Cuadro 6.1: Resultado de las Elecciones Generales de 2011 al Congreso delos Diputados en España.

Page 104: Modelización mediante regresión logística para estimación

78 6.2. Generalización.

tonómico y provincial, ya que los datos o�ciales nos permiten realizar dichoanálisis, pero vamos a centrar nuestro estudio referente al modelo propuestoen toda España, puesto que las elecciones que nos interesan son las Eleccio-nes Generales del 20 de diciembre de 2015.

Encuesta de población activa.

Hay numerosos registros de información auxiliar acerca de la poblaciónactiva en España. Debido a que necesitamos evaluar las variables de las quedisponemos, nos centraremos en la parte de dichos registros que se realizancruzando las variables mencionadas.

En el Cuadro 6.2 podemos encontrar la ocupación de los individuos ma-yores de 16 años a lo largo del año 2015 según su sexo. Este cuadro nos serviráa la hora de utilizar la información auxiliar proporcionada, por ejemplo, porla variable P34 en el estudio ES3050, que hemos utilizado como ejemplo alo largo del trabajo.

Page 105: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 79

Año 20151er Trimestre 2o Trimestre 3er Trimestre 4o Trimestre

Población mayor de 16 añosVarones 18741.3 18747.2 18757.3 18767.1Mujeres 19748.3 19739.6 19739.3 19750.1

Ambos sexos 38489.6 38486.8 38496.6 38517.2

ActivosVarones 12250.9 12355.3 12349.9 12322.4Mujeres 10622.8 10544.2 10665.7 10577.0

Ambos sexos 22873.7 22899.5 23015.5 22899.4

OcupadosVarones 9863.3 9896.5 9761.4 9520.2Mujeres 8230.8 8152.2 8105.2 7934.6

Ambos sexos 18094.2 18048.7 17866.5 17454.8

ParadosVarones 2387.6 2458.8 2588.5 2802.3Mujeres 2391.9 2392.0 2560.5 2642.4

Ambos sexos 4779.5 4850.8 5149.0 5444.6

InactivosVarones 6490.4 6391.8 6407.5 6444.7Mujeres 9125.6 9195.4 9073.6 9173.1

Ambos sexos 15615.9 15587.3 15481.1 15617.8

Cuadro 6.2: Población mayor de 16 años por actividad económica y sexo(Miles de personas).

Page 106: Modelización mediante regresión logística para estimación

Año

2015

Varones

Mujeres

Mes

16-24años

25-44años

45omás

años

Total

16-24años

25-44años

45omás

años

Total

Enero

201407

978194

958236

2137837

183525

1168167

1036162

2387854

Febrero

202455

966626

948899

2117980

185046

1170164

1038963

2394173

Marzo

204543

938010

938231

2080784

185990

1149159

1036006

2371155

Abril

198512

890851

915041

2004404

183500

1118545

1026567

2328612

Mayo

192103

846336

892721

1931160

178638

1088940

1016293

2283871

Junio

180155

814163

883380

1877698

164309

1064576

1013721

2242606

Julio

174117

787973

872053

1834143

161358

1049039

1001736

2212133

Agosto

171633

795375

878260

1845268

162808

1058109

1001770

2222687

Septiembre

182543

793726

872972

1849241

176892

1060436

1007473

2244801

Octub

re190335

819522

885649

1895506

182052

1076816

1021995

2280863

Noviembre

187602

808975

875923

1872500

179545

1074074

1023179

2276798

Diciembre

176654

812228

886353

1875235

165523

1039936

1012814

2218273

Cuadro6.3:

Paroregistrado

por

elIN

EM

por

edades

(no.

depersonas).

Page 107: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 81

En el Cuadro 6.3 podemos encontrar los datos referentes al paro regis-trado por el Instituto Nacional de Empleo (INEM) a lo largo del año2015, clasi�cado por edades. En la misma línea que el cuadro anterior, éstenos proporcionará información sobre la población activa.

6.2.2. Modelo de regresión logística múltiple.

A continuación, elaboraremos los modelos de regresión logística múltiplesegún las variables cruzadas de las que disponemos en el apartado anterior.Posteriormente analizaremos cuál de los modelos propuestos ajusta global-mente la muestra de mejor forma y lo extenderemos al total poblacional.

Para este apartado seguimos utilizando los datos recogidos en enero de2015.

Voto en las pasadas elecciones.

En primer lugar, gracias al escrutinio realizado en las Elecciones Genera-les de 2011, tenemos la información completa acerca del número de individuosque votó a cada uno de los partidos que se presentaron. Esta información nosservirá para extender un modelo que generemos a partir de la variable P24A.

Dada la imposibilidad de cruzar el resultado de dichas observaciones po-blacionales con otras relacionadas con las variables de las que disponemosen la muestra, tenemos que generar un modelo que contemple tan sólo dichavariable.

> Model.3050.P24A <-F.RegMultiple(N1.Pregunta='P18',

N1.archivo= 'DA3050',Salida= TRUE,L1.preguntas= c('P24A'))

Con lo que obtenemos la siguiente salida para comprobar el ajuste de losporcentajes globales de ajuste con respecto a la muestra.

> Model.3050.P24A$Porc.dif

Amaiur BNG

Page 108: Modelización mediante regresión logística para estimación

82 6.2. Generalización.

0.3571429 1.0000000CC CiU

0.1666667 0.4523810Ciudadanos Compromís-Equo1.0000000 1.0000000En blanco ERC0.3021583 0.1515152

FAC Geroa Bai1.0000000 1.0000000

IU (ICV en Cataluña) N.C.1.0000000 1.0000000

No sabe todavía No votará0.5802708 0.7537092

Otros partidos PNV1.0000000 0.5000000Podemos PP

0.4832636 0.7912773PSOE UPN

0.7589577 1.0000000UPyD Voto nulo

0.2727273 1.0000000

> Model.3050.P24A$Porc.dif.max

[1] 0.7077304

Podemos observar la representación de dichos resultados en el histogramade la Figura 6.10b y en el grá�co de dispersión de la Figura 6.10a. Además,en los mismos términos que en los apartados anteriores, tenemos en la Figura6.11 el ajuste global de este modelo5.

Podemos comprobar con un primer vistazo a los datos que el ajuste no esbueno, en primer lugar, porque la media de fallo global es del 70 %, lo cual esun indicativo bastante claro de un pésimo ajuste. Si además observamos losdatos de manera detallada, podemos observar que los únicos partidos cuyaintención de voto predicha tiene un fallo global inferior al 50 % son Pode-mos (que no dista tanto de dicha cota), Amaiur, CiU y CC.

Es importante mencionar que a la hora de predecir resultados electoralessería preferible, ya que un ajuste perfecto sería inviable, predecir con mayorexactitud la intención de voto hacia aquellos partidos con un electorado más

5Recordemos que los valores representados en la grá�ca corresponden a la diferenciaentre la unidad y los valores que se representan en el histograma

Page 109: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 83

Figura 6.10: Modelo P24A.Análisis del ajuste.

(a) Dispersión. (b) Calidad del ajuste.

Figura 6.11: Modelo P24A.Análisis del ajuste global.

amplio. En esta línea, encontramos escasa precisión con respecto al PP yal PSOE, mientras que no existe ninguna con respecto a Ciudadanos eIzquierda Unida.

Encuesta de población activa.

Para un modelo que contemple los datos muestrales homólogos a los es-tablecidos entre los Cuadros 6.2 y 6.3, tendremos que recurrir a la preguntaP34, que nos habla sobre la situación laboral en que se encuentran los en-cuestados.

Para poder cruzar la variable propuesta como principal para este ajustecon la variable sexo (ya que en los cuadros mencionados encontramos dichoscruces y podremos utilizarlos), tendremos que utilizar la P26. Además, encuanto al desempleo, hemos establecido también categorías de edad, de mo-

Page 110: Modelización mediante regresión logística para estimación

84 6.2. Generalización.

do que estudiaremos el uso de la variable P27, que contempla la edad de losencuestados.

A partir de lo que conocemos podemos generar dos modelos: uno depen-diente de las variables P34 y P26, que tendrá como datos poblacionales losreferentes al Cuadro 6.2; y otro que incluya la variable P27 en el caso enque la variable P34 contemple parado como respuesta a la situación laboraldel encuestado. Este último utilizaría principalmente el Cuadro 6.3.

P34+P26: Recurrimos nuevamente a la función implementada con el nombre deF.RegMultiple.

> Model.3050.P3426 <-F.RegMultiple(N1.Pregunta='P18',N1.archivo= 'DA3050',L1.preguntas= c('P34', 'P26'),Salida= TRUE)

De donde se obtienen los siguientes porcentajes de fallo global por cadauno de los partidos. Para un análisis visual podemos observar el histo-grama de la Figura 6.12b y el grá�co de dispersión de los mismos dela Figura 6.12a. Además, presentamos el ajuste global de este modelo,identi�cado por colores, en la Figura 6.13.

> Model.3050.P3426$Porc.dif

Amaiur BNG1.0000000 1.0000000

CC CiU1.0000000 1.0000000Ciudadanos Compromís-Equo1.0000000 1.0000000En blanco ERC0.9928058 1.0000000

FAC Geroa Bai1.0000000 1.0000000

IU (ICV en Cataluña) N.C.1.0000000 1.0000000

No sabe todavía No votará1.1992263 1.0000000

Otros partidos PNV1.0000000 1.0000000

Page 111: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 85

Figura 6.12: Modelo P26+P34. Análisis del ajuste.

(a) Dispersión. (b) Calidad del ajuste.

Podemos PP0.9958159 0.2056075

PSOE UPN0.9934853 1.0000000

UPyD Voto nulo1.0000000 1.0000000

> Model.3050.P3426$Porc.dif.max

[1] 0.9721337

Tanto con los datos como con los grá�cos que presentamos, llegamosa la conclusión que el ajuste dado por estas dos variables es pésimo.El único partido que nos muestra un buen ajuste es el PP. Para unmodelo de regresión logística simple, podríamos utilizar estas variablespara el partido mencionado, pero para un modelo de regresión logísticade respuesta múltiple como el que queremos generar, las variables endiscusión no nos sirven.

P34+P26+P27: Realizamos el mismo análisis en el caso del uso de las tres variables.

Model.3050.P342627 <-F.RegMultiple(N1.Pregunta='P18',

N1.archivo= 'DA3050',L1.preguntas= c('P34', 'P26', 'P27'),Salida= TRUE)

De donde obtenemos los siguientes porcentajes de fallo global, repre-sentados mediante el histograma de la Figura 6.14b y el grá�co dedispersión de la Figura 6.14a. Además, como venimos haciendo, pre-sentamos la grá�ca del ajuste global del modelo en la Figura 6.15.

Page 112: Modelización mediante regresión logística para estimación

86 6.2. Generalización.

Figura 6.13: Modelo P26+P34.Análisis del ajuste global.

Model.3050.P342627$Porc.dif

Amaiur BNG1.0000000 1.0000000

CC CiU1.0000000 1.0000000Ciudadanos Compromís-Equo1.0000000 1.0000000En blanco ERC0.9928058 1.0000000

FAC Geroa Bai1.0000000 1.0000000

IU (ICV en Cataluña) N.C.1.0000000 1.0000000

No sabe todavía No votará0.9129594 0.9198813

Otros partidos PNV1.0000000 1.0000000Podemos PP

1.1276151 0.3925234PSOE UPN

1.0000000 1.0000000UPyD Voto nulo

1.0000000 1.0000000

> Model.3050.P342627$Porc.dif.max

[1] 0.9702629

Page 113: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 87

Figura 6.14: Modelo P26+P27+P34.Análisis del ajuste.

(a) Dispersión. (b) Calidad del ajuste.

Figura 6.15: Modelo P26+P27+P34.Análisis del juste global.

Page 114: Modelización mediante regresión logística para estimación

88 6.2. Generalización.

Al incluir nueva información auxiliar, como es el caso de la edad, eslógico pensar que el ajuste mejorará ligeramente, pero no es el caso.Este ajuste no deja de ser pésimo, ya que no nos sirve para predecir deforma correcta la intención de voto hacia ninguno de los partidos.

Está claro entonces que el uso de la información auxiliar presentadaen este apartado sería un esfuerzo infructuoso y, por tanto, podemosdescartar su uso para extender las predicciones al total poblacional.

6.2.3. Estimadores poblacionales del total.

Para predecir los valores a partir de los datos poblacionales registradosvamos a usar en R-project una función llamada F.LGREG, que ya adelanta-mos al �nal del quinto capítulo.

Esta función nos mostrará las predicciones en referencia a la intenciónde voto de la población española según los datos poblacionales registradosen las pasadas elecciones y el modelo generado a partir de la muestra. Enla función interna de ésta, F.Paso, está contemplado el cálculo del estima-dor de Horvitz y Thompson, denominado internamente como Suma2, yel cálculo del estimador logístico de regresión generalizada, llevado acabo a través del estimador de Horvitz y Thompson y de la denominadaSuma1, que nos sirve para tener en cuenta los fallos que contempla el modeloen la muestra.

La forma que tenemos de realizar los cálculos mencionados en R-projectes a través del uso de vectores de éxitos y fracasos, verdaderos y falsos o cerosy unos. Este procedimiento es el que llevamos a cabo en la función F.Pasopara calcular la Suma1, donde tenemos que restar a los valores muestralesde cada individuo sus valores predichos correspondientes.

Podemos recordar cómo de�níamos el estimador logístico de regresióngeneralizada en el capítulo tercero, para tener una idea más clara de quéprocedimiento se sigue para alcanzar los datos buscados.

YLGREG =∑j∈U

µj +∑i∈s

1

πi(yi − µi) .

En nuestro caso, llamamos µj a los valores predichos por el modelo re-ferentes a la población U , que está constituida por todos los españoles conderecho a voto. Asimismo llamamos µi a los valores predichos por el modelo

Page 115: Modelización mediante regresión logística para estimación

Desarrollo de procedimientos prácticos. 89

referentes a la muestra, s, con la que hemos generado dicho modelo. Para losvalores de πi, que de�níamos como la probabilidad de inclusión, hemos toma-do el cociente entre el tamaño muestral y el tamaño poblacional considerados.

Según la notación que hemos usado en la función F.Paso tendríamos que

Suma1 =∑i∈s

1

πi(yi − µi) .

Suma2 =∑j∈U

µj .

Una vez conocido el funcionamiento de la función F.Paso, para poderutilizar la función F.LGREG debemos registrar la información requeridapara el modelo propuesto. Para este ejemplo seguiremos con el modelo ge-nerado a partir de una sola pregunta, P24A (voto en las pasadas elecciones).

> Voto2011.3050

n P24A1 10830693 PP2 6973880 PSOE3 1014263 CiU4 1680810 IU (ICV en Cataluña)5 333628 Amaiur6 1140242 UPyD7 323517 PNV8 256393 ERC9 183279 BNG10 143550 CC-NC11 340926 Compromís-Equo12 99173 FAC13 42411 Geroa Bai14 379799 Otros partidos

Decidimos los partidos que se van a mostrar en la predicción. Con motivode comprobar los resultados, reducimos el número de partidos a los mássigni�cativos.

> Partidos<-c('PP','PSOE','Podemos','Ciudadanos','IU (ICV en Cataluña)')

Page 116: Modelización mediante regresión logística para estimación

90 6.2. Generalización.

A continuación tenemos que llamar a la función F.LGREG según losargumentos que conocemos sobre el modelo, sobre la población y sobre lamuestra

> Total.Pob.3050.P24A <- F.LGREG(Model.3050.P24A$Modelo,'P18',Datos.3050,Partidos,Voto2011.3050)

De donde obtenemos el siguiente resultado, que podemos observar grá�-camente en la Figura 6.16.

> Total.Pob.3050.P24APP PSOE

8399975.0 4744126.9Podemos Ciudadanos

4837838.6 497627.3IU (ICV en Cataluña)

851708.3

Observamos cómo todos los partidos, exceptuando a Ciudadanos, seaproximan bastante a los resultados electorales del 20 de diciembre de 2015,que se encuentran en el Cuadro 7.1, establecido en el próximo capítulo.

La excepción del partido de Ciudadanos que hemos comentado se basaen que en enero de 2015, mes en el que se realizó el estudio que utilizamoscomo muestra, Ciudadanos aún no era demasiado conocido. De esto se de-duce que la intención de voto hacia dicho partido no fuera excesivamente alta.

Page 117: Modelización mediante regresión logística para estimación

Figura 6.16: Estudio de Enero de 2015.Predicciones poblacionales.

Page 118: Modelización mediante regresión logística para estimación

92 6.2. Generalización.

Page 119: Modelización mediante regresión logística para estimación

Capítulo 7

Análisis de la intención de votoa lo largo de 2015

A lo largo de este capítulo vamos a analizar la evolución de la intenciónde voto de la población española con respecto a cada uno de los partidos quese presentaron a las Elecciones Generales el pasado 20 de diciembre de 2015.

En primer lugar, identi�caremos cada uno de los estudios mensuales reali-zados durante el año en cuestión y, según lo observado en el capítulo anterior,tomaremos de cada uno de ellos las variables que mejor ajusten un modelo deregresión logística para poder extenderlo al total poblacional. Es importanteque usemos las mismas variables en todos los modelos desarrollados, uno porcada estudio realizado.

Posteriormente procederemos a presentar las predicciones poblacionalesobtenidas por medio de métodos grá�cos y numéricos, para poder analizarla evolución de la que hablamos.

Por último, incluiremos un apartado que recoge los datos reales obteni-dos en el escrutinio del 20 de diciembre de 2015. A partir de dichos datospodremos comprobar la capacidad de predicción del modelo elegido.

7.1. Modelos de regresión logística multinomial.

En este apartado formamos los modelos de regresión logística multino-mial con la intención de voto como variable objetivo. Bastará con presen-tar la información de cada uno de los estudios que utilizaremos y decidir la

93

Page 120: Modelización mediante regresión logística para estimación

94 7.1. Modelos de regresión logística multinomial.

variable o las variables que intervendrán en el modelo. Posteriormente pro-cedemos a utilizar la función F.RegMultiple, implementada en R-project, quenos devolverá el modelo ajustado.

ES3050. Barómetro realizado por el Centro de Investigaciones Sociológi-cas (CIS) en enero de 2015.Este barómetro consta de una serie de preguntas efectuadas sobre unamuestra de 2481 personas mayores de 18 años repartidas por el terri-torio español.Al �nal de este documento, como anexo en la página 119, podemosencontrar el cuestionario asociado a dicho barómetro.Las variables de las que haremos uso, según lo descrito en el capítuloanterior, serán dos principalmente:

P18. Se trata de la variable objetivo, la intención de voto de losindividuos entrevistados en las próximas elecciones.

P24A. Se trata del voto ejercido por los individuos entrevistadosen las pasadas elecciones generales.

> Model.3050.P24A <-F.RegMultiple(N1.Pregunta='P18',N1.archivo= 'DA3050',Salida= TRUE,L1.preguntas= c('P24A'))

ES3104. Barómetro realizado por el CIS en julio de 20151.Este barómetro consta de una serie de preguntas efectuadas sobre unamuestra de 2486 personas mayores de 18 años repartidas por el terri-torio español.Las variables de las que haremos uso serán dos principalmente:

P20. Se trata de la variable objetivo, la intención de voto de losindividuos entrevistados en las próximas elecciones.

P26A. Se trata del voto ejercido por los individuos entrevistadosen las pasadas elecciones generales.

> Model.3104.P26A <-F.RegMultiple(N1.Pregunta='P20',N1.archivo= 'DA3104',Salida= TRUE,L1.preguntas= c('P26A'))

1Podemos encontrar este cuestionario a partir de la página 129.

Page 121: Modelización mediante regresión logística para estimación

Análisis de la intención de voto a lo largo de 2015 95

Para analizar el ajuste de este modelo tenemos los siguientes datos,representados mediante las Figuras 7.1a y 7.1b.

> Model.3104.P26A$Porc.dif

Amaiur BNG1.0000000 1.1666667

CC CiU1.0000000 0.5937500Ciudadanos Compromís-Equo0.8550725 1.0000000

ERC Geroa Bai0.5833333 0.3333333

IU (ICV en Cataluña) N.C.1.0000000 1.0000000

N.S. Otro partido0.8270042 1.0000000

PNV Podemos1.2727273 0.4143223

PP PSOE0.2929936 0.1197822

UPN UPyD1.0000000 1.0000000

> Model.3104.P26A$Porc.dif.max

[1] 0.803277

Podemos observar en la Figura 7.2 que los partidos que nos interesapredecir de forma prioritaria, por ser los principales partidos en cuantoa intención de voto, poseen un buen ajuste, de nuevo exceptuando aCiudadanos, que aun teniendo un mal ajuste se presenta mejor queel del estudio de enero de 2015.

ES3114. Barómetro realizado por el CIS en octubre de 20152.Este barómetro consta de una serie de preguntas efectuadas sobre unamuestra de 2493 personas mayores de 18 años repartidas por el terri-torio español.Las variables de las que haremos uso serán dos principalmente:

P23. Se trata de la variable objetivo, la intención de voto de losindividuos entrevistados en las próximas elecciones.

P29A. Se trata del voto ejercido por los individuos entrevistadosen las pasadas elecciones generales.

2Podemos encontrar este cuestionario a partir de la página 137.

Page 122: Modelización mediante regresión logística para estimación

96 7.1. Modelos de regresión logística multinomial.

Figura 7.1: Estudio de Julio de 2015.Análisis del ajuste.

(a) Dispersión. (b) Calidad del ajuste.

Figura 7.2: Estudio de Julio de 2015.Ajuste global del modelo P26A.

Page 123: Modelización mediante regresión logística para estimación

Análisis de la intención de voto a lo largo de 2015 97

> Model.3114.P29A <-F.RegMultiple(N1.Pregunta='P23',N1.archivo= 'DA3114',Salida= TRUE,L1.preguntas= c('P29A'))

Para analizar el ajuste de este modelo tenemos los siguientes datos,representados mediante las Figuras 7.3a y 7.3b.

> Model.3114.P29A$Porc.dif

Amaiur BNG0.16666667 0.50000000

CC Ciudadanos0.14285714 0.80952381

Compromís-Equo Convergencia0.45000000 0.40000000En blanco ERC0.32000000 0.06250000

FAC Geroa Bai0.00000000 0.00000000

IU (ICV en Cataluña) N.C.1.00000000 1.00000000

No sabe todavía No votará0.48736462 1.19341564

Otros partidos PNV1.00000000 0.46153846

Podemos PP0.09090909 0.70666667

PSOE Unió0.38554217 1.00000000

UPN UPyD1.00000000 1.00000000Voto nulo1.00000000

> Model.3114.P29A$Porc.dif.max

[1] 0.5729124

Podemos observar en este caso que el ajuste global es mucho mejor queel de los dos anteriores. Encontramos, sin embargo, un empeoramientoen lo referente a la predicción de votos hacia el PP y hacia el PSOE,

Page 124: Modelización mediante regresión logística para estimación

98 7.2. Estimador del total poblacional.

Figura 7.3: Estudio de Octubre de 2015.Análisis del ajuste.

(a) Dispersión. (b) Calidad del ajuste.

Figura 7.4: Estudio de Octubre de 2015.Ajuste global del modelo P29A.

mientras que la predicción con respecto a Ciudadanos mejora ligera-mente y la de Podemos se hace prácticamente inmejorable.

Finalmente tenemos los modelos múltiples ajustados de cada estudio conrespecto a las mismas variables.

7.2. Estimador del total poblacional.

Una vez tenemos los modelos correspondientes a cada uno de los estu-dios, es el momento de comparar dichos modelos y sus predicciones en basea los mismos datos poblacionales aportados por el Cuadro 6.1. Estos datoslos habíamos registrado en nuestro programa con el nombre de Voto2011.

Page 125: Modelización mediante regresión logística para estimación

Análisis de la intención de voto a lo largo de 2015 99

El siguiente procedimiento usará la capacidad predictiva de dichos mode-los para extender los resultados muestrales al total poblacional. Para calcularel total poblacional esperado a partir del modelo generado anteriormente re-currimos a la función F.LGREG, que nos devolverá el estimador logísticode regresión generalizada asociado a cada partido que indiquemos.

ES3050. Este estudio lo desarrollamos en el capítulo anterior.

ES3104. Nuestro primer paso debe ser renombrar el vector que nos proporcionael total poblacional, ya que a la hora de utilizar la función predict de-bemos nombrar a la variable de información auxiliar que interviene enel modelo del mismo modo que el nombre que se le da en la muestrautilizada para generar dicho modelo. Después abordaremos el cálculodel total poblacional a través del estimador logístico de regresióngeneralizada.

> Voto2011.3104 <- Voto2011.3050

> names(Voto2011.3104)[2] <- 'P26A'

> Total.Pob.3104.P26A <- F.LGREG(Model.3104.P26A$Modelo,'P20',Datos.3104,Partidos,Voto2011.3104)

De donde obtenemos los resultados siguientes, que podemos observargrá�camente en la Figura 7.5.

> Total.Pob.3104.P26A

PP PSOE9611895.8 6487096.4Podemos Ciudadanos

4282345.4 2830682.0IU (ICV en Cataluña)

754490.2

Observamos cómo Ciudadanos ha subido considerablemente respectoal estudio realizado en enero del mismo año. Esto se debe, como yaadelantábamos, a que a lo largo del 2015 fue creciendo el número de

Page 126: Modelización mediante regresión logística para estimación

100 7.2. Estimador del total poblacional.

Figura 7.5: Estudio de Julio de 2015.Predicciones Poblacionales.

votantes del partido.

PSOE y PP suben sus predicciones en julio con respecto a enero,mientras que Podemos baja en el número de votantes de forma leve.

ES3114. Por el mismo motivo que en el estudio anterior, nuestro primer paso de-be ser renombrar la información poblacional. Posteriormente usaremoslos valores poblacionales personalizados para estimar el total poblacio-nal.

> Voto2011.3114 <- Voto2011.3050

> names(Voto2011.3114)[2] <- 'P29A'

> Total.Pob.3114.P29A <- F.LGREG(Model.3114.P29A$Modelo,'P23',Datos.3114,Partidos,Voto2011.3114)

De donde obtenemos los resultados siguientes, que podemos observargrá�camente en la Figura 7.6.

> Total.Pob.3114.P29A

PP PSOE8306915 5450089Podemos Ciudadanos

Page 127: Modelización mediante regresión logística para estimación

Análisis de la intención de voto a lo largo de 2015 101

Figura 7.6: Estudio de Octubre de 2015.Predicciones Poblacionales.

2251083 3244978IU (ICV en Cataluña)

742848

Según los datos que tenemos, hablando con respecto a las prediccionesgeneradas a partir del estudio de julio de 2015, tenemos que decir quePP y PSOE vuelven a descender en intención de voto hasta estabili-zarse entorno a los resultados predichos a partir del estudio de enerode ese mismo año.

En cuanto a Ciudadanos, apreciamos una subida sustancial de vo-tantes con respecto a julio, mientras que Podemos pierde, según laspredicciones, algo menos de la mitad de su electorado.

De nuevo, la predicción con respecto a Izquierda Unida es parecidaa la de los demás estudios en análisis y muy próxima a los datos realesdel Cuadro 7.1.

7.3. Análisis de evolución.

Para poder realizar un análisis de la evolución de la intención de votoa lo largo del año 2015, en primer lugar, necesitamos observar en un sólográ�co de barras (Figura 7.7) los datos predichos de los tres estudios tenidosen cuenta en el apartado anterior.

Además, es conveniente hacer uso de grá�cos de sectores, como los de lasFiguras 7.8a, 7.8b y 7.8c, para visualizar el porcentaje de votos predichos

Page 128: Modelización mediante regresión logística para estimación

102 7.3. Análisis de evolución.

Figura 7.7: Enero, Julio y Octubre de 2015.Evolución de predicciones.

Figura 7.8: Enero, Julio y Octubre de 2015. Predicciones poblacionales. Dia-gramas de sectores.

(a) Enero de 2015 (b) Julio de 2015. (c) Octubre de 2015.

para cada uno de los partidos que más votos reciben.

Ya estamos en condiciones de analizar la evolución de la intención de votoreferida a los partidos mayoritarios con los que hemos estado trabajando:

Partido Popular. En las Elecciones Generales del año 2011 este par-tido obtuvo 10.830.693 votos, dato que hemos utilizado para predecirel comportamiento del electorado según los modelos que hemos ido ge-nerando.

Enero de 2015. Este partido obtendría 8.399.975 votos en laspróximas Elecciones Generales, lo que supone una pérdida sustancialcon respecto al año 2011. Sin embargo, seguiría siendo el partido másvotado de la escena política.

Page 129: Modelización mediante regresión logística para estimación

Análisis de la intención de voto a lo largo de 2015 103

Julio de 2015. Este partido obtendría 9.611.895 votos en las pró-ximas Elecciones Generales, lo que nos muestra una remontada conrespecto al mes de enero, aunque sigue sufriendo una pérdida impor-tante de votos en referencia al año 2011. De nuevo, sigue a la cabezaen intención de voto.

Octubre de 2015. Este partido obtendría 8.306.915 votos en laspróximas Elecciones Generales. Esta segunda bajada de la intenciónde voto puede deberse a la subida de otros partidos, como Ciudada-nos, o al empeoramiento del ajuste global, tal y como puede apreciarseobservando y comparando las Figuras 7.2, de julio de 2015, y 7.4, deoctubre de 2015.

Partido Socialista Obrero Español. En las Elecciones Generalesdel año 2011 este partido obtuvo 6.973.880 votos. A partir de esta in-formación hemos podido calcular las predicciones poblacionales paralas Elecciones Generales de 2015.

Enero de 2015. Este partido obtendría 4.744.126 votos en laspróximas Elecciones Generales, lo que nos muestra una pérdida de al-rededor de 2 millones de votos, posiblemente atraídos por los nuevospartidos emergentes.

Julio de 2015. Este partido obtendría 6.487.096 votos en las pró-ximas Elecciones Generales. Además de la subida considerable de vo-tantes, si observamos la Figura 7.2 podemos comprobar que el ajusteglobal del modelo es bueno en referencia al PSOE, por lo que la vera-cidad de esta predicción se rea�rma.

Octubre de 2015. Este partido obtendría 5.450.089 votos en laspróximas Elecciones Generales. Nos podemos percatar de una nuevabajada en intención de voto y podemos pensar, como en el caso delPP en este mismo mes, que existe un empeoramiento del modelo conel que estamos trabajando, pero la Figura 7.4 nos demuestra que nosequivocamos. En cuanto a la razón de la pérdida de votantes, podemospensar que se cimienta en la subida de los partidos emergentes.

Podemos. En las Elecciones Generales del 2011 este partido aún noexistía, por lo que no se tienen datos del escrutinio. Para poder calcularlas predicciones poblacionales de este partido en los estudios realizadoshemos tenido que incluir todos los datos poblacionales de las Eleccio-

Page 130: Modelización mediante regresión logística para estimación

104 7.3. Análisis de evolución.

nes del año 2011.

Enero de 2015. A fecha de este estudio, había pasado un añodesde la fundación de este partido político, de ahí que fuese conocido.En las Elecciones Generales de 2015 obtendría 4.837.838 votos. Conestos resultados, Podemos sería el segundo partido más votado de laescena política, siendo además el ajuste del presente modelo muy buenoen referencia al mismo, tal y como podemos apreciar en la Figura 6.11.

Julio de 2015. Este partido obtendría 4.282.345 votos en las Elec-ciones Generales de 2015, con lo que se aprecia un ligero descenso encuanto a intención de voto se re�ere. Además, nuevamente el PSOEsupera en intención de voto a Podemos, arrebatándole el segundopuesto. Este modelo se postula bien ajustado para Podemos, tal ycomo podemos observar en la Figura 7.2.

Octubre de 2015. Este partido obtendría 2.251.083 votos en lasElecciones Generales de 2015. Somos testigos de un descenso de casi lamitad de su electorado y teniendo un modelo bien ajustado. El hechode que el 27 de septiembre del 2015 se llevaran a cabo las Eleccionesal Parlamento de Cataluña pudo in�uir negativamente en la intenciónde voto hacia Podemos. Tras obtener los resultados electorales men-cionados comenzaron a defender el referéndum de autodeterminacióncatalán en su programa.

Ciudadanos. Al igual que el anterior, este partido no tuvo represen-tación en las Elecciones Generales de 2011, por lo que ha sido necesariala predicción del mismo basada en los datos poblacionales de los votosa los demás partidos.

Enero de 2015.Este partido obtendría 497.627 votos en las Elec-ciones Generales de 2015. Está claro que este partido era algo conocidoen el ámbito político en enero, ya que generalmente había sido un par-tido que participaba en la vida política catalana.

Julio de 2015.Este partido obtendría 2.830.682 votos en las Elec-ciones Generales de 2015. Esto nos proporciona una idea de cómo a lolargo de siete meses que separaran a este estudio del estudio de enero,el partido se dio a conocer y fue ganando fuerza con el respaldo de unnuevo electorado.

Page 131: Modelización mediante regresión logística para estimación

Análisis de la intención de voto a lo largo de 2015 105

Octubre de 2015.Este partido obtendría 3.244.978 votos en lasElecciones Generales de 2015. Una nueva subida de aproximadamente400.000 votos separan esta estimación de la realizada tres meses antes.

Izquierda Unida. En las Elecciones Generales del año 2011 este parti-do obtuvo 1.680.810 votos. A partir de esta información hemos podidocalcular las predicciones poblacionales para las Elecciones Generalesde 2015.

Enero de 2015.Este partido obtendría 851.708 votos en las Elec-ciones Generales de 2015. Observamos una pérdida de la mitad delelectorado que votó a este partido en el año 2011.

Julio de 2015.Este partido obtendría 754.490 votos en las Elec-ciones Generales de 2015. Una nueva pérdida de votos afecta a estepartido a mediados del 2015.

Octubre de 2015.Este partido obtendría 742.848 votos en lasElecciones Generales de 2015. Se establece entorno a la predicción dejulio del mismo año.

7.4. Escrutinio 20 de diciembre de 2015.

En el Cuadro 7.1 podemos encontrar los resultados electorales del 20 dediciembre de 2015 con el 100 % del escrutinio efectuado. 3

Para poder comparar las predicciones y los resultados reales obtenidos,podemos generar un diagrama de sectores para esto últimos. En la Figura7.9 aparecen los resultados electorales de aquellos partidos que alcanzaronrepresentación en el Congreso de los Diputados. En la Figura 7.10 aparecenlos resultados electorales de los partidos sobre los que hemos estado elabo-rando predicciones.

Observamos cómo las predicciones calculadas gracias a los modelos esta-ban muy bien encaminadas en la mayoría de los casos. Al menos, en términosgenerales no hay sorpresa en relación a las mismas, excepto en lo referente aPodemos, que obtuvo la representación que se estimaba entre enero y julio

3Datos tomados de la dirección web de El País.http://resultados.elpais.com/elecciones/2015/generales/congreso/

Page 132: Modelización mediante regresión logística para estimación

106 7.4. Escrutinio 20 de diciembre de 2015.

Partido político Escaños Votos registrados PorcentajePP 123 7215530 28.72%PSOE 90 5530693 22.01%Podemos 69 5189333 20.66%C's 40 3500446 13.93%ERC-CATSI 9 599289 2.39%DL 8 565501 2.25%PNV 6 301585 1.2%U.P. EN COMÚN 2 923105 3.67%EH Bildu 2 218467 0.87%CCa-PNC 1 81750 0.33%PACMA 0 219181 0.87%UPYD 0 153498 0.61%NÓS 0 70464 0.28%unio.cat 0 64726 0.26%VOX 0 57733 0.23%R.C.-G.VERDE 0 48217 0.19%

Cuadro 7.1: Resultado de las Elecciones Generales del 20 de diciembre de2015 al Congreso de los Diputados en España.

de 2015.

El Partido Popular obtuvo menos votos que los estimados en cada unode los estudios realizados, pero sí mantuvo el mayor número de votos conrespecto al resto de los partidos.

Con el Partido Socialista no hubo sorpresas, puesto que obtuvo en-torno a los cinco millones y medio de votos, resultado que había predichotanto el estudio de enero como el de octubre, más cercano a las Eleccionesde diciembre.

En cuanto a Podemos la sorpresa fue clara, pues pasó de perder la mi-tad de su electorado a mantener una diferencia con el Partido Socialistade unos 350.000 votos, lo que se tradujo en 21 escaños.

Ciudadanos no presentó un resultado inesperado, pues como ya hemosvisto, la diferencia entre el resultado que obtuvo y el predicho se establecealrededor de los 300.000 votos.

Page 133: Modelización mediante regresión logística para estimación

Análisis de la intención de voto a lo largo de 2015 107

Figura 7.9: Elecciones Generales del 20 de diciembre de 2015.Diagrama de sectores.

Izquierda Unida, a pesar de que los modelos que predecían los datosparecían ajustar sus votantes no demasiado bien, tan sólo excedió a la esti-mación realizada en unos 200.000 votos.

Page 134: Modelización mediante regresión logística para estimación

Figura 7.10: Elecciones Generales del 20 de diciembre de 2015.Diagrama de sectores.Principales Partidos.

Page 135: Modelización mediante regresión logística para estimación

Capítulo 8

Conclusiones

Este último capítulo pretende presentar los objetivos alcanzados a lo lar-go de todo el documento, principalmente de aquéllos de los que hablábamosen el capítulo cuarto. Además, nos servirá para realizar un recorrido generala lo largo del mismo.

8.1. Objetivos alcanzados.

Gracias a los capítulos prácticos que preceden a éste, hemos podido llevara término satisfactoriamente los objetivos marcados con anterioridad.

OB1. Regresión logística simple: la resolución de este objetivo seha llevado a lo largo del primer bloque del capítulo sexto, donde hemosgenerado diversos modelos de regresión logística simple dependiendo dedistintas variables de información auxiliar. Además, tras el seguimientopormenorizado del proceso a seguir para la construcción del modelo,hemos presentado el ajuste individual con respecto a cada uno de lospartidos mayoritarios de gran cantidad de modelos generados por una,dos o más variables.

OB1E1. Ha sido realizado, previa generación del primer modelo,un análisis de las tres variables que intervenían, a saber: P13, P24Ay P27.

OB1E2. Los resultados del ajuste se han presentado mediantedatos extraídos del script de R-project, que a su vez se han representadográ�camente con la ayuda de histogramas y grá�cos de dispersión.

OB2. Regresión logística múltiple: una vez concluido el primerbloque del sexto capítulo, nos hemos centrado en la regresión logística

109

Page 136: Modelización mediante regresión logística para estimación

110 8.2. Uso de modelos de regresión logística.

múltiple o multinomial, en la que hemos incluido a todos los partidospolíticos en el mismo modelo de regresión.

OB2E1. Con motivo del uso de las funciones generadas en el quin-to capítulo, para el ejemplo de construcción del modelo de regresiónlogística múltiple hemos empezado considerando cuatro variables de in-formación auxiliar, a saber: P20, P24A, P27 y P34. Posteriormentees necesario reducir dicha cantidad para asegurar el correcto funciona-miento de multinom.

OB2E2. Del mismo modo que en el bloque de regresión logísticasimple, en este caso también hemos presentado los datos obtenidos pormedio de diversas representaciones grá�cas.

OB3. Estimación poblacional: �nalmente, el último bloque del sex-to capítulo ha venido determinado por el cálculo del total poblacionalpor medio de los estimadores desarrollados a lo largo del tercer capí-tulo.

OB3E1. Para elegir el modelo óptimo hemos usado una de lasfunciones implementadas en R-project en el capítulo quinto, concreta-mente la denominada F.AjusteMulti. Se trata de una función que,tomando las variables que se le pasan como argumentos, nos mues-tra cuál es el ajuste óptimo de un modelo generado por una cantidaddeterminada de ellas (por el argumento stop).

OB3E2. Inmediatamente después, calculamos el estimador deHor-vitz y Thompson como medio para el cálculo del estimador de re-gresión logística generalizado.

OB3E3. Calculamos entonces el total poblacional a través de lafunción F.LGREG, implementada y descrita al �nal del capítulo quin-to. Para los datos poblacionales con los que realizamos las prediccionesen este apartado hemos consultado referencias institucionales y perio-dísticas sobre las variables intervinientes en el modelo en cuestión.

OB3E4. Por último, a lo largo del séptimo capítulo hemos desa-rrollado un análisis exhaustivo de los resultados obtenidos, así como dela evolución a la que ha sido sometida la intención de voto de los es-pañoles a lo largo del año 2015. En este caso hemos hecho uso de otrosbarómetros que nos aportaban información acerca de dicho fenómeno.

8.2. Uso de modelos de regresión logística.

Como ya adelantábamos tanto en el resumen como en los primeros ca-pítulos, el uso de los modelos de regresión está muy extendido en todos los

Page 137: Modelización mediante regresión logística para estimación

Conclusiones 111

ámbitos disciplinares, principalmente por su gran utilidad y precisión.

Concretamente, el uso de los modelos de regresión logística nos presentaun amplio abanico de aplicaciones en las que los modelos de regresión linealno realizaban un ajuste satisfactorio.

Podemos mencionar, por ejemplo, que en el campo de la medicina haynumerosos modelos de regresión logística generados por variables especí�castales como el peso, el nivel de colesterol en sangre, la altura, el porcentaje degrasa corporal, etc. Este tipo de modelos generalmente sirven para predecirla aparición de una determinada enfermedad basándose en medidas como lasque hemos mencionado, o bien son buenos modelos en cuanto a predicción deotras medidas médicas similares, tales como porcentaje de hierro en sangre,porcentaje de glóbulos blancos, porcentaje de masa muscular, etc.

En el campo de la economía y la industria podemos mencionar modelosorientados al cálculo, a priori, del coste de un producto y los bene�cios deri-vados de su venta, dependiendo del precio de los materiales que intervienenen su elaboración, de la mano de obra necesaria para obtener el resultadoesperado, del transporte tanto de los materiales como de los productos unavez confeccionados, etc. Este tipo de modelos persiguen optimizar a largoplazo los bene�cios obtenidos, así como poder corregir rápidamente las �uc-tuaciones registradas en alguna de las variables que intervienen.

En cuanto al ámbito de la salud pública, en concreto en lo que se re�ereal abastecimiento de agua de una determinada población, se pueden generarmodelos de regresión logística que sirvan para predecir los niveles de aguapotable disponible utilizando la información auxiliar dada por la tempera-tura de la zona, las precipitaciones registradas, la época del año, etc.

En de�nitiva, podemos realizar un modelo de regresión logística parapredecir cada suceso sobre el que tengamos información en algún sentido, esdecir, si disponemos de su�cientes variables de información auxiliar asociadasa una o más variables objetivo, podremos realizar un modelo de regresiónlogística dependiendo de dicha información auxiliar y que nos sirva para pre-decir el comportamiento de dichas variables objetivo.

Page 138: Modelización mediante regresión logística para estimación

112 8.3. Uso de variables de información auxiliar.

8.3. Uso de variables de información auxiliar.

En el segundo capítulo describimos la importancia del uso de variablesde información auxiliar para llevar a cabo predicciones.

A lo que adelantábamos en dicho capítulo poco hay que añadir, salvoque ha quedado vigente que, al menos en los ejemplos descritos a lo largo delos capítulos prácticos, las variables de información auxiliar juegan un papeldecisivo en las predicciones.

También hemos podido comprobar que toda la información auxiliar noes necesariamente útil según para qué circunstancias. De este modo hemosllegado a la conclusión de que, aun disponiendo de una gran cantidad devariables de información auxiliar, la predicción sobre una variable objetivono tiene por qué ser buena. La bondad de ajuste de un modelo dependeráde la dependencia que exista entre las variables objetivo y las variables deinformación auxiliar elegidas para la predicción.

En el sexto capítulo veíamos cómo un modelo de regresión logística múl-tiple generado por una serie de variables de información auxiliar ajustaba demanera distinta los cinco partidos mayoritarios representados grá�camente.Un mismo modelo tenía la capacidad de predecir casi a la perfección los vo-tantes de Podemos mientras que predecía de forma pésima los votantes delos demás partidos en estudio.

En el caso de los modelos de regresión logística simple, donde utilizamosun sistema similar para comprobar el ajuste, aun siendo generados por lasmismas variables, observamos que la intención de voto hacia cada partidoes predicha por modelos diferentes. No obstante, a pesar de ser modelos di-ferentes la calidad del ajuste �uctúa dependiendo del partido objetivo y delas variables de información auxiliar elegidas, lo que nos da una idea de lavariación de la in�uencia entre las variables de las que hablamos.

8.4. Aplicación práctica. Elecciones Generales de

2015.

Como aplicación práctica para ejempli�car el uso de los modelos de re-gresión logística hemos elegido predecir la intención de voto de los españolesa lo largo del año 2015, concluyendo con las Elecciones Generales del 20 dediciembre de 2015.

Page 139: Modelización mediante regresión logística para estimación

Conclusiones 113

Para la elaboración de los modelos utilizamos los datos que componenalgunos barómetros realizados por el Centro de Investigaciones Socio-lógicas (CIS) y para la incorporación de datos poblacionales utilizamoscomo referencia el Instituto Nacional de Estadística (INE) y fuentesperiodísticas como El País.

8.4.1. Resultados.

Una vez que hemos generado los tres modelos en base a los barómetrosde los que disponíamos (Enero, Julio y Octubre), hemos predicho los resul-tados poblacionales de las Elecciones Generales de 2015 en función de losresultados poblacionales observados en las Elecciones Generales de 2011.

El tercer apartado del séptimo capítulo nos muestra cómo han ido evolu-cionando los partidos con representación electoral mayoritaria a lo largo delaño 2015 y el cuarto capítulo nos aporta información sobre la veracidad delas predicciones sobre los datos poblacionales observados.

Podemos decir que las predicciones realizadas, en general, se asemejanbastante a los resultados reales. Sorprendentemente, en todos los casos he-mos hecho uso de una sola variable de información auxiliar, en gran parte porla imposibilidad de encontrar datos poblacionales sobre todas las variablesque intervienen en cada estudio.

Page 140: Modelización mediante regresión logística para estimación
Page 141: Modelización mediante regresión logística para estimación

Bibliografía

[1] Salas Velasco, M., La regresión logística. Una aplicación a demandade estudios universitarios, Estadística Española Vol. 38, no. 141, 1996,pp. 193-217.

[2] Juez Martel, P., Paciente paliativo no oncológico: identi�cación,pronóstico, toma de decisiones y evaluación, Tesis doctoral. UniversidadRey Juan Carlos. Facultad de Ciencias de la Salud.

[3] Cramer, J. S., The Origins of Logistic Regression, Facultad de Econo-mía y Econometría, Universidad de Amsterdam e Instituto Tinbergen,noviembre de 2002.

[4] Cramer, J. S., The origins and development of the logit model.Universidad de Amsterdam e Instituto Tinbergen, agosto de 2003.

[5] Rueda, M. M., Arcos, A., Molina, D. y Giovanna Ranalli, M.,Multinomial logistic estimation in dual frame surveys. Departamentede estadística e investigación operativa, Universidad de Granada,septiembre de 2015.

[6] Kennel, T. L. y Valliant, R., Logistic Generalized Regression(LGREG) Estimator in Cluster Samples. Sección de Métodos deInvestigación por Encuestas. JSM 2010.

[7] Cañadas, J. L., Regresión logística. Tratamiento computacional conR. Trabajo de Fin de Máster en Estadística Aplicada, Universidad deGranada, junio de 2013.

115

Page 142: Modelización mediante regresión logística para estimación

116 BIBLIOGRAFÍA

[8] Chongsuvivatwong, V., Analysis of Epidemiological Data UsingR and Epicalc. Unidad de Epidemiología, Universidad Príncipe deSongkla, Tailandia.

[9] Agresti, A., An Introduction to Categorical Data Analysis. Wiley andsons, 1996.

[10] Agresti, A., Categorical Data Analysis. Wiley and sons, segundaedición, 2002.

[11] Aguilera del Pino, A. M., Tablas de contigencia bidimensionales.Colección cuadernos de estadística (15). La Muralla, 2001.

[12] Aguilera del Pino, A. M., Modelización de tablas de contingenciamultidimensionales. Colección cuadernos de estadística (33). La Mura-lla, 2006.

[13] Christensen, R., Log-Linear Models and Logistic Regression. Sprin-ger, 1994.

[14] Hosmer, D. W. y Lemeshow, S., Applied Logistic regression. Wileyand sons, 1989.

[15] Kleinbaum, D. G., Logistic Regression. A Self-Learning Text. Sprin-ger, 1994.

[16] McCullagh, P. y Nelder, J., Generalized linear models. Chapmanand Hall, 1983.

[17] Power, D. A. y Xie, Y., Stadistical Methods for Categorical DataAnalysis. Academic Press, julio de 1999.

[18] Ruiz-Maya, L., Martín Pliego, F. J. y Uriz Tomé, P., AnálisisEstadístico de Encuestas: Datos Cualitativos. Edición AC, 1995.

[19] Ryan, T. P., Modern Regression Methods. Wiley and sons, 1997.

Page 143: Modelización mediante regresión logística para estimación

BIBLIOGRAFÍA 117

[20] Selvin, S., Stadistical Analysis of Epidemiological Data. Periódico dela Universidad de Oxford, 1996.

[21] Silva Aycaguer, L. y Barroso Ultra, I., Regresión Logística. LaMuralla, 2004.

[22] Thompson, L., S-PLUS (and R) Manual to Accompany [10], 2007.

[23] Soberanis-Cruz, V. H. y Miranda-Soberanis, V., The Genera-lized Logistic Regression Estimator in a Finite Population Samplingwithout Replacement Setting with Randomized Response. Revista colom-biana de Estadística, Vol. 34, no. 3, pp. 451-460, 2011.

Page 144: Modelización mediante regresión logística para estimación
Page 145: Modelización mediante regresión logística para estimación

ANEXOS

119

Page 146: Modelización mediante regresión logística para estimación

INFORMACIÓN SUJETA A SECRETO ESTADÍSTICO (Ley 12/89, de 9 de mayo, de la Función Estadística Pública)

Encuesta incluida en el Plan Estadístico Nacional 2013-2016

aprobado por el real Decreto 1663/2008, de 17 de octubre

Departamento de Investigación

ENERO 2015

Comunidad Autónoma (10)(11) Nº ESTUDIO Nº CUESTIONARIO 3. 0 5 0 Provincia (12)(13) (1)(2)(3)(4) (5)(6)(7)(8)(9) Municipio (14)(15)(16) (nombre municipio) Tamaño de hábitat (17)(18) Distrito (19)(20) Sección (21)(22)(23) Entrevistador/a (24)(25)(26)(27) Buenos días/tardes. El Centro de Investigaciones Sociológicas está realizando un estudio sobre temas de interés general. Por este motivo solicitamos su colaboración y se la agradecemos anticipadamente. Esta vivienda ha sido seleccionada al azar mediante métodos aleatorios. Le garantizamos el absoluto anonimato y secreto de sus respuestas en el más estricto cumplimiento de las Leyes sobre secreto estadístico y protección de datos personales. Una vez grabada la información de forma anónima, los cuestionarios individuales son destruidos. P.0 En primer lugar querría preguntarle si tiene Ud. la nacionalidad...

- Española …………………..…. 1 (28) - Española y otra …………….. 2 - Otra nacionalidad …………... 3 FIN DE LA ENTREVISTA

P.0a ¿Cuál? ______________________________________ (29)(30)(31) N.C. ………….. 999

P.1 Para empezar, refiriéndonos a la situación económica general de España, ¿cómo la calificaría Ud.: muy buena, buena, regular, mala o muy mala?

- Muy buena ……. 1 - Buena ………… 2 - Regular ……….. 3 - Mala……………. 4 (32) - Muy mala …….. 5 - N.S. …………… 8 - N.C. …………… 9

P.2 Y, ¿cree Ud. que la situación económica actual del país es mejor, igual o peor que hace un año?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (33) - N.S. ……………. 8 - N.C. …………… 9 P.3 Y, ¿cree Ud. que dentro de un año la situación económica del país será mejor, igual o peor que ahora? - Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (34) - N.S. ……………. 8 - N.C. …………… 9

P.4 Y refiriéndonos ahora a la situación política general de España, ¿cómo la calificaría Ud.: muy buena, buena, regular, mala o muy mala?

- Muy buena ……. 1 - Buena ………… 2 - Regular ……….. 3 - Mala……………. 4 (35) - Muy mala …….. 5 - N.S. …………… 8 - N.C. …………… 9

P.5 ¿Y cree Ud. que la situación política actual del país es mejor, igual o peor que hace un año?.

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (36) - N.S. ……………. 8 - N.C. …………… 9 P.6 Y, ¿cree Ud. que dentro de un año la situación política del país será mejor, igual o peor que ahora? - Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (37) - N.S. ……………. 8 - N.C. …………… 9 P.7 ¿Cuál es, a su juicio, el principal problema que existe actualmente en España? ¿Y el segundo? ¿Y el tercero?

____________________________________________ (38)(39) ____________________________________________ (40)(41) ____________________________________________ (42)(43)

N.S. …………… 98 N.C. …………… 99

P.8 ¿Y cuál es el problema que a Ud., personalmente, le afecta más? ¿Y el segundo? ¿Y el tercero?

____________________________________________ (44)(45) ____________________________________________ (46)(47) ____________________________________________ (48)(49) N.S. …………… 98

N.C. …………… 99

Page 147: Modelización mediante regresión logística para estimación

P.9 ¿Y cree que en el 2015 las cosas le irán mejor, igual o peor que en el 2014, con respecto a…?

Mejor Igual Peor NP NS NC

- El trabajo ………………………. 1 2 3 7 8 9 (50) - Su familia o su vida familiar …. 1 2 3 8 9 (51) - Su situación económica ……… 1 2 3 8 9 (52) - El tiempo libre del que dispone . 1 2 3 8 9 (53) - Su vivienda ……………………. 1 2 3 8 9 (54) - Su salud o forma física ………. 1 2 3 8 9 (55) - Su nivel educativo/formación .. 1 2 3 8 9 (56) - Sus relaciones afectivas …….. 1 2 3 8 9 (57) P.10 ¿Cómo se definiría Ud. en política según la siguiente clasificación? (MOSTRAR TARJETA A ).

P.10a ¿Y con alguna más? (MOSTRAR TARJETA A ). P.10 P.10a

- Conservador/a …………..…..….. 01 01 - Demócrata cristiano/a …………. 02 02 - Liberal ……………………………. 03 03 - Progresista ……………………… 04 04 - Socialdemócrata ……………….. 05 (58) 05 (60) - Socialista ……………………….. 06 06 - Comunista ………………………. 07 07 - Nacionalista …………………….. 08 (59) 08 (61) - Feminista………………………… 09 09 - Ecologista ……………………….. 10 10 - Otra respuesta, ¿cuál?

__________________________ 11 11 - N.S. ……………………………… 98 98 - N.C. ……………………………… 99 99

P.11 Como Ud. sabe, en España hay distintos partidos o coaliciones políticas a las que puede votar en unas elecciones. Me gustaría que me dijera cuál es la probabilidad de que Ud. vote a cada uno de los que le voy a mencionar, utilizando para ello una escala de 0 a 10, sabiendo que el 0 significa que “con toda seguridad, no le votaría nunca” y el 10 significa que “con toda seguridad, le votaría siempre”. (MOSTRAR TARJETA B ). Escala NS NC 00-10 98 99

- PP…………………………… _____ 98 99 (62)(63)

- PSOE……………………….. _____ 98 99 (64)(65)

- IU (ICV en Cataluña) ……… _____ 98 99 (66)(67)

- UPyD………………………… _____ 98 99 (68)(69) - Podemos …………………….. _____ 98 99 (70)(71) - Ciudadanos ………………….. _____ 98 99 (72)(73)

(Sólo en Cataluña) - CiU…………………………… _____ 98 99 (74)(75)

- ERC…...……………………… _____ 98 99 (76)(77)

(Sólo en País Vasco) - PNV…………………………… _____ 98 99 (78)(79) (Sólo en País Vasco y Navarra) - Amaiur…….………………….. _____ 98 99 (80)(81) (Sólo en Galicia) - BNG……..…………………….. _____ 98 99 (82)(83) (Sólo en Canarias) - CC ……..……………………… _____ 98 99 (84)(85)

(Sólo en Comunidad Valenciana) - Compromís-Equo……………... _____ 98 99 (86)(87) (Sólo en Asturias) - FAC…………….………………. _____ 98 99 (88)(89) (Sólo en Navarra) - Geroa Bai.…………………….. _____ 98 99 (90)(91)

- UPN…………………............... _____ 98 99 (92)(93)

P.12 Le agradecería que me indicara si conoce a cada uno/a de los/as siguientes líderes políticos/as y qué valoración le merece su actuación política. Puntúelos/as de 0 a 10, sabiendo que el 0 significa que lo/a valora “muy mal” y el 10 que lo/a valora “muy bien”.

No Valo- conoce ración NS NC 97 00-10 98 99

- Enrique Álvarez Sostres…………. 97 _____ 98 99 (94)(95) - Joan Baldoví Roda ……………… 97 _____ 98 99 (96)(97) - Uxue Barkos .…………….…..…... 97 _____ 98 99 (98)(99) - Alfred Bosch……………………….. 97 _____ 98 99 (100)(101) - Rosa Díez ………………………….. 97 _____ 98 99 (102)(103) - Josep A. Durán i Lleida ………….. 97 _____ 98 99 (104)(105) - Aitor Esteban ……..……………….. 97 _____ 98 99 (106)(107) - Xabier Mikel Errekondo ……….… 97 _____ 98 99 (108)(109) - María Olaia Fernández ……………. 97 _____ 98 99 (110)(111) - Cayo Lara………………………….. 97 _____ 98 99 (112)(113) - Ana María Oramas ………………… 97 _____ 98 99 (114)(115) - Mariano Rajoy…….………………… 97 _____ 98 99 (116)(117) - Carlos Salvador ….………………… 97 _____ 98 99 (118)(119) - Pedro Sánchez …………………….. 97 _____ 98 99 (120)(121) P.13 En su conjunto, ¿cómo calificaría Ud. la gestión que está haciendo el Gobierno del PP: muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (122) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.14 Y, en general, ¿cómo calificaría la actuación política que está teniendo el PSOE en la oposición: muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (123) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.15 A continuación voy a leerle la lista de las ministras y ministros que forman el Gobierno. Dígame, por favor, para cada uno/a de ellos/as si lo/a conoce y cómo lo/a valoraría en una escala de 0 a 10, sabiendo que el 0 significa que lo/a valora muy mal y el 10 que lo/a valora muy bien.

No Valo- conoce ración NS NC 97 00-10 98 99

- Alfonso Alonso ……. ………..……… 97 _____ 98 99 (124)(125) - Fátima Báñez ……………………….. 97 _____ 98 99 (126)(127) - Rafael Catalá Polo ……………….. 97 _____ 98 99 (128)(129) - Jorge Fernández Díaz ….…………. 97 _____ 98 99 (130)(131) - José Manuel García Margallo …….. 97 _____ 98 99 (132)(133) - Isabel García Tejerina …………….. 97 _____ 98 99 (134)(135) - Luis de Guindos …….………….. 97 _____ 98 99 (136)(137)

Page 148: Modelización mediante regresión logística para estimación

No Valo-

conoce ración NS NC 97 00-10 98 99

- Cristóbal Montoro .……………….. 97 _____ 98 99 (138)(139) - Pedro Morenés …. ………………. 97 _____ 98 99 (140)(141) - Ana Pastor ………………………… 97 _____ 98 99 (142)(143) - Soraya Sáenz de Santamaría ….... 97 _____ 98 99 (144)(145) - José Manuel Soria ………………… 97 _____ 98 99 (146)(147) - José Ignacio Wert ……..….……… 97 _____ 98 99 (148)(149) P.16 El Presidente del Gobierno, Mariano Rajoy, ¿le inspira, personalmente, mucha confianza, bastante confianza, poca o ninguna confianza?

- Mucha confianza …………. 1 - Bastante confianza ………. 2 - Poca confianza …………… 3 (150) - Ninguna confianza ……….. 4 - N.S. ………………………… 8 - N.C. ………………………… 9

P.17 ¿Y el líder del principal partido de la oposición, Pedro Sánchez, le inspira, personalmente, mucha confianza, bastante confianza, poca o ninguna confianza?

- Mucha confianza …………. 1 - Bastante confianza ………. 2 - Poca confianza …………… 3 (151) - Ninguna confianza ……….. 4 - N.S. ………………………… 8 - N.C. ………………………… 9

P.18 Suponiendo que mañana se celebrasen elecciones generales, es decir, al Parlamento español, ¿a qué partido votaría Ud.? (RESPUESTA ESPONTÁNEA).

- PP….……………… 01 - FAC ……………. ….... 12 - PSOE.…………… 02 - Geroa Bai .,,,,,,,,,…….. 13 - IU (ICV en Cataluña). 03 - UPN …… … …………. 14 - UPyD.………………… 04 - Podemos ………………. 15 - CiU…………………... 05 - Ciudadanos ...…………. 16 - Amaiur.……………... 06 - Otro partido, ¿cuál? (152)(153) - PNV …………………. 07 - ERC ………………… 08 __________________ - BNG ………………... 09 - En blanco ……………… 96 - CC ..…………………. 10 - No votaría ……...……… 97 - Compromís-Equo ….. 11 - No sabe todavía …….… 98 - N.C. …………………….. 99 P.19 En todo caso, ¿por cuál de los siguientes partidos siente Ud. más simpatía o cuál considera más cercano a sus propias ideas? Puede decirme el nombre del partido, o, si prefiere, el número con el que aparece en esta tarjeta. (MOSTRAR TARJETA PARTIDOS ). (Anotar partido y poner en el cuadro el nº correspondiente que va en la tarjeta). ________________________

Ninguno ………………….. 97 N.S. ………………………. 98 (154)(155) N.C. …………………….… 99 P.20 Cuando se habla de política se utilizan normalmente las expresiones izquierda y derecha. En esta tarjeta hay una serie de casillas que van de izquierda a derecha. ¿En qué casilla se colocaría Ud.? (MOSTRAR TARJETA ESCALA ). (PEDIR A LA PERSONA ENTREVISTADA QUE INDIQUE LA CASILLA EN LA QUE SE COLOCARÍA Y REDONDEAR EL NÚMERO CORRESPONDIENTE). (156)(157) Izda. Dcha. NS NC 01 02 03 04 05 06 07 08 09 10 98 99

P.21 Y, utilizando esa misma escala, por favor dígame dónde colocaría Ud. a cada uno de los siguientes partidos o formaciones políticas? (MOSTRAR TARJETA ESCALA ). (PEDIR A LA PERSONA ENTREVISTADA QUE INDIQUE LA CASILLA EN LA QUE COLOCARÍA A CADA PARTIDO Y APUNTAR EL NÚMERO CORRESPONDIENTE). Escala NS NC 01-10 98 99

- PP…………………………… _____ 98 99 (158)(159) - PSOE……………………….. _____ 98 99 (160)(161) - IU (ICV en Cataluña) ……… _____ 98 99 (162)(163)

- UPyD………………………… _____ 98 99 (164)(165) - Podemos …………………….. _____ 98 99 (166)(167) - Ciudadanos …………………. _____ 98 99 (168)(169) (Sólo en Cataluña) - CiU…………………………… _____ 98 99 (170)(171)

- ERC…...……………………… _____ 98 99 (172)(173)

(Sólo en País Vasco) - PNV…………………………… _____ 98 99 (174)(175) (Sólo en País Vasco y Navarra) - Amaiur…….………………….. _____ 98 99 (176)(177) (Sólo en Galicia) - BNG……..…………………….. _____ 98 99 (178)(179) (Sólo en Canarias) - CC ……….……………………… _____ 98 99 (180)(181)

(Sólo en Comunidad Valenciana) - Compromis-Equo……………... _____ 98 99 (182)(183) (Sólo en Asturias) - FAC…………….………………. _____ 98 99 (184)(185) (Sólo en Navarra) - Geroa Bai.…………………….. _____ 98 99 (186)(187) - UPN…………………............... _____ 98 99 (188)(189)

P.22 Le voy a presentar ahora algunas fórmulas alternativas de organización territorial del Estado en España. Dígame, por favor, con cuál está Ud. más de acuerdo? (MOSTRAR TARJETA C ). - Un Estado con un único Gobierno central sin autonomías ….. 1 - Un Estado en el que las comunidades autónomas tengan

menor autonomía que en la actualidad ……………………….. 2 - Un Estado con comunidades autónomas como en la actua- lidad ………………………………………………………………. 3 - Un Estado en el que las comunidades autónomas tengan mayor autonomía que en la actualidad ………………………. 4 (190) - Un Estado en el que se reconociese a las comunidades au- tónomas la posibilidad de convertirse en estados indepen-

dientes …………………………………………………………… 5 - N.S. ………………………………………………………………… 8 - N.C. …………………………………………………………………. 9 P.23 ¿Cuál de las siguientes frases diría Ud. que expresa mejor sus sentimientos? (MOSTRAR TARJETA GENTILICIOS ). - Se siente únicamente español/a …………………………….. 1 - Se siente más español/a que (gentilicio C.A.) ……………. 2 - Se siente tan español/a como (gentilicio C.A.) …………… 3 - Se siente más (gentilicio C.A.) que español/a ……………. 4 (191) - Se siente únicamente (gentilicio C.A.) ……………………… 5 - (NO LEER) Ninguna de las anteriores ……………………… 7 - N.S. ……………………………………………………………… 8 - N.C. ……………………………………………………………… 9

Page 149: Modelización mediante regresión logística para estimación

P.24 ¿Me podría decir si en las elecciones generales del 20 de noviembre de 2011…? (MOSTRAR TARJETA RECUERDO DE VOTO ).

- Fue a votar y votó …………………... 1 - No tenía edad para votar …………. 2 - Fue a votar pero no pudo hacerlo .. 3 - No fue a votar porque no pudo …… 4 (192) - Prefirió no votar …………………….. 5 - No recuerda ………………………… 8 - N.C. ………………………………….. 9

P.24a ¿Y podría decirme a qué partido o coalición votó? (RESPUESTA ESPONTÁNEA). - PP….……………… 01 - CC-NC…………….….. 10 - PSOE.…………… 02 - Compromís-Equo…….. 11 - IU (ICV en Cataluña). 03 - FAC………… …………. 12 - UPyD.………………… 04 - Geroa Bai………………. 13 (193) - CiU…………………... 05 - Otros partidos.…………. 14 - Amaiur.……………... 06 - En blanco ……………… 15 (194) - PNV ………………... 07 - Voto nulo …….....……… 77 - ERC…………………. 08 - No recuerda …………… 98 - BNG …………………. 09 - N.C. …………………….. 99 P.25 En términos generales, ¿en qué medida se considera Ud. una persona feliz o infeliz? Por favor, use una escala de 0 a 10 en la que 0 significa que se considera “completamente infeliz” y 10 que se considera “completamente feliz”. (MOSTRAR TARJETA D ). Completamente infeliz Completamente feliz 00 01 02 03 04 05 06 07 08 09 10

N.S. …………… 98 (195)(196) N.C. …………… 99 P.26 Sexo:

- Hombre …………….. 1 - Mujer ……………….. 2 (197)

P.27 ¿Cuántos años cumplió Ud. en su último cumpleaños? (198)(199)

N.C. ……………… 99 P.28 ¿Ha ido Ud. a la escuela o cursado algún tipo de estudios? (ENTREVISTADOR/A: en caso negativo, preguntar si sa be leer y escribir). - No, es analfabeto/a ………...… 1 PASAR A P.29 - No, pero sabe leer y escribir … 2 (200) - Sí, ha ido a la escuela ………. 3 - N.C. ……………………………. 9 PASAR A P.29 P.28a ¿Cuáles son los estudios de más alto nivel oficial que Ud. ha cursado (con independencia de que los haya terminado o no)? Por favor, especifique lo más posible, diciéndome el curso en que estaba cuando los terminó (o los interrumpió), y también el nombre que tenían entonces esos estudios: (ej: 3 años de Estudios Primarios, Primaria, 5º de Bachillerato, Maestría Industrial, Preuniversitario, 4º de EGB, Licenciatura, Doctorado, FP1, etc.). (ENTREVISTADOR/A: Si aún está estudiando, anotar el último curso que haya completado . Si no ha completado la Primaria, anotar nº de años que asistió a la escuela). CURSO _______________ NOMBRE (de los estudios) _________________ ________________________________________ NIVEL (Codificar según T. ESTUDIOS ) ________ (201)(202)

P.29 ¿Cómo se define Ud. en materia religiosa: católico/a, creyente de otra religión, no creyente o ateo/a?

- Católico/a ……………………… 1 - Creyente de otra religión ……. 2 - No creyente …………………… 3 (203) - Ateo/a …………………………. 4 - N.C. …………………………….. 9

P.29a ¿Con qué frecuencia asiste Ud. a misa u otros oficios religiosos, sin contar las ocasiones relacionadas con ceremonias de tipo social, por ejemplo, bodas, comuniones o funerales?

- Casi nunca …………………………… 1 - Varias veces al año ………………… 2 - Alguna vez al mes ………………….. 3 (204) - Casi todos los domingos y festivos .. 4 - Varias veces a la semana ………….. 5 - N.C. …………………………………… 9

P.30 ¿Cómo calificaría Ud. su situación económica personal en la actualidad: es muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (205) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.31 Y, ¿cree Ud. que dentro de un año su situación económica personal será mejor, igual o peor que ahora?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (206) - N.S. ……………. 8 - N.C. …………… 9

P.32 ¿Cuál es su estado civil?

- Casado/a…………… 1 - Soltero/a……………. 2 - Viudo/a………..……. 3 (207) - Separado/a…………. 4 - Divorciado/a………… 5 - N.C. ………………… 9

P.32a ¿En cuál de las siguientes situaciones se encuentra Ud.?

- No tiene pareja …………………………………………. 1 - Tiene pareja pero no comparten la misma vivienda … 2 (208) - Tiene pareja y comparten la misma vivienda ……….. 3 - N.C. ………………………………………………………. 9

P.33 ¿Quién es la persona que aporta más ingresos al hogar? - La persona entrevistada …………………………. 1 - Otra persona ……………………………………… 2 - (NO LEER) La persona entrevistada y otra casi (209) a partes iguales ………………………………… 3 - N.C. ………………………………………………… 9 P.34 ¿En cuál de las siguientes situaciones se encuentra Ud. actualmente? (MOSTRAR TARJETA SITUACIÓN LABORAL ). - Trabaja …………………………………………………………. 1 - Jubilado/a o pensionista (anteriormente ha trabajado) ….. 2 - Pensionista (anteriormente no ha trabajado) …………….. 3 - Parado/a y ha trabajado antes ………………….………….. 4 (210) - Parado/a y busca su primer empleo ………………………. 5 - Estudiante …………………………………………………….. 6 - Trabajo doméstico no remunerado ………………………… 7 - Otra situación, ¿cuál? ____________________________ _____________________________________________ 8 - N.C. …………………………………………………………… 9

Page 150: Modelización mediante regresión logística para estimación

SÓLO A QUIENES TRABAJAN (1 en P.34) P.34a ¿Piensa Ud. que es muy probable, bastante, poco o nada probable que durante los próximos doce meses pierda su empleo actual?

- Muy probable …………. 1 - Bastante probable ……. 2 - Poco probable …………. 3 (211) - Nada probable ………… 4 - N.S. …………………….. 8 - N.C. …………………….. 9

SÓLO A QUIENES ESTÁN PARADOS/AS (4 ó 5 en P.34) P.34b ¿Y cree Ud. que es muy probable, bastante, poco o nada probable que durante los próximos doce meses encuentre Ud. trabajo?

- Muy probable …………. 1 - Bastante probable ……. 2 - Poco probable …………. 3 (212) - Nada probable ………… 4 - N.S. …………………….. 8 - N.C. …………………….. 9

ENTREVISTADOR/A: Las preguntas 35, 36, 36a y 37 ref erirlas:

- al trabajo actual (si 1 en P.34) - al último trabajo (si 2 ó 4 en P.34) - al trabajo de la persona que aporta más ingreso s al hogar (si 3, 5, 6, 7 u 8 en P.34) A TODAS LAS PERSONAS ENTREVISTADAS P.35 ¿Y cuál es/era su actual/última ocupación u oficio? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, esteticista, guarda forestal, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal: aquélla por la que Ud. (o la persona que aporta más ingresos al hogar) obtiene/nía mayores ingresos. ______________________________________ ______________________________________ (213)(214)(215) CNO11 N.C. ……….. 999 P.36 ¿Ud. (o la persona que aporta más ingresos al hogar) trabaja (o trabajaba) como…? (MOSTRAR TARJETA RELACIÓN LABORAL ). - Asalariado/a fijo/a (a sueldo, comisión, jornal, etc., con carácter fijo) ……………………………………………….... 1 - Asalariado/a eventual o interino/a (a sueldo, comisión, jornal, etc., con carácter temporal o interino) ……..…….. 2 - Empresario/a o profesional con asalariados/as ……….…. 3 - Profesional o trabajador/a autónomo/a (sin asalaria- dos/as) ……………………………………………………… 4 (216) - Ayuda familiar (sin remuneración reglamentada en la empresa o negocio de un familiar) ………….…………… 5 - Miembro de una cooperativa ……………………….………. 6 - Otra situación, ¿cuál? ___________________________ ____________________________________________ 7 - N.C. …………………………………………………………..... 9 P.36a

P.36a ¿Trabaja/ba Ud. (o la persona que aporta más ingresos al hogar) en la Administración Pública, en una empresa pública, en una empresa privada, en una organización privada sin fines de lucro o

en el servicio doméstico?

- Administración Pública …………………… 1 - Empresa pública ………………………….. 2 - Empresa privada …………………………. . 3 - Organización sin fines de lucro …………. 4 (217) - Servicio doméstico ……………………….. 5 - Otros (especificar) __________________ ________________________________ 6 - N.C. ………………………………………… 9 ENTREVISTADOR/A: Si se trata de un/a funcionario/a, anote también Grupo (A,B,C,D,E) y Nivel del puesto de trabajo (1-30). Grupo __________ Nivel __________ A TODAS LAS PERSONAS ENTREVISTADAS P.37 ¿A qué actividad se dedica principalmente la empresa u organización donde Ud. (o la persona que aporta más ingresos al hogar) trabaja/ba? (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de coches, electricidad, reparaciones, industria del cuero, etc.). ___________________________________ CNAE09 (218)(219)(220)

N.C. …… 999 P.38 Cuando Ud. tenía 16 años, ¿podría decirme, por favor, cuál era la ocupación de su padre? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, guarda forestal, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal: por la que su padre obtenía mayores ingresos.

_________________________________ (221)(222)(223) CNO11 - Parado ……………………………… 995 - Inactivo (ni ocupado, ni parado, o trabajo doméstico no remunera- do, etc.) ………………………….. 996 - No procede (no estaba presente, había fallecido) ………........……. 997 - N.S/No recuerda, ocupación mal especificada ………….....….… 998 - N.C. ……………………………….. 999 A QUIENES CONTESTAN QUE SU PADRE ESTABA TRABAJANDO EN P.38 P.38a ¿A qué actividad se dedicaba principalmente la empresa u organización donde trabajaba su padre cuando Ud. tenía 16 años? (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de coches, electricidad, reparaciones, industria del cuero, etc.). ________________________________ CNAE09 (224)(225)(226)

- N.S./ No recuerda/ actividad económica mal especificada ................................... 998 - N.C. ……………..........................……… 999

Page 151: Modelización mediante regresión logística para estimación

P.39 Cuando Ud. tenía 16 años, ¿podría decirme, por favor, cuál era la ocupación de su madre? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, esteticista, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal: por la que su madre obtenía mayores ingresos. _________________________________

_________________________________ (227)(228)(229) CNO11 - Parada ……………………………… 995 - Inactiva (trabajo doméstico no remunerado, ni ocupada, ni parada, etc.) …………………….. 996 - No procede (no estaba presente, había fallecido, etc.) ……………. 997 - N.S/No recuerda, ocupación mal especificada ………….....….… 998 - N.C. ……………………………….. 999 A QUIENES CONTESTAN QUE SU MADRE ESTABA TRABAJANDO EN P.39 P.39a ¿A qué actividad se dedicaba principalmente la empresa u organización donde trabajaba su madre cuando Ud. tenía 16 años? (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de coches, electricidad, reparaciones, industria del cuero, etc.). ________________________________ (CNAE09) (230)(231)(232)

- N.S./ No recuerda/ actividad económica mal especificada ................................... 998 - N.C. ………..........................…………… 999 P.40 Actualmente, entre todos los miembros del hogar (incluida la persona entrevistada) y por todos los conceptos, ¿de cuántos ingresos disponen por término medio en su hogar al mes, después de la deducción de impuestos (o sea, ingresos netos)? No le pido que me indique la cantidad exacta, sino que me señale en esta tarjeta en qué tramo de la escala están comprendidos los ingresos de su hogar. (MOSTRAR TARJETA INGRESOS ). P.41 ¿Y en qué tramo de esa misma escala están comprendidos sus ingresos personales, después de las deducciones de impuestos, es decir, sus ingresos netos? (MOSTRAR TARJETA INGRESOS ). P.41 P.40 Ingresos Ingresos persona hogar entrevistada (233)(234) (235)(236) - No tiene/n ingresos de ningún tipo .......... 01................ 01 - Menos o igual a 300 € .............................. 02................ 02 - De 301 a 600 € ....................................... 03................ 03 - De 601 a 900 € ....................................... 04................ 04 - De 901 a 1.200 € .................................... 05................ 05 - De 1.201 a 1.800 € ................................. 06................ 06 - De 1.801 a 2.400 € ................................. 07................ 07 - De 2.401 a 3.000 € ................................. 08................ 08 - De 3.001 a 4.500 € ................................. 09................ 09 - De 4.501 a 6.000 € ................................. 10................ 10 - Más de 6.000 € ....................................... 11................ 11 - N.C. ........................................................ 99................ 99

P.42 Para terminar, ¿tiene Ud. la nacionalidad española desde que nació o la ha adquirido con posterioridad? - Desde que nació ………………….… 1 - La ha adquirido con posterioridad … 2 (237) - N.C. ………………………………….. 9

P.42a ¿Cómo definiría Ud. su manejo del castellano?

P.42b (A RELLENAR POR EL/LA ENTREVISTADOR/A) Independientemente de lo que haya contestado esta persona ¿cómo definiría su manejo del castellano?

P.42a P.42b

Entrevistado/a Entrevistador/a (238) (239)

- Lo habla un poco …………….. 2 2 - Lo habla más o menos bien … 3 3 - Lo habla con fluidez …..……… 4 4 - Lo habla como si fuera nativo/a. 5 5 - Es su idioma materno ………… 6 6 - N.S. …………………………….. 8 8

P.43 ¿Le importaría darme su nº de teléfono? (ENTREVISTADOR/A: EXPLICAR QUE ES PARA QUE EL CIS PUEDA HACER UNA POSIBLE COMPROBACIÓN TELEFÓNICA DE QUE LA ENTREVISTA HA SIDO REALIZADA). - Tiene teléfono y da número …. 1 teléfono - No tiene teléfono ……………… 2 - Tiene teléfono y no da número .. 3 (240) - N.C. ……………………………… 9

Page 152: Modelización mediante regresión logística para estimación

A RELLENAR POR EL/LA ENTREVISTADOR/A

P.44 VALORACIÓN DE LA ENTREVISTA: - Se ha realizado la entrevista en presencia de terceras personas …………………………………………………… 1 (241) - (La persona entrevistada) ha expresado deseo de abandonar la entrevista antes de finalizarla ………....... 1 (242) - (La persona entrevistada) se ha sentido incómoda o molesta por el tema de la encuesta …………………… 1 (243) - (La persona entrevistada) ha tenido prisa por acabar la entrevista…………………………………………………... 1 (244)

P.45 ¿Ha habido alguna pregunta concreta que provocara incomo- didad? (ANOTAR Nº DE PREGUNTA. MÁXIMO 5). __________________________________________________ (245)(246)(247) (248)(249)(250) (251)(252)(253) (254)(255)(256) (257)(258)(259)

P.46 ¿Ha habido alguna pregunta concreta que la persona entrevis- tada tuviera dificultades en comprender o tuviera que ser explicada? (ANOTAR Nº DE PREGUNTA. MÁXIMO 5). __________________________________________________ (260)(261)(262) (263)(264)(265) (266)(267)(268) (269)(270)(271) (272)(273)(274)

P.47 ¿Han intervenido activamente terceras personas en el desa- rrollo de la entrevista?

- Sí ……….. 1 (275) - No ………. 2

P.48 Respecto a las tarjetas……. - La persona entrevistada las ha usado todas ……… 1 - Sólo ha usado algunas ….. …………………………. 2 (276) - Las he leído yo………………………………………… 3

P.49 Desarrollo de la entrevista:

- Muy buena …….. 1 - Buena ………….. 2 - Regular ………… 3 (277) - Mala ……………. 4 - Muy mala ……… 5

P.50 Sinceridad de la persona entrevistada:

- Mucha ………….. 1 - Bastante ……….. 2 (278) - Poca ……………. 3 - Ninguna ………… 4

Page 153: Modelización mediante regresión logística para estimación

A RELLENAR POR EL/LA ENTREVISTADOR/A

INCIDENCIAS ENTREVISTA: I.1 Número de orden de entrevista (por muestra) ……………………………………………………………… _______ (279)(280)(281) I.2 Dificultad de acceso al edificio, casa, urbanización, etc. …………………………………………………. _______ (282)(283)(284) I.3. Viviendas en las que no hay nadie …………………………………………………………………………… _______ (285)(286)(287) I.4 Viviendas en las que se niegan a recibir ninguna explicación ……………………………………………. _______ (288)(289)(290) I.5 Negativas de hombres a realizar la entrevista ………………………………………………………………. _______ (291)(292)(293) I.6 Negativas de mujeres a realizar la entrevista ………………………………………………………………. _______ (294)(295)(296) I.7 Contactos fallidos por no cumplir cuotas ……………………………………………………………………. _______ (297)(298)(299) I.8 Contactos fallidos por no ser una vivienda (oficinas, consultas médicas, etc.) …………………………. _______ (300)(301)(302) I.9. Viviendas de inmigrantes ……………………………………………………………………………………… _______ (303)(304)(305) ENTREVISTA REALIZADA:

Entrevista conseguida: ___________________________________________________________________ ______ ______ ______ (calle o plaza) (nº) (piso) (pta.)

E.1 Fecha de realización: __________________ 01 15 (Día) (Mes) (Año) (306)(307) (308)(309) (310)(311)

E.2 Día de la semana que se realiza la entrevista: Lunes ………….. 1 Martes …………. 2 Miércoles ……… 3 Jueves …………. 4 (312) Viernes ……….. 5 Sábado ……….. 6 Domingo ……… 7 E.3 Duración de la entrevista: _________ (en minutos) (313)(314)(315) E.4 Hora de realización: La mañana (9-12) ………… 1 Mediodía (12-4) …………… 2 (316) Tarde (4-8) ………………… 3 Noche (8-10) ……………… 4

A RELLENAR EN CODIFICACIÓN

C.1 CUESTIONARIO CUMPLIMENTADO: Correcto ………………….. 1 (317) Incorrecto ………………… 2 C.1a MOTIVO: __________ (318)(319) C.3 RESULTADO FINAL: Entrevista válida …………………….. 1 (324) Entrevista anulada ………………….. 2 C.4 CODIFICADOR Nº ________ (325)(326)

C.2 VALORACIÓN DE LA INSPECCIÓN:

Entrevista no inspeccionada ……………….. 1 Inspección telefónica ……………………….. 2 (320) Inspección personal ………………………… 3 Inspección telefónica y personal ………….. 4

C.2a Resultado inspección: Entrevista correcta …………………………. 1 (321) Entrevista incorrecta ………………………. 2 No se ha establecido contacto ……………. 3 C.2b MOTIVO: __________ (322)(323)

Page 154: Modelización mediante regresión logística para estimación
Page 155: Modelización mediante regresión logística para estimación

INFORMACIÓN SUJETA A SECRETO ESTADÍSTICO (Ley 12/89, de 9 de mayo, de la Función Estadística Pública)

Encuesta incluida en el Plan Estadístico Nacional 2013-2016 aprobado por el Real Decreto 1663/2008, de 17 de octubre

Departamento de Investigación

JULIO 2015

Comunidad autónoma (10)(11) Nº ESTUDIO Nº CUESTIONARIO 3 1 0 4 Provincia (12)(13) (1)(2)(3)(4) (5)(6)(7)(8)(9) Municipio (14)(15)(16) (nombre municipio) Tamaño de hábitat (17)(18) Distrito (19)(20) Sección (21)(22)(23) Entrevistador/a (24)(25)(26)(27) Buenos días/tardes. El Centro de Investigaciones Sociológicas está realizando un estudio sobre temas de interés general. Por este motivo solicitamos su colaboración y se la agradecemos anticipadamente. Esta vivienda ha sido seleccionada al azar mediante métodos aleatorios. Le garantizamos el absoluto anonimato y secreto de sus respuestas en el más estricto cumplimiento de las leyes sobre secreto estadístico y protección de datos personales. Una vez grabada la información de forma anónima, los cuestionarios individuales son destruidos. P.0 En primer lugar querría preguntarle si tiene Ud. la nacionalidad...

- Española …………………..…. 1 (28) - Española y otra …………….. 2 - Otra nacionalidad ………….. 3 FIN DE LA ENTREVISTA

P.0a ¿Cuál? __________________________________________ (29)(30)(31) N.C. ………….. 999

P.1 Para empezar, refiriéndonos a la situación económica general de España, ¿cómo la calificaría Ud.: muy buena, buena, regular, mala o muy mala?

- Muy buena ……. 1 - Buena ………… 2 - Regular ……….. 3 - Mala……………. 4 (32) - Muy mala …….. 5 - N.S. …………… 8 - N.C. …………… 9

P.2 Y, ¿cree Ud. que la situación económica actual del país es mejor, igual o peor que hace un año?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (33) - N.S. ……………. 8 - N.C. …………… 9 P.3 Y, ¿cree Ud. que dentro de un año la situación económica del país será mejor, igual o peor que ahora? - Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (34) - N.S. ……………. 8 - N.C. …………… 9

P.4 Y refiriéndonos ahora a la situación política general de España, ¿cómo la calificaría Ud.: muy buena, buena, regular, mala o muy mala? - Muy buena ……. 1 - Buena ………… 2 - Regular ……….. 3 - Mala……………. 4 (35) - Muy mala …….. 5 - N.S. …………… 8 - N.C. …………… 9 P.5 ¿Y cree Ud. que la situación política actual del país es mejor, igual o peor que hace un año?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (36) - N.S. ……………. 8 - N.C. …………… 9 P.6 Y, ¿cree Ud. que dentro de un año la situación política del país será mejor, igual o peor que ahora? - Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (37) - N.S. ……………. 8 - N.C. …………… 9 P.7 ¿Cuál es, a su juicio, el principal problema que existe actualmente en España? ¿Y el segundo? ¿Y el tercero?

____________________________________________ (38)(39) ____________________________________________ (40)(41) ____________________________________________ (42)(43) N.S. …………… 98 N.C. …………… 99 P.8 ¿Y cuál es el problema que a Ud., personalmente, le afecta más? ¿Y el segundo? ¿Y el tercero?

____________________________________________ (44)(45) ____________________________________________ (46)(47) ____________________________________________ (48)(49) N.S. …………… 98

N.C. …………… 99

Page 156: Modelización mediante regresión logística para estimación

P.9 ¿Cómo se definiría Ud. en política según la siguiente clasificación? (MOSTRAR TARJETA A).

P.9a ¿Y con alguna más? (MOSTRAR TARJETA A). P.9 P.9a

- Conservador/a …………..…..….. 01 01 - Demócrata cristiano/a …………. 02 02 - Liberal ……………………………. 03 03 - Progresista ……………………… 04 04 - Socialdemócrata ……………….. 05 (50) 05 (52) - Socialista ……………………….. 06 06 - Comunista ………………………. 07 07 - Nacionalista …………………….. 08 (51) 08 (53) - Feminista………………………… 09 09 - Ecologista ……………………… 10 10 - Otra respuesta, ¿cuál?

__________________________ 11 11 - N.S. ……………………………… 98 98 - N.C. ……………………………… 99 99

P.10 Como Ud. sabe, en España hay distintos partidos o coaliciones políticas a las que puede votar en unas elecciones. Me gustaría que me dijera cuál es la probabilidad de que Ud. vote a cada uno de los que le voy a mencionar, utilizando para ello una escala de 0 a 10, sabiendo que el 0 significa que “con toda seguridad, no le votaría nunca” y el 10 significa que “con toda seguridad, le votaría siempre”. (MOSTRAR TARJETA B). Escala NS NC 00-10 98 99

- PP…………………………… _____ 98 99 (54)(55) - PSOE……………………….. _____ 98 99 (56)(57) - IU (ICV en Cataluña) ……… _____ 98 99 (58)(59)

- UPyD……………………… … _____ 98 99 (60)(61) - Podemos……………………. . _____ 98 99 (62)(63) - Ciudadanos….…………… … _____ 98 99 (64)(65) (Sólo en Cataluña) - CiU…………………………… _____ 98 99 (66)(67)

- ERC…...…………………….. _____ 98 99 (68)(69)

(Sólo en País Vasco) - PNV…………………………. _____ 98 99 (70)(71) (Sólo en País Vasco y Navarra) - Amaiur…….………………… _____ 98 99 (72)(73) (Sólo en Galicia) - BNG……..…………………… _____ 98 99 (74)(75) (Sólo en Canarias) - CC ……..………………….… _____ 98 99 (76)(77)

(Sólo en Comunidad Valenciana) - Compromís-Equo…………... _____ 98 99 (78)(79) (Sólo en Asturias) - FAC…………….…………….. _____ 98 99 (80)(81) (Sólo en Navarra) - Geroa Bai.…………………... _____ 98 99 (82)(83) - UPN…………………............ ... _____ 98 99 (84)(85)

P.11 Le agradecería que me indicara si conoce a cada uno/a de los/as siguientes líderes políticos/as y qué valoración le merece su actuación política. Puntúelos/as de 0 a 10, sabiendo que el 0 significa que lo/a valora “muy mal” y el 10 que lo/a valora “muy bien”.

No Valo- conoce ración NS NC 97 00-10 98 99

- Enrique Álvarez Sostres……………. 97 _____ 98 99 (86)(87) - Joan Baldoví Roda ………………... 97 _____ 98 99 (88)(89) - Uxue Barkos .…………….…..…….... 97 _____ 98 99 (90)(91) - Alfred Bosch……………………….… 97 _____ 98 99 (92)(93) - Rosa Díez ……………………………. 97 _____ 98 99 (94)(95) - Josep A. Durán i Lleida ……………. 97 _____ 98 99 (96)(97) - Aitor Esteban ……..………………... 97 _____ 98 99 (98)(99) - Xabier Mikel Errekondo ………….… 97 _____ 98 99 (100)(101) - María Olaia Fernández ……………… 97 _____ 98 99 (102)(103) - Cayo Lara………………………….….. 97 _____ 98 99 (104)(105) - Ana María Oramas …………………… 97 _____ 98 99 (106)(107) - Mariano Rajoy…….…………………… 97 _____ 98 99 (108)(109) - Carlos Salvador ….…………………… 97 _____ 98 99 (110)(111) - Pedro Sánchez ……………………….. 97 _____ 98 99 (112)(113) P.12 En su conjunto, ¿cómo calificaría Ud. la gestión que está haciendo el Gobierno del PP: muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (114) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.13 Y, en general, ¿cómo calificaría la actuación política que está teniendo el PSOE en la oposición: muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (115) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.14 A continuación voy a leerle la lista de las ministras y ministros que forman el Gobierno. Dígame, por favor, para cada uno/a de ellos/as si lo/a conoce y cómo lo/a valoraría en una escala de 0 a 10, sabiendo que el 0 significa que lo/a valora muy mal y el 10 que lo/a valora muy bien. No Valo-

conoce ración NS NC 97 00-10 98 99

- Alfonso Alonso ……..………..…… 97 _____ 98 99 (116)(117) - Fátima Báñez ……………………… 97 _____ 98 99 (118)(119) - Rafael Catalá Polo ……………….. 97 _____ 98 99 (120)(121) - Jorge Fernández Díaz ….………… 97 _____ 98 99 (122)(123) - José Manuel García Margallo …… 97 _____ 98 99 (124)(125) - Isabel García Tejerina …………….. 97 _____ 98 99 (126)(127) - Luis de Guindos …….…….……... 97 _____ 98 99 (128)(129)

Page 157: Modelización mediante regresión logística para estimación

No Valo- conoce ración NS NC 97 00-10 98 99

- Íñigo Méndez de Vigo y Montojo . … 97 _____ 98 99 (130)(131) - Cristóbal Montoro .……………….. 97 _____ 98 99 (132)(133) - Pedro Morenés …..…………….… 97 _____ 98 99 (134)(135) - Ana Pastor ………………………… 97 _____ 98 99 (136)(137) - Soraya Sáenz de Santamaría ….... 97 _____ 98 99 (138)(139) - José Manuel Soria ………………. … 97 _____ 98 99 (140)(141) P.15 El presidente del Gobierno, Mariano Rajoy, ¿le inspira, personalmente, mucha confianza, bastante confianza, poca o ninguna confianza?

- Mucha confianza …………. 1 - Bastante confianza ………. . 2 - Poca confianza …………… 3 (142) - Ninguna confianza ……….. 4 - N.S. ………………………… 8 - N.C. ………………………… 9

P.16 ¿Y el líder del principal partido de la oposición, Pedro Sánchez, le inspira, personalmente, mucha confianza, bastante confianza, poca o ninguna confianza?

- Mucha confianza …………. 1 - Bastante confianza ……... 2 - Poca confianza …………… 3 (143) - Ninguna confianza ……….. 4 - N.S. ………………………… 8 - N.C. ………………………… 9

P.17 Suponiendo que mañana se celebrasen elecciones generales, es decir, al Parlamento español, ¿a qué partido votaría Ud.? (RESPUESTA ESPONTÁNEA).

- PP….………………… 01 - FAC ……………. ….... … 12 - PSOE.……………. … 02 - Geroa Bai .,,,,,,,,,…….. 13 - IU (ICV en Cataluña). 03 - UPN …….….………….. 14 - UPyD.……………..… 04 - Podemos ……………… 15 - CiU…………………... 05 - Ciudadanos ...………… 16 - Amaiur.……………... 06 - Otro partido, ¿cuál? (144)(145) - PNV …………………. 07 ____________________ 95 - ERC ………………… 08 - BNG ………………... 09 - En blanco ……………… 96 - CC ..…………………. 10 - No votaría ……...……… 97 PASAR - Compromís-Equo … 11 - No sabe todavía …….… 98 A P.18 - N.C. …………………….. 99 P.17a Entre las siguientes, ¿cuál es la razón principal que motivará esa opción política en las próximas elecciones? (MOSTRAR TARJETA C).

- Es la fuerza política que mejor defiende los intereses de España…………………………. 1 - Es quien mejor representa las ideas e intereses de la gente como Ud. …………………….………. 2 - Para evitar que gane otro partido ………………. 3 (146) - Siempre vota a esta opción política……………. 4 - Por necesidad de cambio, de otras alternativas 5 - Por rechazo, insatisfacción, castigo a los partidos de siempre………………………………. 6 - N.S. ………………………………………………… 8 - N.C. ……………………………………………… .. 9

A TODAS LAS PERSONAS ENTREVISTADAS

P.18 En todo caso, ¿por cuál de los siguientes partidos siente Ud. más simpatía o cuál considera más cercano a sus propias ideas? Puede decirme el nombre del partido o, si prefiere, el número con el que aparece en esta tarjeta. (MOSTRAR TARJETA PARTIDOS). (Anotar partido y poner en el cuadro el nº correspondiente que va en la tarjeta). ________________________

Ninguno ………………….. 97 N.S. ………………………. 98 (147)(148) N.C. …………………….… 99 P.19 Suponiendo que mañana se celebrasen elecciones generales, es decir, al Parlamento español, ¿qué partido o coalición cree Ud. que ganaría? (RESPUESTA ESPONTÁNEA. NO LEER). P.20 ¿Y cuál le gustaría a Ud. que ganase? (RESPUESTA ESPONTÁNEA. NO LEER).

P.19 P.20 Cree que ganaría Le gustaría que ganase

(149)(150) (151)(152) - PP … …………………. 01 01 - PSOE…………… …….. 02 02 - IU (ICV en Cataluña) … 03 03 - UPyD………………….. . 04 04 - CiU …………………….. 05 05 - Amaiur……………….… 06 06 - PNV ………………….… 07 07 - ERC ……….…………... 08 08 - BNG ……………..….…. 09 09 - CC …………………..… 10 10 - Compromís-Equo……. 11 11 - FAC …………………… 12 12 - Geroa Bai …………..… 13 13 - UPN …………………… 14 14 - Podemos …………….. 15 15 - Ciudadanos…………… 16 16 - Otro partido …………… 17 17 - N.S. ………….…….… .. 98 98 - N.C. …………………… 99 99 P.21 En el caso de que ninguna fuerza política alcance la mayoría absoluta, de las siguientes alternativas para formar Gobierno, ¿cuál es la que Ud. prefiere? (MOSTRAR TARJETA D). - Un Gobierno del PP en solitario …………………..…….. … 01 - Un Gobierno del PSOE en solitario …………………..…… . 02 - Un Gobierno de coalición del PP y PSOE ………………. . 03 - Un Gobierno de coalición del PP y Ciudadanos…………. . 04 - Un Gobierno de coalición del PP y Podemos ……………. . 05 (153) - Un Gobierno de coalición del PSOE y Ciudadanos……… . 06 (154) - Un Gobierno de coalición del PSOE y Podemos ………… 07 - (NO LEER) Otra alternativa, ¿cuál__________________ _____________________________________________ 08 - N.S. ……………………………………………………………. 98 - N.C. …………………………………………………………… 99 P.22 Cuando se habla de política se utilizan normalmente las expresiones izquierda y derecha. En esta tarjeta hay una serie de casillas que van de izquierda a derecha. ¿En qué casilla se colocaría Ud.? (MOSTRAR TARJETA ESCALA). (PEDIR A LA PERSONA ENTREVISTADA QUE INDIQUE LA CASILLA EN LA QUE SE COLOCARÍA Y REDONDEAR EL NÚMERO CORRESPONDIENTE). (155)(156) Izda. Dcha. NS NC 01 02 03 04 05 06 07 08 09 10 98 99

SÓLO A QUIENES DECLARAN INTENCIÓN DE VOTO: TODOS/AS EXCEPTO QUIENES CONTESTAN 96, 97, 98 ó 99 EN P17

Page 158: Modelización mediante regresión logística para estimación

P.23 Y, utilizando esa misma escala, por favor dígame dónde colocaría Ud. a cada uno de los siguientes partidos o formaciones políticas. (MOSTRAR TARJETA ESCALA). (PEDIR A LA PERSONA ENTREVISTADA QUE INDIQUE LA CASILLA EN LA QUE COLOCARÍA A CADA PARTIDO Y APUNTAR EL NÚMERO CORRESPONDIENTE). Escala NS NC 01-10 98 99

- PP………………………….… _____ 98 99 (157)(158) - PSOE……………………….. _____ 98 99 (159)(160) - IU (ICV en Cataluña) ……… _____ 98 99 (161)(162)

- UPyD………………………… _____ 98 99 (163)(164) - Podemos …………………… _____ 98 99 (165)(166) - Ciudadanos …………….… _____ 98 99 (167)(168) (Sólo en Cataluña) - CiU…………………………… _____ 98 99 (169)(170)

- ERC…...……………………… _____ 98 99 (171)(172)

(Sólo en País Vasco) - PNV…………………………… _____ 98 99 (173)(174) (Sólo en País Vasco y Navarra) - Amaiur ..….………………….. _____ 98 99 (175)(176) (Sólo en Galicia) - BNG……..…………………….. _____ 98 99 (177)(178) (Sólo en Canarias) - CC ……….……………………… _____ 98 99 (179)(180)

(Sólo en Comunidad Valenciana) - Compromís-Equo ……………... _____ 98 99 (181)(182) (Sólo en Asturias) - FAC…………….………………. _____ 98 99 (183)(184) (Sólo en Navarra) - Geroa Bai.…………………….. _____ 98 99 (185)(186) - UPN…………………............... _____ 98 99 (187)(188)

P.24 Le voy a presentar ahora algunas fórmulas alternativas de organización territorial del Estado en España. Dígame, por favor, con cuál está Ud. más de acuerdo. (MOSTRAR TARJETA E). - Un Estado con un único Gobierno central sin autonomías …. 1 - Un Estado en el que las comunidades autónomas tengan

menor autonomía que en la actualidad …………………….. 2 - Un Estado con comunidades autónomas como en la actua- lidad ……………………………………………………………… 3 - Un Estado en el que las comunidades autónomas tengan mayor autonomía que en la actualidad ………………………. 4 (189) - Un Estado en el que se reconociese a las comunidades au- tónomas la posibilidad de convertirse en estados indepen-

dientes …………………………………………………………….. 5 - N.S. ………………………………………………………………… 8 - N.C. …………………………………………………………………. 9 P.25 ¿Cuál de las siguientes frases diría Ud. que expresa mejor sus sentimientos? (MOSTRAR TARJETA GENTILICIOS). - Se siente únicamente español/a …………………………… 1 - Se siente más español/a que (gentilicio C.A.) …………. 2 - Se siente tan español/a como (gentilicio C.A.) …………. 3 - Se siente más (gentilicio C.A.) que español/a …………. . 4 (190) - Se siente únicamente (gentilicio C.A.) …………………… 5 - (NO LEER) Ninguna de las anteriores …………………… 7 - N.S. …………………………………………………………… 8 - N.C. …………………………………………………………… 9

P.26 ¿Me podría decir si en las elecciones generales del 20 de noviembre de 2011…? (MOSTRAR TARJETA RECUERDO DE VOTO).

- Fue a votar y votó ………………….. 1 - No tenía edad para votar ………….. . 2 - Fue a votar pero no pudo hacerlo ... 3 - No fue a votar porque no pudo …… 4 (191) - Prefirió no votar …………………….. 5 - No recuerda ……………………….… 8 - N.C. …………………………………... 9

P.26a ¿Y podría decirme a qué partido o coalición votó? (RESPUESTA ESPONTÁNEA). - PP….…………….… 01 - CC-NC………………….. 10 - PSOE.…………..… 02 - Compromís-Equo…….. 11 - IU (ICV en Cataluña). 03 - FAC………… …………. 12 - UPyD.………………. 04 - Geroa Bai………………. 13 (192) - CiU…………………... 05 - Otros partidos.……….. 14 - Amaiur.……………... 06 - En blanco ……………… 15 (193) - PNV ……………….... 07 - Voto nulo …….........… 77 - ERC…………………. 08 - No recuerda …………… 98 - BNG …………………. 09 - N.C. …………………….. 99 P.27 A continuación voy a leerle dos opiniones sobre el voto en elecciones de distinto tipo (municipales, autonómicas, generales…). Dígame, por favor, cuál expresa mejor su propia opinión. - Lo normal es votar al mismo partido en todas las elecciones .. 1 - En elecciones distintas puede ser conveniente votar por (194) un partido diferente …………………………………………..….. 2 - N.S. …………………………………………………………………. 8 - N.C. …………………………………………………………………. 9 P.28 En términos generales, ¿en qué medida se considera Ud. una persona feliz o infeliz? Por favor, use una escala de 0 a 10, en la que 0 significa que se considera “completamente infeliz” y 10 que se considera “completamente feliz”. (MOSTRAR TARJETA F). Completamente Completamente infeliz feliz 00 01 02 03 04 05 06 07 08 09 10

N.S. …………… 98 N.C. …………… 99 (195)(196) P.29 Sexo:

- Hombre …………….. 1 - Mujer ……………….. 2 (197)

P.30 ¿Cuántos años cumplió Ud. en su último cumpleaños? (198)(199)

N.C. ……………… 99 P.31 ¿Ha ido Ud. a la escuela o cursado algún tipo de estudios? (ENTREVISTADOR/A: en caso negativo, preguntar si sabe leer y escribir). - No, es analfabeto/a ………...… 1 PASAR A P.32 - No, pero sabe leer y escribir … 2 (200) - Sí, ha ido a la escuela ……….. 3 - N.C. …………………………..…. 9 PASAR A P.32 P.31a

Page 159: Modelización mediante regresión logística para estimación

P.31a ¿Cuáles son los estudios de más alto nivel oficial que Ud. ha cursado (con independencia de que los haya terminado o no)? Por favor, especifique lo más posible, diciéndome el curso en que estaba cuando los terminó (o los interrumpió), y también el nombre que tenían entonces esos estudios: (ej: 3 años de Estudios Primarios, Primaria, 5º de Bachillerato, Maestría Industrial, Preuniversitario, 4º de EGB, Licenciatura, Doctorado, FP1, etc.). (ENTREVISTADOR/A: Si aún está estudiando, anotar el último curso que haya completado. Si no ha completado la Primaria, anotar nº de años que asistió a la escuela). CURSO __________________________________ NOMBRE (de los estudios) _________________ ________________________________________ NIVEL (Codificar según T. ESTUDIOS) ________ (201)(202) P.32 ¿Cómo se define Ud. en materia religiosa: católico/a, creyente de otra religión, no creyente o ateo/a?

- Católico/a ……………………… 1 - Creyente de otra religión …… . 2 - No creyente …………………… 3 (203) - Ateo/a ………………………… . 4 - N.C. …………………………….. 9

P.32a ¿Con qué frecuencia asiste Ud. a misa u otros oficios religiosos, sin contar las ocasiones relacionadas con ceremonias de tipo social, por ejemplo, bodas, comuniones o funerales?

- Casi nunca …………………………… 1 - Varias veces al año ………………… 2 - Alguna vez al mes ………………….. 3 (204) - Casi todos los domingos y festivos . 4 - Varias veces a la semana ………….. 5 - N.C. …………………………………… 9

P.33 ¿Cómo calificaría Ud. su situación económica personal en la actualidad: es muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (205) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.34 Y, ¿cree Ud. que dentro de un año su situación económica personal será mejor, igual o peor que ahora?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (206) - N.S. ……………. 8 - N.C. …………… 9

P.35 ¿Cuál es su estado civil?

- Casado/a…………… 1 - Soltero/a……………. 2 - Viudo/a………..……. 3 (207) - Separado/a…………. 4 - Divorciado/a………… 5 - N.C. ………………… 9

P.35a ¿En cuál de las siguientes situaciones se encuentra Ud.?

- No tiene pareja …………………………………………. 1 - Tiene pareja pero no comparten la misma vivienda 2 (208) - Tiene pareja y comparten la misma vivienda ……….. 3 - N.C. ………………………………………………………. 9

P.36 ¿Quién es la persona que aporta más ingresos al hogar? - La persona entrevistada …………………………. 1 - Otra persona ……………………………………… 2 - (NO LEER) La persona entrevistada y otra casi (209) a partes iguales ………………………………… 3 - N.C. ………………………………………………… 9 P.37 ¿En cuál de las siguientes situaciones se encuentra Ud. actualmente? (MOSTRAR TARJETA SITUACIÓN LABORAL). - Trabaja …………………………………………………………. 1 - Jubilado/a o pensionista (anteriormente ha trabajado) ….. 2 - Pensionista (anteriormente no ha trabajado) …………….. 3 - Parado/a y ha trabajado antes ………………….………….. 4 (210) - Parado/a y busca su primer empleo ………………………. 5 - Estudiante …………………………………………………….. 6 - Trabajo doméstico no remunerado ………………………… 7 - Otra situación, ¿cuál? ____________________________ _____________________________________________ 8 - N.C. …………………………………………………………… 9 SÓLO A QUIENES TRABAJAN (1 en P.37) P.37a ¿Piensa Ud. que es muy probable, bastante, poco o nada probable que durante los próximos doce meses pierda su empleo actual?

- Muy probable …………. 1 - Bastante probable ……. 2 - Poco probable …………. 3 (211) - Nada probable ………… 4 - N.S. …………………….. 8 - N.C. …………………….. 9

SÓLO A QUIENES ESTÁN PARADOS/AS (4 ó 5 en P.37) P.37b ¿Y cree Ud. que es muy probable, bastante, poco o nada probable que durante los próximos doce meses encuentre Ud. trabajo?

- Muy probable …………. 1 - Bastante probable ……. 2 - Poco probable …………. 3 (212) - Nada probable ………… 4 - N.S. …………………….. 8 - N.C. …………………….. 9

ENTREVISTADOR/A: Las preguntas 38, 39, 39a y 40 referirlas: - al trabajo actual (si 1 en P.37) - al último trabajo (si 2 ó 4 en P.37) - al trabajo de la persona que aporta más ingresos al hogar (si 3, 5, 6, 7 u 8 en P.37) A TODAS LAS PERSONAS ENTREVISTADAS P.38 ¿Y cuál es/era su actual/última ocupación u oficio? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, esteticista, guarda forestal, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal: aquélla por la que Ud. (o la persona que aporta más ingresos al hogar) obtiene/nía mayores ingresos. ______________________________________ ______________________________________ (213)(214)(215) CNO11 N.C. ……….. 999

Page 160: Modelización mediante regresión logística para estimación

P.39 ¿Ud. (o la persona que aporta más ingresos al hogar) trabaja (o trabajaba) como…? (MOSTRAR TARJETA RELACIÓN LABORAL). - Asalariado/a fijo/a (a sueldo, comisión, jornal, etc., con carácter fijo) ………………………………………………... 1 - Asalariado/a eventual o interino/a (a sueldo, comisión, jornal, etc., con carácter temporal o interino) ………….. 2 - Empresario/a o profesional con asalariados/as …………. . 3 - Profesional o trabajador/a autónomo/a (sin asalaria- dos/as) ……………………………………………………… 4 (216) - Ayuda familiar (sin remuneración reglamentada en la empresa o negocio de un familiar) ………….…………… 5 - Miembro de una cooperativa ……………………….……… 6 - Otra situación, ¿cuál? ___________________________ ____________________________________________ 7

- N.C. …………………………………………………………... 9 P.39a ¿Trabaja/ba Ud. (o la persona que aporta más ingresos al hogar) en la Administración Pública, en una empresa pública, en una empresa privada, en una organización privada sin fines de lucro o

en el servicio doméstico?

- Administración Pública ………………..…. 1 - Empresa pública ………………………….. 2 - Empresa privada …………………………. . 3 - Organización sin fines de lucro ………… . 4 (217) - Servicio doméstico ……………………….. 5 - Otros (especificar) __________________ ________________________________ 6 - N.C. ………………………………………… 9 ENTREVISTADOR/A: Si se trata de un/a funcionario/a, anote también Grupo (A,B,C,D,E) y Nivel del puesto de trabajo (1-30). Grupo __________ Nivel __________ A TODAS LAS PERSONAS ENTREVISTADAS P.40 ¿A qué actividad se dedica principalmente la empresa u organización donde Ud. (o la persona que aporta más ingresos al hogar) trabaja/ba? (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de coches, electricidad, reparaciones, industria del cuero, etc.). ___________________________________ CNAE09 (218)(219)(220)

N.C. …… 999 P.41 Cuando Ud. tenía 16 años, ¿podría decirme, por favor, cuál era la ocupación de su padre? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, esteticista, guarda forestal, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal: por la que su padre obtenía mayores ingresos. _________________________________

_________________________________ (221)(222)(223) CNO11 - Parado …………………………… 995 - Inactivo (ni ocupado, ni parado, o trabajo doméstico no remunera- do, etc.) ………………………….. 996 - No procede (no estaba presente, había fallecido, etc.) ……………. 997 - N.S/No recuerda ………………… 998 - N.C. ……………………………….. 999

A QUIENES CONTESTAN QUE SU PADRE ESTABA TRABAJANDO EN P.41 P.41a ¿A qué actividad se dedicaba principalmente la empresa u organización donde trabajaba su padre cuando Ud. tenía 16 años? (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de coches, electricidad, reparaciones, industria del cuero, etc.). ________________________________ CNAE09 (224)(225)(226)

N.C. …………………… 999 P.42 Cuando Ud. tenía 16 años, ¿podría decirme, por favor, cuál era la ocupación de su madre? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, esteticista, guarda forestal, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal: por la que su madre obtenía mayores ingresos. _________________________________

_________________________________ (227)(228)(229) CNO11 - Parada …………………………… 995 - Inactiva (trabajo doméstico no remunerado, ni ocupada, ni parada, etc.) …………………….. 996 - No procede (no estaba presente, había fallecido, etc.) ……………. 997 - N.S/No recuerda ………………… 998 - N.C. ……………………………….. 999 A QUIENES CONTESTAN QUE SU MADRE ESTABA TRABAJANDO EN P.42 P.42a ¿A qué actividad se dedicaba principalmente la empresa u organización donde trabajaba su madre cuando Ud. tenía 16 años? (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de coches, electricidad, reparaciones, industria del cuero, etc.). ________________________________ (CNAE09) (230)(231)(232)

N.C. …………………… 999 P.43 Actualmente, entre todos los miembros del hogar (incluida la persona entrevistada) y por todos los conceptos, ¿de cuántos ingresos disponen por término medio en su hogar al mes, después de la deducción de impuestos (o sea, ingresos netos)? No le pido que me indique la cantidad exacta, sino que me señale en esta tarjeta en qué tramo de la escala están comprendidos los ingresos de su hogar. (MOSTRAR TARJETA INGRESOS). P.44 ¿Y en qué tramo de esa misma escala están comprendidos sus ingresos personales, después de las deducciones de impuestos, es decir, sus ingresos netos? (MOSTRAR TARJETA INGRESOS). P.44 P.43 Ingresos Ingresos persona hogar entrevistada (233)(234) (235)(236) - No tiene/n ingresos de ningún tipo .......... 01................ 01 - Menos o igual a 300 € ............................. . 02............... . 02 - De 301 a 600 € ....................................... 03................ 03 - De 601 a 900 € ....................................... 04................ 04 - De 901 a 1.200 € .................................... 05................ 05 - De 1.201 a 1.800 € ................................. 06................ 06 - De 1.801 a 2.400 € ................................. 07................ 07 - De 2.401 a 3.000 € ................................. 08................ 08 - De 3.001 a 4.500 € ................................. 09................ 09 - De 4.501 a 6.000 € ................................. 10................ 10 - Más de 6.000 € ....................................... 11................ 11 - N.C. ........................................................ 99................ 99

Page 161: Modelización mediante regresión logística para estimación

P.45 Para terminar, ¿tiene Ud. la nacionalidad española desde que nació o la ha adquirido con posterioridad?

- Desde que nació ………………….… 1 - La ha adquirido con posterioridad … 2 (237) - N.C. ………………………………….. 9

P.45a ¿Cómo definiría Ud. su manejo del castellano?

P.45b (A RELLENAR POR EL/LA ENTREVISTADOR/A) Independientemente de lo que haya contestado esta persona ¿cómo definiría su manejo del castellano?

P.45a P.45b Entrevistado/a Entrevistador/a (238) (239)

- Lo habla un poco ……………... 2 2 - Lo habla más o menos bien … 3 3 - Lo habla con fluidez …..……… 4 4 - Lo habla como si fuera nativo/a . 5 5 - Es su idioma materno ………… 6 6 - N.S. …………………………….. 8 8

- N.C. …………………………….. 9 9 P.46 ¿Le importaría darme su nº de teléfono? (ENTREVISTADOR/A: EXPLICAR QUE ES PARA QUE EL CIS PUEDA HACER UNA POSIBLE COMPROBACIÓN TELEFÓNICA DE QUE LA ENTREVISTA HA SIDO REALIZADA). - Tiene teléfono y da número …. 1 teléfono - No tiene teléfono ……………… 2 - Tiene teléfono y no da número .. 3 (240) - N.C. ……………………………… 9

A RELLENAR POR EL/LA ENTREVISTADOR/A

P.47 VALORACIÓN DE LA ENTREVISTA: - Se ha realizado la entrevista en presencia de terceras personas …………………………………………………… 1 (241) - (La persona entrevistada) ha expresado deseo de abandonar la entrevista antes de finalizarla ………....... 1 (242) - (La persona entrevistada) se ha sentido incómoda o molesta por el tema de la encuesta …………………… 1 (243) - (La persona entrevistada) ha tenido prisa por acabar la entrevista…………………………………………………... 1 (244)

P.48 ¿Ha habido alguna pregunta concreta que provocara incomo- didad? (ANOTAR Nº DE PREGUNTA. MÁXIMO 5). __________________________________________________ (245)(246)(247) (248)(249)(250) (251)(252)(253) (254)(255)(256) (257)(258)(259)

P.49 ¿Ha habido alguna pregunta concreta que la persona entrevis- tada tuviera dificultades en comprender o tuviera que ser explicada? (ANOTAR Nº DE PREGUNTA. MÁXIMO 5). __________________________________________________ (260)(261)(262) (263)(264)(265) (266)(267)(268) (269)(270)(271) (272)(273)(274)

P.50 ¿Han intervenido activamente terceras personas en el desa- rrollo de la entrevista?

- Sí ……….. 1 (275) - No ………. 2

P.51 Respecto a las tarjetas……. - La persona entrevistada las ha usado todas ……… 1 - Sólo ha usado algunas ….. …………………………. 2 (276) - Las he leído yo………………………………………. 3 P.52 Desarrollo de la entrevista:

- Muy buena …….. 1 - Buena ………….. 2 - Regular ………… 3 (277) - Mala ……………. 4 - Muy mala ……… 5

P.53 Sinceridad de la persona entrevistada:

- Mucha ………….. 1 - Bastante ……….. 2 (278) - Poca ……………. 3 - Ninguna ………… 4

Page 162: Modelización mediante regresión logística para estimación

A RELLENAR POR EL/LA ENTREVISTADOR/A

INCIDENCIAS ENTREVISTA: I.1 Número de orden de entrevista (por muestra) ……………………………………………………………… _______ (279)(280)(281) I.2 Dificultad de acceso al edificio, casa, urbanización, etc. …………………………………………………. _______ (282)(283)(284) I.3 Viviendas en las que no hay nadie …………………………………………………………………………… _______ (285)(286)(287) I.4 Viviendas en las que se niegan a recibir ninguna explicación ……………………………………………. _______ (288)(289)(290) I.5 Negativas de hombres a realizar la entrevista …………………………………………………………….. _______ (291)(292)(293) I.6 Negativas de mujeres a realizar la entrevista ………………………………………………………………. _______ (294)(295)(296) I.7 Contactos fallidos por no cumplir cuotas ……………………………………………………………………. _______ (297)(298)(299) I.8 Contactos fallidos por no ser una vivienda (oficinas, consultas médicas, etc.) …………………………. _______ (300)(301)(302) I.9 Viviendas de inmigrantes ……………………………………………………………………………….……. _______ (303)(304)(305) ENTREVISTA REALIZADA:

Entrevista conseguida: ___________________________________________________________________ ______ ______ ______ (calle o plaza) (nº) (piso) (pta.)

E.1 Fecha de realización: __________________ ______07________ 15 (Día) (Mes) (Año) (306)(307) (308)(309) (310)(311)

E.2 Día de la semana que se realiza la entrevista: Lunes ………….. 1 Martes …………. 2 Miércoles ……… 3 Jueves …………. 4 (312) Viernes ……….. 5 Sábado ……….. 6 Domingo ……… 7 E.3 Duración de la entrevista: _________ (en minutos) (313)(314)(315) E.4 Hora de realización: La mañana (9-12) ………… 1 Mediodía (12-4) …………… 2 (316) Tarde (4-8) ………………… 3 Noche (8-10) ……………… 4

A RELLENAR EN CODIFICACIÓN

C.1 CUESTIONARIO CUMPLIMENTADO: Correcto ………………….. 1 (317) Incorrecto ………………… 2 C.1a MOTIVO: __________ (318)(319) C.3 RESULTADO FINAL: Entrevista válida …………………….. 1 (324) Entrevista anulada ………………….. 2 C.4 CODIFICADOR/A Nº ________ (325)(326)

C.2 VALORACIÓN DE LA INSPECCIÓN:

Entrevista no inspeccionada ……………….. 1 Inspección telefónica ……………………….. 2 (320) Inspección personal ………………………… 3 Inspección telefónica y personal ………….. 4

C.2a Resultado inspección: Entrevista correcta …………………………. 1 (321) Entrevista incorrecta ………………………. 2 No se ha establecido contacto ……………. 3 C.2b MOTIVO: __________ (322)(323)

Page 163: Modelización mediante regresión logística para estimación

INFORMACIÓN SUJETA A SECRETO ESTADÍSTICO (Ley 12/89, de 9 de mayo, de la Función Estadística Pública)

Encuesta incluida en el Plan Estadístico Nacional 2013-2016 aprobado por el Real Decreto 1663/2008, de 17 de octubre

Departamento de Investigación

OCTUBRE 2015

Comunidad autónoma (10)(11) Nº ESTUDIO Nº CUESTIONARIO 3 1 1 4 Provincia (12)(13) (1)(2)(3)(4) (5)(6)(7)(8)(9) Municipio (14)(15)(16) (nombre municipio) Tamaño de hábitat (17)(18) Distrito (19)(20) Sección (21)(22)(23) Entrevistador/a (24)(25)(26)(27) Buenos días/tardes. El Centro de Investigaciones Sociológicas está realizando un estudio sobre temas de interés general. Por este motivo solicitamos su colaboración y se la agradecemos anticipadamente. Esta vivienda ha sido seleccionada al azar mediante métodos aleatorios. Le garantizamos el absoluto anonimato y secreto de sus respuestas en el más estricto cumplimiento de las leyes sobre secreto estadístico y protección de datos personales. Una vez grabada la información de forma anónima, los cuestionarios individuales son destruidos. P.0 En primer lugar querría preguntarle si tiene Ud. la nacionalidad...

- Española …………………..…. 1 (28) - Española y otra …………….. 2 - Otra nacionalidad …………... 3 FIN DE LA ENTREVISTA

P.0a ¿Cuál? ______________________________________ (29)(30)(31) N.C. ………….. 999

P.1 Para empezar, refiriéndonos a la situación económica

- Muy buena ……. 1

general de España, ¿cómo la calificaría Ud.: muy buena, buena, regular, mala o muy mala?

- Buena ………… 2 - Regular ……….. 3 - Mala……………. 4 (32) - Muy mala …….. 5 - N.S. …………… 8 - N.C. …………… 9

P.2 Y, ¿cree Ud. que la situación económica actual del país es mejor, igual o peor que hace un año

?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (33) - N.S. ……………. 8 - N.C. …………… 9 P.3 Y, ¿cree Ud. que dentro de un año

la situación económica del país será mejor, igual o peor que ahora?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (34) - N.S. ……………. 8 - N.C. …………… 9

P.4 Y refiriéndonos ahora a la situación política

general de España, ¿cómo la calificaría Ud.: muy buena, buena, regular, mala o muy mala?

- Muy buena ……. 1 - Buena ………… 2 - Regular ……….. 3 - Mala……………. 4 (35) - Muy mala …….. 5 - N.S. …………… 8 - N.C. …………… 9

P.5 ¿Y cree Ud. que la situación política actual del país es mejor, igual o peor que hace un año

?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (36) - N.S. ……………. 8 - N.C. …………… 9 P.6 Y, ¿cree Ud. que dentro de un año

la situación política del país será mejor, igual o peor que ahora?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (37) - N.S. ……………. 8 - N.C. …………… 9 P.7 ¿Cuál es, a su juicio, el principal problema que existe actualmente en España? ¿Y el segundo? ¿Y el tercero?

____________________________________________ (38)(39) ____________________________________________ (40)(41) ____________________________________________ (42)(43)

N.S. …………… 98 N.C. …………… 99

P.8 ¿Y cuál es el problema que a Ud., personalmente, le afecta más? ¿Y el segundo? ¿Y el tercero?

____________________________________________ (44)(45) ____________________________________________ (46)(47) ____________________________________________ (48)(49) N.S. …………… 98

N.C. …………… 99

Page 164: Modelización mediante regresión logística para estimación

P.9 ¿Podría decirme qué importancia tienen en su vida los siguientes aspectos? Aquí tengo una tarjeta con una escala que va del 0 al 10, en la que 0 significa “nada importante” y 10 “muy importante”. ¿Dónde se colocaría Ud. en ella? (MOSTRAR TARJETA A

).

Escala 00-10 NS

NC

- La familia ………………………………….. ___ 98 99 (50)(51) - Los/as amigos/as ………………….……… ___ 98 99 (52)(53) - El tiempo libre …………………………….. ___ 98 99 (54)(55) - La política ………………………………….. ___ 98 99 (56)(57) - El trabajo …………………………………… ___ 98 99 (58)(59) - La religión ………………………………….. ___ 98 99 (60)(61) - Las asociaciones, clubes y otras activida- des asociativas …………………………... ___ 98 99 (62)(63) P.10 ¿Y con qué frecuencia diría Ud. que habla o discute de política cuando se reúne con sus…?. (NO LEER) A me Algunas Rara- No

nudo veces mente Nunca procede NS

NC

- Amigos/as ………. 1 2 3 4 7 8 9 (64) - Familiares …….. 1 2 3 4 7 8 9 (65) - Compañeros/as de trabajo/estudios … 1 2 3 4 7 8 9 (66) P.11 A continuación, me gustaría hacerle algunas preguntas sobre los periódicos, la radio y la televisión. ¿Con qué frecuencia…? (MOSTRAR TARJETA B

).

1. Todos los días 2. 3-4 días por semana 3. 1-2 días por semana 4. Con menor frecuencia 5. Nunca 1 2 3 4 5 NS - Lee las secciones políticas del

NC

periódico ……………………... 1 2 3 4 5 8 9 (67) - Escucha o ve las noticias en la radio o la televisión ……..…… 1 2 3 4 5 8 9 (68) - Aparte de las noticias, escucha o ve otros programas sobre política en la radio o la tele- visión……………………….….. 1 2 3 4 5 8 9 (69) - Usa Internet para obtener infor- mación acerca de la política o la sociedad ………………..….. 1 2 3 4 5 8 9 (70) P.12 A continuación le voy a leer una lista de afirmaciones sobre distintas cuestiones. Por favor, dígame si está Ud. de acuerdo o en desacuerdo con cada una de ellas.

(NO LEER) De Ni de ac. En ac. ni en des. desac. NS

NC

- El voto es la única forma en que la gente como Ud. puede influir en lo que hace el Gobierno …………. 1 2 3 8 9 (71) - La política tiene una gran influen cia en la vida de cualquier ciudada no/a ………………………………… 1 2 3 8 9 (72) - Generalmente, la política le pa- rece tan complicada que la gente como Ud. no puede entender lo que pasa ……………………….…… 1 2 3 8 9 (73) - Es mejor no meterse en política .. 1 2 3 8 9 (74) - Le interesan los temas de actuali- dad ………………………………….. 1 2 3 8 9 (75) - En general, se considera un/a ciu dadano/a que entiende de política . 1 2 3 8 9 (76)

P.13 Las personas, algunas veces, pertenecen a ciertos grupos o asociaciones. Para cada uno de los que le voy a leer a continuación, dígame, por favor, si Ud.: (MOSTRAR TARJETA C

).

1. Pertenece y participa activamente 2. Pertenece, pero no participa activamente 3. Antes pertenecía, pero ahora no 4. Nunca ha pertenecido

1 2 3 4

NC

- Un partido político ................... 1 2 3 4 9 (77) - Un sindicato o una asociación de empresarios ……………….1 2 3 4 9 (78) - Un colegio profesional ……….. 1 2 3 4 9 (79) - Una parroquia u otro tipo de organización/asociación re- ligiosa .................................... 1 2 3 4 9 (80) - Un grupo deportivo ……………. 1 2 3 4 9 (81) - Un grupo cultural o de ocio ….. 1 2 3 4 9 (82) - Una organización de apoyo social o derechos humanos .. 1 2 3 4 9 (83) - Una asociación juvenil o estu- diantil ………………………… 1 2 3 4 9 (84) - Otro tipo de asociación volun- taria ....................................... 1 2 3 4 9 (85) P.14 Existen diversas formas de participación en acciones sociales y políticas que la gente puede llevar a cabo. Por favor, indíqueme para cada una de ellas, si Ud.: (MOSTRAR TARJETA D

).

1. Ha participado durante los últimos doce meses 2. Participó en un pasado más lejano 3. Nunca ha participado

1 2 3

NC

- Asistir a una manifestación ............ 1 2 3 9 (86) - Participar en una huelga ………….. 1 2 3 9 (87) - Participar en un foro o en un blog de debate político en Internet ….. 1 2 3 9 (88) - Firmar una petición /recogida de firmas bien en persona o por Internet ……………………………. 1 2 3 9 (89) P.14a ¿Y cómo se produjo esa petición/recogida de firmas?

- En persona ………… 1

- Por Internet ………… 2 - De ambas maneras .. 3 (90) - No recuerda ………… 8 - N.C. …………………. 9

P.15 ¿Cómo se definiría Ud. en política según la siguiente clasificación? (MOSTRAR TARJETA E

).

P.15a ¿Y con alguna más? (MOSTRAR TARJETA E

).

P.15

P.15a

- Conservador/a …………..…..….. 01 01 - Demócrata cristiano/a …………. 02 02 - Liberal ……………………………. 03 03 - Progresista ……………………… 04 04 - Socialdemócrata ……………….. 05 (91) 05 (93) - Socialista ……………………….. 06 06 - Comunista ………………………. 07 07 - Nacionalista …………………….. 08 (92) 08 (94) - Feminista………………………… 09 09 - Ecologista ……………………….. 10 10 - Otra respuesta, ¿cuál?

__________________________ 11 11 - N.S. ……………………………… 98 98 - N.C. ……………………………… 99 99

Page 165: Modelización mediante regresión logística para estimación

P.16 Como Ud. sabe, en España hay distintos partidos o coaliciones políticas a las que puede votar en unas elecciones. Me gustaría que me dijera cuál es la probabilidad de que Ud. vote a cada uno de los que le voy a mencionar, utilizando para ello una escala de 0 a 10, sabiendo que el 0 significa que “con toda seguridad, no le votaría nunca” y el 10 significa que “con toda seguridad, le votaría siempre”. (MOSTRAR TARJETA F Escala NS NC

).

00-10 98

99

- PP…………………………… _____ 98 99 (95)(96)

- PSOE……………………….. _____ 98 99 (97)(98)

- IU (ICV en Cataluña) ……… _____ 98 99 (99)(100)

- UPyD………………………… _____ 98 99 (101)(102) - Podemos …………………….. _____ 98 99 (103)(104) - Ciudadanos ………………….. _____ 98 99 (105)(106)

(Sólo en Cataluña) - Convergència ....................... _____ 98 99 (107)(108) - Unió ..................................... _____ 98 99 (109)(110) - ERC…...……………………… _____ 98 99 (111)(112)

(Sólo en País Vasco) - PNV…………………………… _____ 98 99 (113)(114) (Sólo en País Vasco y Navarra) - Amaiur…….………………….. _____ 98 99 (115)(116) (Sólo en Galicia) - BNG……..…………………….. _____ 98 99 (117)(118) (Sólo en Canarias) - CC ……..……………………… _____ 98 99 (119)(120)

(Sólo en Comunidad Valenciana) - Compromís-Equo……………... _____ 98 99 (121)(122) (Sólo en Asturias) - FAC…………….………………. _____ 98 99 (123)(124) (Sólo en Navarra) - Geroa Bai.…………………….. _____ 98 99 (125)(126)

- UPN…………………............... _____ 98 99 (127)(128)

P.17 Le agradecería que me indicara si conoce a cada uno/a de los/as siguientes líderes políticos/as y qué valoración le merece su actuación política. Puntúelos/as de 0 a 10, sabiendo que el 0 significa que lo/a valora “muy mal” y el 10 que lo/a valora “muy bien”.

No Valo- conoce ración NS NC 97 00-10 98

99

- Enrique Álvarez Sostres…………. 97 _____ 98 99 (129)(130) - Joan Baldoví Roda ……………… 97 _____ 98 99 (131)(132) - Uxue Barkos .…………….…..…... 97 _____ 98 99 (133)(134) - Alfred Bosch……………………….. 97 _____ 98 99 (135)(136) - Rosa Díez ………………………….. 97 _____ 98 99 (137)(138) - Josep A. Durán i Lleida ………….. 97 _____ 98 99 (139)(140) - Aitor Esteban ……..……………….. 97 _____ 98 99 (141)(142) - Xabier Mikel Errekondo ……….… 97 _____ 98 99 (143)(144) - María Olaia Fernández ……………. 97 _____ 98 99 (145)(146) - Cayo Lara………………………….. 97 _____ 98 99 (147)(148) - Ana María Oramas ………………… 97 _____ 98 99 (149)(150) - Mariano Rajoy…….………………… 97 _____ 98 99 (151)(152) - Carlos Salvador ….………………… 97 _____ 98 99 (153)(155) - Pedro Sánchez …………………….. 97 _____ 98 99 (155)(156)

P.18 En su conjunto, ¿cómo calificaría Ud. la gestión que está haciendo el Gobierno del PP: muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (157) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.19 Y, en general, ¿cómo calificaría la actuación política que está teniendo el PSOE en la oposición: muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (158) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.20 A continuación voy a leerle la lista de las ministras y ministros que forman el Gobierno. Dígame, por favor, para cada uno/a de ellos/as si lo/a conoce y cómo lo/a valoraría en una escala de 0 a 10, sabiendo que el 0 significa que lo/a valora muy mal y el 10 que lo/a valora muy bien.

No Valo- conoce ración NS NC 97 00-10 98

99

- Alfonso Alonso ……..………..…… 97 _____ 98 99 (159)(160) - Fátima Báñez ……………………… 97 _____ 98 99 (161)(162) - Rafael Catalá Polo ……………….. 97 _____ 98 99 (163)(164) - Jorge Fernández Díaz ….………… 97 _____ 98 99 (165)(166) - José Manuel García Margallo …… 97 _____ 98 99 (167)(168) - Isabel García Tejerina …………….. 97 _____ 98 99 (169)(170) - Luis de Guindos …….…….……... 97 _____ 98 99 (171)(172) - Íñigo Méndez de Vigo y Montojo… 97 _____ 98 99 (173)(174) - Cristóbal Montoro .……………….. 97 _____ 98 99 (175)(176) - Pedro Morenés …..…………….… 97 _____ 98 99 (177)(178) - Ana Pastor ………………………… 97 _____ 98 99 (179)(180) - Soraya Sáenz de Santamaría ….... 97 _____ 98 99 (181)(182) - José Manuel Soria ………………. … 97 _____ 98 99 (183)(184) P.21 El presidente del Gobierno, Mariano Rajoy, ¿le inspira, personalmente, mucha confianza, bastante confianza, poca o ninguna confianza?

- Mucha confianza …………. 1 - Bastante confianza ………. 2 - Poca confianza …………… 3 (185) - Ninguna confianza ……….. 4 - N.S. ………………………… 8 - N.C. ………………………… 9

P.22 ¿Y el líder del principal partido de la oposición, Pedro Sánchez, le inspira, personalmente, mucha confianza, bastante confianza, poca o ninguna confianza?

- Mucha confianza …………. 1 - Bastante confianza ………. 2 - Poca confianza …………… 3 (186) - Ninguna confianza ……….. 4 - N.S. ………………………… 8 - N.C. ………………………… 9

Page 166: Modelización mediante regresión logística para estimación

P.23 Suponiendo que mañana se celebrasen elecciones generales, es decir, al Parlamento español, ¿a qué partido votaría Ud.? (RESPUESTA ESPONTÁNEA).

- PP….……………… 01 - FAC ……………. ….... 12 - PSOE.…………… 02 - Geroa Bai .,,,,,,,,,…….. 13 - IU (ICV en Cataluña). 03 - UPN …… … …………. 14 - UPyD.………………… 04 - Podemos ………………. 15 - Convergència …….... 05 - Ciudadanos ...…………. 16 - Amaiur.……………... 06 - Unió .............................. 17 (187)(188) - PNV …………………. 07 - Otro partido, ¿cuál? - ERC ………………… 08 __________________ 95 - BNG ………………... 09 - En blanco ……………… 96 - CC ..…………………. 10 - No votaría ……...……… 97 - Compromís-Equo ….. 11 - No sabe todavía …….… 98 - N.C. …………………….. 99 P.24 En todo caso, ¿por cuál de los siguientes partidos siente Ud. más simpatía o cuál considera más cercano a sus propias ideas? Puede decirme el nombre del partido, o, si prefiere, el número con el que aparece en esta tarjeta. (MOSTRAR TARJETA PARTIDOS

________________________

). (Anotar partido y poner en el cuadro el nº correspondiente que va en la tarjeta).

Ninguno ………………….. 97 N.S. ………………………. 98 (189)(190) N.C. …………………….… 99 P.25 Cuando se habla de política se utilizan normalmente las expresiones izquierda y derecha. En esta tarjeta hay una serie de casillas que van de izquierda a derecha. ¿En qué casilla se colocaría Ud.? (MOSTRAR TARJETA ESCALA

). (PEDIR A LA PERSONA ENTREVISTADA QUE INDIQUE LA CASILLA EN LA QUE SE COLOCARÍA Y REDONDEAR EL NÚMERO CORRESPONDIENTE).

(191)(192)

Izda. Dcha. NS NC 01 02 03 04 05 06 07 08 09 10 98 99

P.26 Y, utilizando esa misma escala, por favor dígame dónde colocaría Ud. a cada uno de los siguientes partidos o formaciones políticas. (MOSTRAR TARJETA ESCALA

Escala NS NC

). (PEDIR A LA PERSONA ENTREVISTADA QUE INDIQUE LA CASILLA EN LA QUE COLOCARÍA A CADA PARTIDO Y APUNTAR EL NÚMERO CORRESPONDIENTE).

01-10 98

99

- PP…………………………… _____ 98 99 (193)(194) - PSOE……………………….. _____ 98 99 (195)(196) - IU (ICV en Cataluña) ……… _____ 98 99 (197)(198)

- UPyD………………………… _____ 98 99 (199)(200) - Podemos …………………….. _____ 98 99 (201)(202) - Ciudadanos …………………. _____ 98 99 (203)(204) (Sólo en Cataluña) - Convergència ……………… _____ 98 99 (205)(206) - Unió ..................................... _____ 98 99 (207)(208) - ERC…...……………………… _____ 98 99 (209)(210)

(Sólo en País Vasco) - PNV…………………………… _____ 98 99 (211)(212) (Sólo en País Vasco y Navarra) - Amaiur…….………………….. _____ 98 99 (213)(214) (Sólo en Galicia) - BNG……..…………………….. _____ 98 99 (215)(216) (Sólo en Canarias) - CC ……….……………………… _____ 98 99 (217)(218)

(Sólo en Comunidad Valenciana) - Compromís-Equo……………... _____ 98 99 (219)(220)

Escala NS NC 01-10 98

99

(Sólo en Asturias) - FAC…………….………………. _____ 98 99 (221)(222) (Sólo en Navarra) - Geroa Bai.…………………….. _____ 98 99 (223)(224) - UPN…………………............... _____ 98 99 (225)(226)

P.27 Le voy a presentar ahora algunas fórmulas alternativas de organización territorial del Estado en España. Dígame, por favor, con cuál está Ud. más de acuerdo. (MOSTRAR TARJETA G

).

- Un Estado con un único Gobierno central sin autonomías ….. 1 - Un Estado en el que las comunidades autónomas tengan

menor autonomía que en la actualidad ……………………….. 2 - Un Estado con comunidades autónomas como en la actua- lidad …………………………………………………………….…. 3 - Un Estado en el que las comunidades autónomas tengan mayor autonomía que en la actualidad ………………………. 4 (227) - Un Estado en el que se reconociese a las comunidades au- tónomas la posibilidad de convertirse en estados indepen-

dientes …………………………………………………………… 5 - N.S. ………………………………………………………………… 8 - N.C. ……………………………………………………………….…. 9 P.28 ¿Cuál de las siguientes frases diría Ud. que expresa mejor sus sentimientos? (MOSTRAR TARJETA GENTILICIOS

).

- Se siente únicamente español/a …………………………….. 1 - Se siente más español/a que (gentilicio C.A.) ……………. 2 - Se siente tan español/a como (gentilicio C.A.) …………… 3 - Se siente más (gentilicio C.A.) que español/a ……………. 4 (228) - Se siente únicamente (gentilicio C.A.) ……………………… 5 - (NO LEER) Ninguna de las anteriores ……………………… 7 - N.S. ……………………………………………………………… 8 - N.C. ……………………………………………………………… 9 P.29 ¿Me podría decir si en las elecciones generales del 20 de noviembre de 2011…? (MOSTRAR TARJETA RECUERDO DE VOTO

).

- Fue a votar y votó …………………... 1 - No tenía edad para votar …………. 2 - Fue a votar pero no pudo hacerlo .. 3 - No fue a votar porque no pudo …… 4 (229) - Prefirió no votar …………………….. 5 - No recuerda ………………………… 8 - N.C. ………………………………….. 9

P.29a ¿Y podría decirme a qué partido o coalición votó? (RESPUESTA ESPONTÁNEA). - PP….……………… 01 - CC-NC..………..…….. 10 - PSOE.…………… 02 - Compromís-Equo…….. 11 - IU (ICV en Cataluña). 03 - FAC………… …………. 12 - UPyD.………………… 04 - Geroa Bai………………. 13 (230) - CiU…………………... 05 - Otros partidos.…………. 14 - Amaiur.……………... 06 - En blanco ……………… 15 (231) - PNV ………………... 07 - Voto nulo …….....……… 77 - ERC…………………. 08 - No recuerda …………… 98 - BNG …………………. 09 - N.C. …………………….. 99 P.30 En términos generales, ¿en qué medida se considera Ud. una persona feliz o infeliz? Por favor, use una escala de 0 a 10 en la que 0 significa que se considera “completamente infeliz” y 10 que se considera “completamente feliz”. (MOSTRAR TARJETA H

).

Completamente infeliz Completamente feliz 00 01 02 03 04 05 06 07 08 09 10

N.S. …………… 98 (232)(233) N.C. …………… 99 P.31 Sexo:

- Hombre …………….. 1 - Mujer ……………….. 2 (234)

Page 167: Modelización mediante regresión logística para estimación

P.32 ¿Cuántos años cumplió Ud. en su último cumpleaños? (235)(236)

N.C. ……………… 99 P.33 ¿Ha ido Ud. a la escuela o cursado algún tipo de estudios? (ENTREVISTADOR/A: en caso negativo, preguntar si sabe leer y escribir). - No, es analfabeto/a ………...… 1 PASAR A P.34 - No, pero sabe leer y escribir … 2 (237) - Sí, ha ido a la escuela ………. 3 - N.C. ……………………………. 9 PASAR A P.34 P.33a ¿Cuáles son los estudios de más alto nivel oficial que Ud. ha cursado (con independencia de que los haya terminado o no)? Por favor, especifique lo más posible, diciéndome el curso en que estaba cuando los terminó (o los interrumpió), y también el nombre

(ENTREVISTADOR/A: Si aún está estudiando, anotar el último curso que haya

que tenían entonces esos estudios: (ej: 3 años de Estudios Primarios, Primaria, 5º de Bachillerato, Maestría Industrial, Preuniversitario, 4º de EGB, Licenciatura, Doctorado, FP1, etc.).

completado. Si no ha completado la Primaria, anotar nº de años

que asistió a la escuela).

CURSO _______________ NOMBRE (de los estudios) _________________ ________________________________________ NIVEL (Codificar según T. ESTUDIOS) ________ (238)(239) P.34 ¿Cómo se define Ud. en materia religiosa: católico/a, creyente de otra religión, no creyente o ateo/a?

- Católico/a ……………………… 1 - Creyente de otra religión ……. 2 - No creyente …………………… 3 (240) - Ateo/a …………………………. 4 - N.C. …………………………….. 9

P.34a ¿Con qué frecuencia asiste Ud. a misa u otros oficios religiosos, sin contar las ocasiones relacionadas con ceremonias de tipo social, por ejemplo, bodas, comuniones o funerales?

- Casi nunca …………………………… 1 - Varias veces al año ………………… 2 - Alguna vez al mes ………………….. 3 (241) - Casi todos los domingos y festivos .. 4 - Varias veces a la semana ………….. 5 - N.C. …………………………………… 9

P.35 ¿Cómo calificaría Ud. su situación económica personal en la actualidad: es muy buena, buena, regular, mala o muy mala?

- Muy buena …………. 1 - Buena ………………. 2 - Regular …………….. 3 - Mala ………………… 4 (242) - Muy mala ………….. 5 - N.S. ………………… 8 - N.C. ………………… 9

P.36 Y, ¿cree Ud. que dentro de un año

su situación económica personal será mejor, igual o peor que ahora?

- Mejor ………….. 1 - Igual …………… 2 - Peor …………… 3 (243) - N.S. ……………. 8 - N.C. …………… 9

P.37 ¿Cuál es su estado civil?

- Casado/a…………… 1 - Soltero/a……………. 2 - Viudo/a………..……. 3 (244) - Separado/a…………. 4 - Divorciado/a………… 5 - N.C. ………………… 9

P.37a ¿En cuál de las siguientes situaciones se encuentra Ud.?

- No tiene pareja …………………………………………. 1 - Tiene pareja pero no comparten la misma vivienda … 2 (245) - Tiene pareja y comparten la misma vivienda ……….. 3 - N.C. ………………………………………………………. 9

P.38 ¿Quién es la persona que aporta más ingresos al hogar? - La persona entrevistada …………………………. 1 - Otra persona ……………………………………… 2 - (NO LEER) La persona entrevistada y otra casi (246) a partes iguales ………………………………… 3 - N.C. ………………………………………………… 9 P.39 ¿En cuál de las siguientes situaciones se encuentra Ud. actualmente? (MOSTRAR TARJETA SITUACIÓN LABORAL

).

- Trabaja …………………………………………………………. 1 - Jubilado/a o pensionista (anteriormente ha trabajado) ….. 2 - Pensionista (anteriormente no ha trabajado) …………….. 3 - Parado/a y ha trabajado antes ………………….………….. 4 (247) - Parado/a y busca su primer empleo ………………………. 5 - Estudiante …………………………………………………….. 6 - Trabajo doméstico no remunerado ………………………… 7 - Otra situación, ¿cuál? ____________________________ _____________________________________________ 8 - N.C. …………………………………………………………… 9 SÓLO A QUIENES TRABAJAN (1 en P.39) P.39a ¿Piensa Ud. que es muy probable, bastante, poco o nada probable que durante los próximos doce meses pierda su empleo actual?

- Muy probable …………. 1 - Bastante probable ……. 2 - Poco probable …………. 3 (248) - Nada probable ………… 4 - N.S. …………………….. 8 - N.C. …………………….. 9

SÓLO A QUIENES ESTÁN PARADOS/AS (4 ó 5 en P.39) P.39b ¿Y cree Ud. que es muy probable, bastante, poco o nada probable que durante los próximos doce meses encuentre Ud. trabajo?

- Muy probable …………. 1 - Bastante probable ……. 2 - Poco probable …………. 3 (249) - Nada probable ………… 4 - N.S. …………………….. 8 - N.C. …………………….. 9

ENTREVISTADOR/A: Las preguntas 40, 41, 41a y 42 referirlas:

- al trabajo actual (si 1 en P.39) - al último trabajo (si 2 ó 4 en P.39) - al trabajo de la persona que aporta más ingresos al hogar (si 3,5,6,7 u 8 en P.39)

Page 168: Modelización mediante regresión logística para estimación

A TODAS LAS PERSONAS ENTREVISTADAS P.40 ¿Y cuál es/era su actual/última ocupación u oficio? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, esteticista, guarda forestal, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal

: aquélla por la que Ud. (o la persona que aporta más ingresos al hogar) obtiene/nía mayores ingresos.

______________________________________ ______________________________________ (250)(251)(252) CNO11 N.C. ……….. 999 P.41 ¿Ud. (o la persona que aporta más ingresos al hogar) trabaja (o trabajaba) como...? (MOSTRAR TARJETA RELACIÓN LABORAL

).

- Asalariado/a fijo/a (a sueldo, comisión, jornal, etc., con carácter fijo) ……………………………………………….... 1 - Asalariado/a eventual o interino/a (a sueldo, comisión, jornal, etc., con carácter temporal o interino) ……..…….. 2 - Empresario/a o profesional con asalariados/as ……….…. 3 - Profesional o trabajador/a autónomo/a (sin asalaria- dos/as) ……………………………………………………… 4 (253) - Ayuda familiar (sin remuneración reglamentada en la empresa o negocio de un familiar) ………….…………… 5 - Miembro de una cooperativa ……………………….………. 6 - Otra situación, ¿cuál? ___________________________ ____________________________________________ 7

- N.C. …………………………………………………………... 9

P.41a ¿Trabaja/ba Ud. (o la persona que aporta más ingresos al hogar) en la Administración Pública, en una empresa pública, en una empresa privada, en una organización privada sin fines de lucro o

en el servicio doméstico?

- Administración Pública …………………… 1 - Empresa pública ………………………….. 2 - Empresa privada …………………………. . 3 - Organización sin fines de lucro …………. 4 (254) - Servicio doméstico ……………………….. 5 - Otros (especificar) __________________ ________________________________ 6 - N.C. ………………………………………… 9 ENTREVISTADOR/A: Si se trata de un/a funcionario/a, anote también Grupo (A,B,C,D,E) y Nivel del puesto de trabajo (1-30). Grupo __________ Nivel __________ A TODAS LAS PERSONAS ENTREVISTADAS P.42 ¿A qué actividad se dedica principalmente la empresa u organización donde Ud. (o la persona que aporta más ingresos al hogar) trabaja/ba? (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de coches, electricidad, reparaciones, industria del cuero, etc.). ___________________________________ CNAE09 (255)(256)(257)

N.C. …… 999

P.43 Cuando Ud. tenía 16 años, ¿podría decirme, por favor, cuál era la ocupación de su padre? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, guarda forestal, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal

: por la que su padre obtenía mayores ingresos.

_________________________________ (258)(259)(260) CNO11 - Parado ……………………………… 995 - Inactivo (ni ocupado, ni parado, o trabajo doméstico no remunera- do, etc.) ………………………….. 996 - No procede (no estaba presente, había fallecido) ………........……. 997 - N.S/No recuerda, ocupación mal especificada ………….....….… 998 - N.C. ……………………………….. 999 A QUIENES CONTESTAN QUE SU PADRE ESTABA TRABAJANDO EN P.43 P.43a ¿A qué actividad se dedicaba principalmente la empresa u organización donde trabajaba su padre cuando Ud. tenía 16 años (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de

?

coches, electricidad, reparaciones, industria del cuero, etc.). ________________________________ CNAE09 (261)(262)(263)

- N.S./ No recuerda/ actividad económica mal especificada ................................... 998 - N.C. ……………..........................……… 999 P.44 Cuando Ud. tenía 16 años, ¿podría decirme, por favor, cuál era la ocupación de su madre? Es decir, ¿en qué consiste/tía específicamente su trabajo? (Precisar lo más posible las actividades realizadas, EJEMPLO: auxiliar de clínica, agente de seguridad, esteticista, terapeuta ocupacional, patronista de ropa, etc.). Nos referimos a su ocupación principal

: por la que su madre obtenía mayores ingresos.

_________________________________

_________________________________ (264)(265)(266) CNO11 - Parada ……………………………… 995 - Inactiva (trabajo doméstico no remunerado, ni ocupada, ni parada, etc.) …………………….. 996 - No procede (no estaba presente, había fallecido, etc.) ……………. 997 - N.S/No recuerda, ocupación mal especificada ………….....….… 998 - N.C. ……………………………….. 999 A QUIENES CONTESTAN QUE SU MADRE ESTABA TRABAJANDO EN P.44 P.44a ¿A qué actividad se dedicaba principalmente la empresa u organización donde trabajaba su madre cuando Ud. tenía 16 años (EJEMPLOS: fábrica de artículos de deporte, correos, alquiler de

?

coches, electricidad, reparaciones, industria del cuero, etc.). ________________________________ (CNAE09) (267)(268)(269)

- N.S./ No recuerda/ actividad económica mal especificada ................................... 998 - N.C. ………..........................…………… 999

Page 169: Modelización mediante regresión logística para estimación

P.45 Actualmente, entre todos los miembros del hogar (incluida la persona entrevistada) y por todos los conceptos, ¿de cuántos ingresos disponen por término medio en su hogar al mes, después de la deducción de impuestos (o sea, ingresos netos)? No le pido que me indique la cantidad exacta, sino que me señale en esta tarjeta en qué tramo de la escala están comprendidos los ingresos de su hogar. (MOSTRAR TARJETA INGRESOS

).

P.46 ¿Y en qué tramo de esa misma escala están comprendidos sus ingresos personales, después de las deducciones de impuestos, es decir, sus ingresos netos? (MOSTRAR TARJETA INGRESOS

).

P.46 P.45 Ingresos Ingresos persona hogar (270)(271) (272)(273)

entrevistada

- No tiene/n ingresos de ningún tipo .......... 01................ 01 - Menos o igual a 300 € .............................. 02................ 02 - De 301 a 600 € ....................................... 03................ 03 - De 601 a 900 € ....................................... 04................ 04 - De 901 a 1.200 € .................................... 05................ 05 - De 1.201 a 1.800 € ................................. 06................ 06 - De 1.801 a 2.400 € ................................. 07................ 07 - De 2.401 a 3.000 € ................................. 08................ 08 - De 3.001 a 4.500 € ................................. 09................ 09 - De 4.501 a 6.000 € ................................. 10................ 10 - Más de 6.000 € ....................................... 11................ 11 - N.S. ........................................................ 98 - N.C. ........................................................ 99................ 99 P.47 Para terminar, ¿tiene Ud. la nacionalidad española desde que nació o la ha adquirido con posterioridad? - Desde que nació ………………….… 1 - La ha adquirido con posterioridad … 2 (274) - N.C. ………………………………….. 9

P.47a ¿Cómo definiría Ud. su manejo del castellano?

P.47b (A RELLENAR POR EL/LA ENTREVISTADOR/A) Independientemente de lo que haya contestado esta personadefiniría su manejo del castellano?

¿cómo

P.47a

Entrevistado/a Entrevistador/a (275) (276)

P.47b

- Lo habla un poco …………….. 2 2 - Lo habla más o menos bien … 3 3 - Lo habla con fluidez …..……… 4 4 - Lo habla como si fuera nativo/a.. 5 5 - Es su idioma materno ………… 6 6 - N.S. …………………………….. 8 8

- N.C. ……………………………. 9 9 P.48 ¿Le importaría darme su nº de teléfono? (ENTREVISTADOR/A

: EXPLICAR QUE ES PARA QUE EL CIS PUEDA HACER UNA POSIBLE COMPROBACIÓN TELEFÓNICA DE QUE LA ENTREVISTA HA SIDO REALIZADA).

- Tiene teléfono y da número …. 1 teléfono - No tiene teléfono ……………… 2 - Tiene teléfono y no da número .. 3 (277) - N.C. ……………………………… 9

A RELLENAR POR EL/LA ENTREVISTADOR/A

P.49 VALORACIÓN DE LA ENTREVISTA: - Se ha realizado la entrevista en presencia de terceras personas …………………………………………………… 1 (278) - (La persona entrevistada) ha expresado deseo de abandonar la entrevista antes de finalizarla ………....... 1 (279) - (La persona entrevistada) se ha sentido incómoda o molesta por el tema de la encuesta …………………… 1 (280) - (La persona entrevistada) ha tenido prisa por acabar la entrevista…………………………………………………... 1 (281)

P.50 ¿Ha habido alguna pregunta concreta que provocara incomo- didad? (ANOTAR Nº DE PREGUNTA. MÁXIMO 5). __________________________________________________ (282)(283)(284) (285)(286)(287) (288)(289)(290) (291)(292)(293) (294)(295)(296)

P.51 ¿Ha habido alguna pregunta concreta que la persona entrevis- tada tuviera dificultades en comprender o tuviera que ser explicada? (ANOTAR Nº DE PREGUNTA. MÁXIMO 5). __________________________________________________ (297)(298)(299) (300)(301)(302) (303)(304)(305) (306)(307)(308) (309)(310)(311)

P.52 ¿Han intervenido activamente rrollo de la entrevista?

terceras personas en el desa-

- Sí ……….. 1 (312) - No ………. 2

P.53 Respecto a las tarjetas……. - La persona entrevistada las ha usado todas ……… 1 - Sólo ha usado algunas ….. …………………………. 2 (313) - Las he leído yo………………………………………… 3

P.54 Desarrollo de la entrevista:

- Muy buena …….. 1 - Buena ………….. 2 - Regular ………… 3 (314) - Mala ……………. 4 - Muy mala ……… 5

P.55 Sinceridad de la persona entrevistada:

- Mucha ………….. 1 - Bastante ……….. 2 (315) - Poca ……………. 3 - Ninguna ………… 4

Page 170: Modelización mediante regresión logística para estimación

A RELLENAR POR EL/LA ENTREVISTADOR/A

INCIDENCIAS ENTREVISTA

:

I.1 Número de orden de entrevista (por muestra) ……………………………………………………………… _______ (316)(317)(318) I.2 Dificultad de acceso al edificio, casa, urbanización, etc. …………………………………………………. _______ (319)(320)(321) I.3. Viviendas en las que no hay nadie …………………………………………………………………………… _______ (322)(323)(324) I.4 Viviendas en las que se niegan a recibir ninguna explicación ……………………………………………. _______ (325)(326)(327) I.5 Negativas de hombres a realizar la entrevista ………………………………………………………………. _______ (328)(329)(330) I.6 Negativas de mujeres a realizar la entrevista ………………………………………………………………. _______ (331)(332)(333) I.7 Contactos fallidos por no cumplir cuotas ……………………………………………………………………. _______ (334)(335)(336) I.8 Contactos fallidos por no ser una vivienda (oficinas, consultas médicas, etc.) …………………………. _______ (337)(338)(339) I.9. Viviendas de inmigrantes ……………………………………………………………………………………… _______ (340)(341)(342) ENTREVISTA REALIZADA

:

Entrevista conseguida: ___________________________________________________________________ ______ ______ ______ (calle o plaza) (nº) (piso) (pta.)

E.1 Fecha de realización: __________________ ______ ________ _____ __________ (Día) (Mes) (Año) (343)(344) (345)(346) (347)(348)

E.2 Día de la semana que se realiza la entrevista: Lunes ………….. 1 Martes …………. 2 Miércoles ……… 3 Jueves …………. 4 (349) Viernes ……….. 5 Sábado ……….. 6 Domingo ……… 7 E.3 Duración de la entrevista: _________ (en minutos) (350)(351)(352) E.4 Hora de realización: La mañana (9-12) ………… 1 Mediodía (12-4) …………… 2 (353) Tarde (4-8) ………………… 3 Noche (8-10) ……………… 4

A RELLENAR EN CODIFICACIÓN

C.1 CUESTIONARIO CUMPLIMENTADO

:

Correcto ………………….. 1 (354) Incorrecto ………………… 2 C.1a MOTIVO: __________ (355)(356) C.3 RESULTADO FINAL

:

Entrevista válida …………………….. 1 (361) Entrevista anulada ………………….. 2 C.4 CODIFICADOR/A Nº ________ (362)(363)

C.2 VALORACIÓN DE LA INSPECCIÓN

:

Entrevista no inspeccionada ……………….. 1 Inspección telefónica ……………………….. 2 (357) Inspección personal ………………………… 3 Inspección telefónica y personal ………….. 4

C.2a Resultado inspección

:

Entrevista correcta …………………………. 1 (358) Entrevista incorrecta ………………………. 2 No se ha establecido contacto ……………. 3 C.2b MOTIVO: __________ (359)(360)

Page 171: Modelización mediante regresión logística para estimación