1
La no respuesta en los estudios electorales: la imputación múltiple como modelo para mejorar la estimación de voto
María del Mar Martínez ([email protected]) y Cristina Rivas ([email protected])
Universidad de Salamanca
1. Introducción
La estimación de voto es uno de los aspectos fundamentales en los estudios electorales.
Sin embargo en muchas ocasiones el dato estimado y el dato real son claramente
divergentes. Una de las causas de sesgo en la estimación del voto puede estar en la no
respuesta, es decir, en el gran número de entrevistados sobre los que se desconoce su
opinión. Esta falta de respuesta se puede deber a que el individuo no tenga decidido su
voto en el momento de realización de la encuesta (los denominados NS) o bien que el
individuo no quiera contestar a la pregunta (NC). Así en los últimos estudios
preelectorales realizados por el Centro de Investigaciones Sociológicas (CIS) con
ocasión de la celebración de las elecciones generales al Congreso de los Diputados, solo
el porcentaje de los individuos incluidos en el NC asciende al 7,2% en el año 1996, al
10,9% en el 2000 y al 7,4% en el año 2004. Si se tiene en cuenta el NS estos porcentajes
ascienden al 24,1%, 27,2% y 31,0%, lo que representa un total de 1204, 6539 y 7474
individuos respectivamente.
A pesar de la falta de información de un gran número de individuos la práctica más
común que llevan a cabo los investigadores es obviar los datos faltantes y trabajar
únicamente con la información disponible1. El principal inconveniente2 es que se reduce
el número de individuos de la muestra corriendo el riesgo de que las estimaciones
realizadas sean sesgadas si la distribución de la no respuesta no es completamente
aleatoria3, algo que ocurre con frecuencia. Frente a esta opción, es posible tratar de
NOTA DE LAS AUTORAS. La realización de este trabajo ha sido posible gracias a los fondos recibidos del Centro de Investigaciones Sociológicas a través de las Ayudas a la Investigación 2006. 1 Método listwise o pairwise deletion. Según Schafer (1997) cuando el volumen de registros incompletos es un porcentaje reducido, 5% o menos, la eliminación de estos registros es una solución razonable a los problemas de datos faltantes. En este mismo sentido véase Little y Rubin (1987). 2 Para una descripción más detallada de los problemas de la eliminación de casos véase Little y Rubin, (1987: capítulo 3). 3 MCAR: missing completely at random.
2
completar la información faltante a partir de métodos de imputación de datos ya sean
técnicas univariantes, multivariantes o múltiples4.
La imputación permite estimar los datos faltantes mediante un modelo estadístico. Sin
embargo, es un método poco utilizado en el mundo de las ciencias sociales aun cuando
la estimación de datos faltantes se presenta como un reto fundamental en las
investigaciones empíricas. El objeto de este artículo, de carácter metodológico, es el de
plantear ese problema y su resolución a través de la imputación múltiple de los datos
incompletos de la variable intención de voto para las elecciones generales españolas. El
resultado de esta investigación pone de manifiesto que para llevar a cabo un
procedimiento de imputación con resultados satisfactorios es necesario contar con un
cuestionario bien diseñado. Los análisis realizados nos muestran qué problemas generan
ciertas preguntas y cómo estas pueden resultar insuficientes o inapropiadas para realizar
imputaciones.
El trabajo se divide en dos apartados cada uno de los cuales utiliza los datos de la
encuesta preelectoral del CIS para las elecciones generales de los años 1996 y 20005. En
cada uno de estas secciones se ha realizado un proceso de imputación múltiple. Sin
embargo, dados los pobres resultados obtenidos se ha tratado de conocer la fiabilidad
del método de imputación múltiple utilizado. Para comprobar la validez del instrumento
estadístico de imputación múltiple es necesario conocer cada uno de los datos que
hemos imputado y por ello, a partir de una base completa se generan datos faltantes
ficticios en la pregunta de intención de voto. Tras la aplicación de la técnica de
imputación múltiple se ha creado una tasa de éxito que permite conocer el porcentaje de
imputaciones acertadas, para la totalidad de los casos, y para cada una de las categorías
de la variable intención de voto.
En definitiva, el objetivo de este trabajo es la implementación de un método
relativamente nuevo, poco utilizado en el mundo de las ciencias sociales, mediante el
uso de datos de encuestas preelectorales españolas con el objetivo de probar la
efectividad de la aplicación del método de imputación. Los resultados de la imputación
no se acercan a los resultados reales de las elecciones generales. Sin embargo, el
procedimiento de imputación sobre datos faltantes ficticios con las variables
4 Para una mayor información sobre imputación univariante véase Puerta (2002), sobre imputación multivariante véase Schafer (1997) y sobre imputación múltiple ver Rubin (1987, 1996). 5 Se ha desestimado utilizar el procedimiento para la encuesta realizada con ocasión de las elecciones generales de 2004, dado que no recogen el impacto de los últimos hechos sucedidos en los días anteriores a las elecciones.
3
explicativas seleccionadas ofrece tasas de éxito buenas, por encima del 70% en el peor
de los casos, lo que lleva a pensar que el modelo funciona, siempre y cuando las
variables empleadas en el análisis sean las adecuadas.
2. Caracterización de los NS/NC en las elecciones generales de 1996
La caracterización de los sujetos que no saben o no contestan a la variable intención de
voto en las elecciones generales de 1996 se convierte en un requisito indispensable
antes de proceder a su imputación. El hecho de que los NS y NC constituyan o no un
grupo específico con unas características propias y un comportamiento homogéneo al
interior del grupo como si del electorado de otra opción política más se tratara, puede
ayudar a mejorar el proceso de imputación. Además, si los NS y NC no fueran
asimilables a otros grupos el procedimiento de imputación no sería necesario. Un
estudio previo de estos casos nos lleva a la conclusión de que estos dos grupos tienen un
comportamiento muy similar, por esta razón se ha decidido analizarlos de forma
conjunta como si del mismo grupo se tratara.
Saber quiénes son estos individuos y qué características tienen se convierte, por tanto,
en el primer objetivo de este trabajo. Para identificar el mejor conjunto de variables que
caracterizan a los distintos grupos de electores, y por ende, a los NS y NC, se ha
aplicado un análisis discriminante que permite no sólo conocer qué variables son las que
más contribuyen a diferenciar a los distintos grupos de votantes si no también predecir
la pertenencia a los mismos6 (Gil Flores, García Jiménez y Rodríguez Gómez, 2001:12).
Es esta última tarea, la predicción, la que nos interesa y justifica la utilización del
análisis discriminante para la caracterización de los NS y NC.
El análisis discriminante se ha realizado con la variable dependiente intención de voto y
la inclusión de once variables independientes de la encuesta que aparecen recogidas en
la Tabla 1. De todas ellas diez son las implicadas en la función discriminante y alcanzan
6 En este caso, los grupos definidos a priori son los que vienen determinados por la variable intención de voto en las elecciones generales de 1996. Si bien, con fines de simplificación y para evitar sesgos derivados del tamaño de la muestra se han mantenido siete opciones políticas, PSOE, PP, IU, otros partidos, en blanco, no votaría y NS/NC. El hecho de colocar bajo el mismo paraguas, “otros partidos”, a un gran número de fuerzas políticas implica que los resultados de los análisis posteriores sean pobres para esta categoría dada la heterogeneidad interna de la misma, pero el reducido tamaño de la muestra para la gran mayoría de fuerzas políticas que componen esta categoría ha llevado a tomar esta decisión.
4
a clasificar correctamente al 64,1% de los casos en los grupos preexistentes de electores
de la variable intención de voto7.
La primera conclusión relevante que se extrae del análisis es que no es posible
identificar de forma homogénea el comportamiento de los NS/NC. Es decir, este grupo
no se comporta como un grupo compacto8. Las razones pueden ser varias, o bien que las
variables implicadas en la función discriminante para estimar cuál es la intención de
voto de estos individuos, no sean las adecuadas para clasificarlos, o bien que, los
NS/NC no constituyen un grupo homogéneo sino que, por el contrario, su
comportamiento es similar al de los individuos con intención de voto declarada. Los
datos sugieren que la segunda afirmación es la correcta.
Tabla 1: Variables en el análisis
- Situación de España en los últimos tres años
- Autoubicación ideológica de PP y PSOE
- Valoración de líderes políticos: J. Anguita, J.M. Aznar y F. González
- Grado de acuerdo con las siguientes afirmaciones:
. El PP no tiene alternativas reales para mejorar la situación
. El PP es un partido responsable que está mejorando para gobernar
. Si el PP gana las elecciones las cosas conseguidas estarían en peligro
. El PP no es la derecha de siempre
- Intención de voto en las próximas elecciones generales de 1996
Fuente: Elaboración propia con cuestionario del CIS (encuesta número 2207).
Una vez identificadas las variables predictoras y con mayor poder discriminante, y por
tanto las más adecuadas para la imputación de la variable intención de voto, se han
realizado dos nuevos análisis que permiten conocer cuáles son las características del
electorado español en 1996, y más concretamente las de los NS/NC. En primer lugar se
7 El método seleccionado ha sido la inclusión paso a paso para controlar la entrada y exclusión de las variables. El criterio de selección elegido ha sido el basado en la minimización de la lambda de Wilks de modo que en cada paso del análisis, la variable seleccionada será aquella que produce el valor de lambda más pequeño. (Gil Flores, García Jiménez y Rodríguez Gómez, 2001: 44-48). 8 La excepción la constituye un grupo reducido de 86 individuos (25,6%) que si presentan unas características propias como NS/NC y son correctamente clasificados a partir de los valores que toman las variables utilizadas sobre los individuos en ese grupo. El 74,4% restante puede asemejarse al comportamiento de los individuos de otros partidos. Es precisamente, este 74% restante el que nos interesa imputar, dado que los otros 86 casos constituyen un grupo compacto al que no puede asignarse ninguna categoría de la intención de voto. Es por esta razón que se ha optado por no tenerlos en cuenta en los análisis posteriores.
5
aplica un análisis de homogeneidad, HOMALS9, con las once variables empleadas en el
discriminante. Su objetivo principal es identificar un espacio de pocas dimensiones que
permita resumir y representar la estructura de asociaciones entre dos o más variables
nominales, así como las similitudes entre los sujetos pertenecientes a estas categorías.
Así, los individuos que responden la misma categoría para una variable dada aparecerán
próximos en el gráfico multivariante, mientras que los individuos que eligen categorías
diferentes aparecerán distantes en el mismo. Por tanto, la utilización de esta técnica nos
ofrece la posibilidad de detectar similitudes y diferencias entre el electorado y la
estructura de relaciones entre las variables.
Dado que nuestro propósito es la caracterización de los NS/NC, no entraremos a
analizar en detalle los resultados del análisis de homogeneidad, simplemente
utilizaremos las puntuaciones factoriales de los sujetos obtenidas en el HOMALS como
variables de clasificación en el análisis de conglomerados k-medias10. En este trabajo se
utiliza el análisis de conglomerados como una técnica exploratoria con el fin de conocer
el número ideal de grupos de votantes existentes y su composición a partir de la
similaridad entre los sujetos. De manera que sea posible obtener una tipología de los
NS/NC y su distribución en cada uno de los grupos obtenidos. El inconveniente es que
exige definir a priori el número de clusters11 (Díaz de Rada, 2002: 298).
Los resultados del análisis de conglomerados k-medias para cuatro grupos incide,
nuevamente, en la heterogénea composición del colectivo NS/NC, erigiéndose como un
grupo con características similares a las de los votantes de los principales partidos
políticos (IU, PP y PSOE).
Los datos de la Tabla 2 ponen de manifiesto que la distribución de los NS/NC en los
cuatro grupos es bastante homogénea, aunque la mayor parte de ellos tienden a
concentrarse en los grupos 1 y 2. Así todo, la clasificación de los cuatro grupos queda
de la siguiente forma: el grupo 1 y 3 está formado, fundamentalmente, por potenciales
votantes del PSOE, IU y otros partidos, mientras que los grupos 2 y 4 lo constituyen,
9 HOMALS pertenece al grupo de técnicas exploratorias de análisis multivariante no lineal que trabaja con variables de carácter nominal. Véase Gifi, 1990. 10 El objetivo del análisis de conglomerados k-medias es asignar casos a un número fijo de grupos (clusters o conglomerados) según los valores que toman las variables seleccionadas. Se ha utilizado el método k-medias sin especificar los centros de los conglomerados. 11 Al utilizar este análisis como una técnica exploratoria se consideró conveniente repetir el análisis con distintos números de cluster (tres, cuatro, cinco y seis grupos) y comprobar los resultados. A la vista de los resultados se decidió que la opción de cuatro clusters era la más satisfactoria. Una de las razones de mayor peso por la que se tomo dicha decisión reside en la homogeneidad numérica de los conglomerados que se forman.
6
principalmente, posibles votantes del PP. Las principales diferencias entre estos grupos
radican en la identificación partidista. Los grupos 3 y 4, los que contienen un menor
número de casos NS/NC, muestran una afiliación partidista más clara. Esto puede
significar que estos dos grupos están formados por individuos de ideología estable que
tienen menos problemas a la hora de decidir su voto, o bien que lo tienen decidido de
antemano. Los otros dos grupos restantes (1 y 2) además de poder ser un electorado más
volátil, también pueden ser los que mayor reparo tengan a la hora de decantarse
públicamente por un partido u opción política.
Tal y como se observa en el Gráfico 1, los grupos 3 y 4 son los más alejados entre sí.
No en vano resultan ser los grupos con una afiliación partidista más fuerte, uno de
ideología política de izquierda (grupo 3) y otro de derecha (grupo 4). Mientras que los
grupos 1 y 2, aún teniendo una adscripción ideológica distinta, izquierda y derecha
respectivamente, se encuentran más próximos entre sí de lo que lo están los grupos 3 y
4, poniéndose de manifiesto la mayor volatilidad de este electorado.
Tabla 2: Distribución de los individuos según grupo de pertenencia. Análisis de conglomerados
Grupo 1 Grupo 2 Grupo 3 Grupo 4 - IU 14,2 6,9 10,4 1,0 - PP 1,4 47,4 0,5 82,6 - PSOE 37,8 3,1 52,4 1,0 - Otros partidos 10,7 5,5 13,2 1,6 - En blanco 2,5 2,7 1,9 0,3 - No votaría 8,0 6,4 7,8 1,8 - NS/NC 25,4 28,1 13,8 11,7 (N) 1828 1573 882 608
Fuente: Elaboración propia con datos del CIS (encuesta número 2207).
Los grupos se han nombrado en función de la ideología de los entrevistados y de la
dispersión en las respuestas dadas por los sujetos al interior del grupo. De modo que los
grupos con una mayor identificación partidista se presentan con un símbolo (+) mientras
que los que tienen un menor identificación partidista se les asigna el signo (-). Teniendo
en cuenta esto, los grupos quedarían nombrados de la siguiente manera: grupo 1
“Izquierda (-)”, grupo 2 “Derecha (-)”, grupo 3 “Izquierda (+)” y grupo 4 “Derecha
(+)”.
En cualquier caso, el Gráfico 1 no nos permite identificar el posicionamiento de los
distintos grupos en las variables discriminantes. Por ello, para poder ampliar y
7
profundizar en el conocimiento de los NS/NC, se presentan las principales
características de estos grupos para estos casos (ver Tabla 3).
Gráfico 1: Clusters obtenidos a partir del Análisis de Homogeneidad en el primer plano factorial
Fuente: Elaboración propia con datos del CIS (encuesta número 2207). Esta visión más detallada de los datos nos va a permitir identificar qué variables son las
responsables de que los grupos se separen o se unan.
En general, los NS/NC de izquierda, en la encuesta de 1996, son más optimistas que los
de derecha en lo que se refiere a la situación actual de España respecto a la de hace tres
años. Así, mientras que el grupo Izquierda (-) y buena parte de los de Izquierda (+)
opinan que la situación de España sigue siendo igual o incluso ha mejorado algo en
estos últimos tres años, la opinión generalizada entre los grupos de derecha es que la
situación ha empeorado. Dentro de la izquierda, los NS/NC que forman parte del grupo
Izquierda (+) son los más críticos con el gobierno y un buen número de ellos cree, al
igual que la derecha, que la situación del país en estos últimos tres años ha empeorado.
La ubicación ideológica de los dos principales partidos del país, PP y PSOE, es otro de
los aspectos fundamentales de división entre los distintos grupos de NS/NC,
principalmente entre los de izquierda y de derecha. Todos los grupos ubican
4
2
3
1
8
ideológicamente al PP a la derecha de la escala ideológica y al PSOE a la izquierda de
la misma, si bien las diferencias entre los grupos se acentúan sobre todo cuando se trata
de ubicar al PP. Los dos grupos de derecha tienden a ubicar al partido en una posición
de la escala más centrada de lo que lo hacen los de izquierda.
La valoración de los líderes políticos representa un aspecto más de la caracterización de
los NS/NC a partir de los grupos obtenidos. Los grupos Izquierda (+) y Derecha (+)
suspenden al líder de IU, Julio Anguita, siendo precisamente el grupo más extremo de la
izquierda el más crítico con él. Mientras que los otros dos grupos de ideología más
centrada, Izquierda (-) y Derecha (-), aprueban a Julio Anguita sin existir a penas
diferencias entre las valoraciones de uno y otro grupo. Pero esta sintonía de los grupos
más centrados se rompe a la hora de valorar a Felipe González y a José María Aznar.
Los grupos de izquierda valoran negativamente la actuación del líder del PP, siendo
mucho más críticos con él los del grupo Izquierda (+). En cambio, existe división de
opiniones entre ambos grupos a la hora de valorar al líder socialista. Si el grupo
Izquierda (-) se muestra benevolente con Felipe González y le concede un aprobado en
su valoración no sucede lo mismo con el de Izquierda (+), que no tiene ninguna
consideración en su valoración con el líder del PSOE. Por su parte existe un mayor
acuerdo entre los grupos de derecha, ambos suspenden a Felipe González y aprueban
con nota a José María Aznar, los líderes políticos obtienen los valores más bajos y más
altos, respectivamente, del grupo Derecha (+).
En lo que respecta a la opinión de los grupos respecto a una serie de frases que tratan de
caracterizar al PP las diferencias según la ideología de los entrevistados son evidentes.
En general, los grupos de izquierda están de acuerdo con que si el PP ganara las
elecciones, muchas de las cosas conseguidas en los últimos años podrían estar en
peligro. Además consideran que el PP sólo sabe criticar y no tiene alternativas reales
para mejorar la situación del país. Esta opinión es mucho más generalizada entre los
integrantes del grupo Izquierda (+). En cambio, no están de acuerdo con la afirmación
de que el PP demuestra ser un partido responsable, cada vez mejor preparado para
gobernar el país y con que ya no es la derecha de siempre. Si bien, este último aspecto
presenta una mayor diversidad de opiniones al interior de los dos grupos, existiendo un
importante número de individuos que opina que el PP ya no es la derecha de siempre.
Por su parte, la opinión generalizada de los dos grupos de derecha es estar de acuerdo
con que el PP es un partido preparado para gobernar y que ya no es la derecha que era,
mientras que están en desacuerdo con la etiqueta puesta al PP como partido que sólo
9
sabe criticar y no tiene alternativas reales para el cambio y que si ganara las elecciones
pondría en peligro los avances conseguidos en los últimos años.
Tabla 3: Principales características de los clusters
Fuente: Elaboración propia con datos del CIS (encuesta número 2207).
En definitiva y a modo de conclusión, se puede decir que los grupos Izquierda (+) y
Derecha (+) se caracterizan por adoptar posiciones extremas en sus respuestas (siempre
en los polos opuestos) y por ser mucho más críticos en sus valoraciones que el resto de
individuos de los otros grupos. Se trata por tanto de grupos con las ideas políticas más
claras, con una adscripción ideológica definida y sin problemas a la hora de decidir su
voto, que con gran probabilidad tienen ya decidido de antemano. Y por tanto, es fácil
que estos dos grupos estén formados, principalmente, por individuos que no quieren
contestar a la pregunta intención de voto. Por su parte, los grupos Izquierda (-) y
Derecha (-) los integran un electorado con opiniones políticas menos formadas, más
10
volátiles y con una adscripción ideológica centrada, lo que implica que en el momento
de realización de la encuesta puedan aún no tener decidido su voto.
La información presentada hasta ahora nos ofrece una visión general de las
características que definen a los distintos grupos de NS/NC y ayuda a formular el
modelo de imputación múltiple que se va a aplicar. En el siguiente apartado se presenta
el procedimiento y los resultados de la imputación múltiple. El proceso se desarrolla en
dos pasos diferentes, el primero con el objetivo de completar los datos faltantes de las
variables independientes, y el segundo para imputar los valores de los individuos
NS/NC de la variable intención de voto.
2.1 Procedimiento de Imputación Múltiple (MI) El proceso de imputación múltiple consiste en la imputación de los datos faltantes a
través de la estimación de un modelo aleatorio realizado m veces y obteniéndose m
matrices de datos completas con m valores diferentes para cada valor imputado (Rubin,
1987). En cada una de las matrices resultantes se aplica el análisis estadístico que mejor
se ajuste al objeto de estudio y se combinan los resultados obtenidos de cada una de
ellas mediante una serie de fórmulas matemáticas desarrolladas por Little y Rubin con
el fin de obtener una estimación promedio. De esta forma a todos los individuos se les
asignará una opción política en la variable intención de voto.
El procedimiento de imputación múltiple, al contrario que la simple, crea múltiples
bases de datos imputadas para datos multivariantes incompletos y utiliza métodos que
permiten evaluar la variabilidad que la imputación incorpora en la estimación. El
método elegido dependerá de la distribución que tengan los datos faltantes y el tipo de
variable a imputar (Rubin, 1987; Lavori, Dawson, and Shera, 1995; Schafer, 1997).
El proceso de imputación múltiple consta de tres fases claramente diferenciadas: En
primer lugar, cada valor perdido se reemplaza por un conjunto de m>1 valores
generados por simulación, de manera que se crean m bases de datos “completas”. En
segundo lugar, se analizan las m bases de datos “completas” utilizando análisis
estadísticos estándar y, finalmente, se combinan los resultados de las m bases de datos
“completas” mediante reglas simples para producir resultados inferenciales, es decir,
para producir una estimación global.
11
Existen tres asunciones estadísticas importantes para la imputación múltiple:
1. Asume que los datos siguen una distribución normal multivariante y contiene
valores perdidos que pueden aparecer en alguna de las variables.
2. Asume también que los datos tienen una distribución normal multivariante
cuando se utiliza tanto el método de regresión12 como el método Markov Chain
Monte Carlo13 (MCMC).
3. Sea Y una matriz de datos n x p con valores no observados. La matriz Y puede
dividirse en Yobs e Yper distinguiendo de este modo variables observadas de
variables con datos perdidos. Asume que los datos perdidos son datos perdidos
al azar, que recibe habitualmente la denominación de MAR (missing at random),
es decir que el hecho de que una observación sea perdida puede depender de los
valores observados pero no de los valores perdidos (Rubin 1976 y 1987:53). Las
imputaciones se crean desde un enfoque bayesiano a partir de la distribución
predictiva de Yper dado Yobs14
.
Una vez visto en qué consiste el método de imputación múltiple y su aplicación a
nuestros datos nos centraremos en los resultados del proceso de imputación múltiple
llevado a cabo15. Para la imputación de los valores NS/NC en la variable intención de
voto ha sido necesario realizar dos procesos diferentes de imputación. Uno para las
variables explicativas (cuantitativas y con una distribución de los datos faltantes
arbitraria) que intervendrán en el proceso de imputación de la variable intención de voto
y otro para la imputación de la variable nominal objeto de estudio, la intención de voto.
El procedimiento de imputación múltiple tiene sus limitaciones y no deja imputar de
manera conjunta variables mixtas cuando la distribución de los datos faltantes es
arbitraria. De modo que la estrategia seguida en este caso fue la utilización del método
12 El método de regresión se utiliza cuando los datos perdidos tienen una distribución monótona es decir, cuando para un individuo i, a partir de una variable Yj todos los valores son faltantes, y las variables son continuas. 13 Este método se aplica cuando los datos perdidos tienen una distribución arbitraria y las variables son cuantitativas. 14 Los métodos bayesianos constituyen una alternativa a la estadística tradicional centrada en el contraste de hipótesis. La principal diferencia entre ambos enfoques se halla en el cálculo de la probabilidad. En la estadística clásica se calcula la probabilidad de observar un resultado suponiendo que la realidad sea de una manera determinada (hipótesis nula), sin embargo lo que realmente nos interesa conocer es la probabilidad de que, a partir de los datos observados, las cosas sean de una manera determinada. Y esto es lo que trata de hacer el enfoque bayesiano, modificar la probabilidad conocida de que ocurra un suceso cuando tenemos nueva información al respecto (Molinero, 2002). 15 El procedimiento de imputación múltiple aquí aplicado es implementado por SAS, si bien se trata de un procedimiento experimental.
12
MCMC para la imputación de los NS/NC de las once variables independientes
consideradas a partir del análisis discriminante y el método de la función discriminante
para la imputación de los NS/NC de la variable nominal intención de voto.
Los resultados de la Tabla 4 ponen de manifiesto que los valores imputados a partir del
procedimiento de imputación múltiple no mejoran los datos directos de la encuesta, pese
a que para algunas opciones electorales las diferencias con respecto a los resultados
reales de las elecciones de 1996 son menores que antes de imputar. La imputación solo
mejora los resultados de la encuesta para los casos del PSOE, PP y No votaría y, en el
caso del PP sólo ligeramente. Una característica que se puede extraer de la imputación
es que la recuperación de información tiende a asignar más votos a los partidos que los
que realmente recibieron.
Tabla 4: Porcentaje de la variable intención de voto (datos directos de encuesta, intención de voto imputada vs. resultados reales elecciones)
Fuente: Elaboración propia con resultados electorales del Ministerio del Interior y datos del CIS (encuesta número 2207). Esto indica que es necesario reforzar la información sobre abstención de forma teórica y
metodológica de manera que se pueda incluir en las encuestas instrumentos más
refinados de detección de la abstención.
2.2 Validez del procedimiento de Imputación Múltiple
El carácter insatisfactorio de los resultados obtenidos mediante la realización de dos
imputaciones consecutivas nos lleva a considerar dos fuentes de error. Una primera
causada por el propio procedimiento de imputación utilizado y una segunda causa
derivada del diseño del propio cuestionario o de la selección de las variables incluidas
en el proceso de imputación.
% Intención de voto % Resultados reales % Intención de voto(Encuesta CIS) elecciones 1996* imputada
- IU 9,33 8,15 12,82 - PP 25,56 29,98 33,41 - PSOE 24,18 29,09 30,69 - Otros partidos 8,12 9,32 10,78 - En blanco 2,14 0,75 3,08 - No votaría 6,56 22,71 9,23 - N.S./N.C 24,11Total 100 100 100
* % calculado sobre voto válido + abstención
Partido Político
13
Para poder comprobar que la técnica utilizada para la estimación de variables nominales
funciona de forma adecuada se ha construido una base de datos donde aparecen
únicamente aquellos individuos entrevistados que han respondido a todas y cada una de
las preguntas utilizadas en el análisis discriminante y a la pregunta sobre intención de
voto al Parlamento español. El único modo de conocer si un dato ha sido imputado
correctamente es conociendo el valor real del dato, y esto sólo es posible si se trabaja
con la base de datos completa.
Sobre esta base de datos “completa” se ha provocado de forma aleatoria la eliminación
del dato real de la variable intención de voto convirtiéndolo en un dato faltante.
Siguiendo este método se han creado cinco bases de datos diferentes donde se ha
eliminado un 5%, 10%, 15%, 20% y 25% respectivamente de los datos de dicha
variable.
La Tabla 5 contiene cuál ha sido la distribución de los NS/NC ficticios en la variable
que vamos a imputar para cada uno de los partidos cuando se eliminó aleatoriamente un
determinado porcentaje de los datos de la variable intención de voto. Así, las distintas
eliminaciones han generado un total de entre 140 y 676 casos perdidos en la variable de
interés. Si, por ejemplo, tenemos en cuenta los resultados de la base de datos con un
15% de información perdida en la variable intención de voto, se observa que de los 429
casos eliminados en ella, un 35,4% corresponderían a votantes del PSOE. En esta tabla,
también se presentan los porcentajes de casos imputados en cada una de las bases de
datos consideradas. Cuando se trabaja con un 5% de datos faltantes, en la variable
intención de voto, de los 140 casos a imputar un 15,7% fueron asignados a la
candidatura de IU, un 38,6% a la del PP, un 31,4% a la del PSOE, el 10% a la de otros
partidos, un 1,4% al voto en blanco y un 2,9% a la abstención. Sin embargo, aunque
estos datos agregados por partido se aproximan mucho a la distribución de los datos
faltantes original (ver primera columna) es necesario comprobar si estas asignaciones se
han producido adecuadamente. Para ello se ha calculado la tasa de éxito para cada una
de las bases de datos.
14
Tabla 5: Distribución de los datos faltantes en cada una de las bases de datos
Fuente: Elaboración propia con datos del CIS (encuesta número 2207). En la Tabla 6 aparece la tasa de éxito general para cada una de las bases de datos
empleadas. Independientemente del porcentaje de datos faltantes en la variable
intención de voto, el modelo de imputación múltiple presenta porcentajes de éxito
similares, entorno al 70%. La excepción se produce para la base que contiene un 10%
de datos faltantes donde la tasa de éxito asciende al 74%. En cualquier caso hay que
destacar cómo esta técnica de análisis y el modelo utilizado (método de la función
discriminante) mantiene unos resultados homogéneos independientemente del
porcentaje de datos faltantes para un rango comprendido entre el 5% y el 25%. Este arco
de pérdida de información es similar al que generalmente sufren las encuestas, que para
el caso de la intención de voto en este estudio esta situado en un 24,1%.
Tabla 6: Porcentaje de éxito de la imputación según porcentaje de datos faltantes y opción política
Fuente: Elaboración propia con datos del CIS (encuesta número 2207). Este porcentaje de éxito sin embargo no se distribuye de igual forma para todas las
opciones políticas o electorales. Parece evidente el éxito alcanzado en el caso de los
partidos mayoritarios, PP y PSOE, y aceptable para el caso de IU pero el modelo de
I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E - IU 15,0 15,7 14,1 15,8 14,7 14,2 15,7 17,5 16,7 16,1 - PP 32,1 38,6 40,5 39,9 37,3 37,8 37,8 37,3 36,7 37,9 - PSOE 32,9 31,4 32,6 29,2 35,4 36,6 31,5 31,6 33,0 33,7 - Otros partidos 11,4 10,0 7,9 11,3 7,7 8,2 9,6 8,0 9,3 8,4 - En blanco 4,3 1,4 2,4 1,0 2,1 0,7 1,4 2,2 0,9 1,2 - No votaría 4,3 2,9 2,4 2,7 2,8 2,6 4,0 3,4 3,4 2,7
(N)* I.V.O. (Intención de voto observada)* I.V.E. (Intención de voto estimada)
Partido político 25%
140 291 429 553 676
5% 10% 15% 20%
Partido político 5% 10% 15% 20% 25% - IU 59,1 56,5 57,4 58,8 67,0 - PP 81,5 94,0 88,9 90,3 88,3 - PSOE 81,8 82,4 74,5 74,9 75,4 - Otros partidos 35,7 24,2 20,0 20,5 15,8 - En blanco 0,0 0,0 0,0 8,3 0,0 - No votaría 0,0 12,5 9,1 10,5 0,0 (N) 98 214 304 386 480
Total tasa de éxito 70,0 73,5 70,9 69,8 71,0
15
imputación múltiple no funciona cuando se trata de las categorías otros partidos, voto en
blanco o no votaría. En principio, esto era previsible teniendo en cuenta que las
variables empleadas en el modelo, obtenidas a partir del análisis discriminante, no eran
válidas para clasificar correctamente a estos tres grupos, y muy especialmente, al grupo
voto en blanco.
A la vista de estos resultados se puede concluir que el éxito de funcionamiento del
método de imputación múltiple difiere significativamente según la opción política de la
que se trate. Ahora bien, si realmente existe este efecto partido del que parece depender
el éxito o fracaso del modelo de imputación cabría pensar que el principal problema al
que nos enfrentamos está en el diseño del cuestionario. Y es que la conclusión que se
puede extraer de todo ello es que para los votantes declarados de otros partidos, voto en
blanco y abstención, las preguntas formuladas en el cuestionario no recogen de manera
adecuada su opinión o su carácter diferenciado. En cambio, las preguntas funcionan
muy bien cuando los entrevistados se sienten identificados con las principales fuerzas
políticas del país (PP, PSOE e IU).
No obstante, y antes de dar por válida esta conclusión, habría que analizar si existe
alguna relación entre el número de casos en cada opción de respuesta y la tasa de éxito
del método de imputación. A priori, y viendo los datos de la Tabla 7, parece evidente
que los mayores niveles de fracaso se han dado en aquellas opciones políticas con un
menor número de casos. Así todo, para ver si existe relación entre tasa de éxito del
método de imputación y tamaño de la muestra se ha realizado un gráfico de dispersión
con el número de casos y la tasa de éxito en cada una de las muestras.
Tabla 7: Distribución de casos en la variable intención de voto
Partido político Nº de casos (N) - IU 467 - PP 1052 - PSOE 923 - Otros partidos 257 - En blanco 51 - No votaría 108
Fuente: Elaboración propia con datos del CIS (encuesta número 2207).
En el Gráfico 2 se observa la relación que existe entre la tasa de éxito conseguida por el
procedimiento de imputación múltiple y el número de individuos que fueron imputados.
16
El gráfico revela como a partir de 100 miembros imputados para un mismo partido o
categoría de la variable intención de voto la tasa de éxito comienza a estabilizarse en
cifras que oscilan entre el 70% y el 80%. Igualmente la tasa de acierto del modelo es
muy limitada cuando el número de casos está por debajo de 50.
Gráfico 2: Relación entre número de casos y tasa de éxito (para el total de datos faltantes)
300250200150100500
Número de casos imputados
100,0
80,0
60,0
40,0
20,0
0,0
Tasa
de
éxito
bco
ot
psoe pp
iu
nvo
bco
ot
psoe
pp
iu
nvo
bco
ot
psoe
pp
iu
nvobco
ot
psoe
pp
iu
nvo
bco
ot
psoe
pp
iu
Fuente: Elaboración propia con datos del CIS (encuesta número 2207).
En cualquier caso, una mayor información sobre la importancia del número de datos a
partir de los cuales se realiza la imputación ayudaría a establecer si las bajas tasas de
éxito se deben a que las variables no discriminan a estos grupos o si además existe un
efecto provocado por un bajo número de casos.
Un modo de comprobar si efectivamente el número de casos en cada opción de
respuesta es responsable de la tasa de éxito alcanzada por el método de imputación
múltiple es incrementar el número de casos de las categorías otros partidos, voto en
blanco y no votaría hasta alcanzar un mínimo de 300 casos en cada una de ellas. Para
ello se ha duplicado y triplicado el número de casos de estas categorías y se ha
procedido, con esta nueva base de datos a eliminar nuevamente un 5%, 10%, 15%, 20%
y 25% de los datos en dicha variable y aplicar el método de imputación múltiple con las
Partidos mayoritarios
Partidos minoritarios
Abstencionistas/Voto en blanco
17
mismas variables. El número de casos añadidos a la categoría otros partidos es de 257,
255 para voto en blanco y 324 para el no votaría.
En términos generales, y a la vista de los resultados recogidos en la Tabla 8, lo que
parece claro es que el incremento del número de casos de las categorías menos
numerosas no ha contribuido a mejorar el método de imputación múltiple, si no que por
el contrario, en datos globales, la tasa de éxito del modelo de imputación se ve reducida
en torno al 20% con respecto a los datos iniciales.
Tabla 8: Porcentaje de éxito de la imputación según % de datos faltantes en la variable intención de voto
Fuente: Elaboración propia con datos del CIS (encuesta número 2207). El porcentaje de éxito del método de imputación según opción política tampoco mejora
sustancialmente al aumentar el número de casos de las opciones políticas con menor
tasa de éxito en el proceso anterior. Si bien, las tasas de éxito para estos tres casos (otros
partidos, voto en blanco y no votaría) mejoran respecto a los datos anteriores, en ningún
caso superan el 35% de aciertos en su clasificación. Por su parte, el método de
imputación múltiple sigue funcionando de manera aceptable, con una tasa de éxito
elevada, para los casos de IU, PP y PSOE si bien, los porcentajes se reducen respecto al
proceso anterior, especialmente en el caso de los partidos de izquierda.
Por tanto, el incremento artificial del número de casos en los que la tasa de éxito había
sido muy baja no ha dado lugar a mejores resultados. Esto indica que, al contrario de lo
que se podría esperar, no existe un claro efecto debido al bajo número de casos, sino que
la causa de menores tasas de éxito está relacionada con las variables discriminantes
utilizadas en el procedimiento que no resultan adecuadas para identificar a estos grupos.
La conclusión fundamental que se puede derivar de esta circunstancia es que las
Partido político 5% 10% 15% 20% 25% - IU 65,4 41,2 50,7 44,3 39,1 - PP 79,6 79,6 88,5 84,4 81,1 - PSOE 60,0 65,7 62,6 69,7 60,7 - Otros partidos 32,1 31,3 31,3 22,9 24,8 - En blanco 11,1 10,0 13,9 27,3 7,1 - No votaría 18,8 30,0 23,4 15,1 18,9 (N) 96 203 316 413 437
Total tasa de éxito 55,5 54,6 56,1 54,3 50,1
18
variables que deben incluirse en el análisis de imputación deben ser variables
explicativas de todas las categorías de la variable intención de voto.
3. Estudio 2382, la encuesta preelectoral de las elecciones de 2000
Los resultados presentados para las elecciones de 1996 constituyen un punto de partida
y referencia para la realización de estudios dirigidos al análisis de la intención de voto y
la imputación múltiple. Sin embargo, estos resultados pueden estar influenciados por un
contexto político, económico y social específico. Para comprobar la consistencia de los
resultados se ha aplicado el mismo proceso a la encuesta preelectoral que el CIS realizó
con ocasión de las elecciones generales de 2000.
En este caso los pasos dados para el análisis son idénticos a los realizados para el
estudio anterior. La primera decisión ha sido valorar la conveniencia de unir en un solo
grupo los NS y NC mediante un análisis discriminante que permite observar si forman o
no un grupo homogéneo. Los resultados obtenidos permiten concluir que los NS y NC
no son grupos diferentes entre sí y por tanto pueden ser analizados como un solo
grupo16.
Una vez que se ha comprobado esto la segunda pregunta va más allá. Ahora lo que se
trata de comprobar es cuánto de parecido son los NS/NC a los grupos que si declaran su
intención de voto. Es decir, si se comportan como los votantes de un partido político
concreto (PP, PSOE o IU), como votantes en blanco o como aquellos entrevistados que
dicen que se abstendrán en las próximas elecciones. Para corroborar esto y además
poder caracterizar a este grupo se ha realizado un análisis de homogeneidad y un
análisis cluster.
Estos pasos previos a la imputación múltiple, permiten conocer mucho mejor los datos
utilizados y abordar el proceso de imputación con un conocimiento previo de los
mismos. Al igual que en el estudio anterior, los datos obtenidos mediante la imputación
múltiple en dos pasos son insatisfactorios a pesar de que en este caso, las preguntas que
incluye el cuestionario, dan más espacio a variables ordinales y numéricas y el tamaño
de muestra es mucho mayor. Este análisis finaliza con la validación del método de
16 Los análisis realizados para determinar si los NS y NC forman o no un único grupo no se muestran aquí por razones de espacio.
19
imputación mediante la obtención de las tasas de éxito procedentes de los análisis
realizados con datos faltantes ficticios.
3.1. Caracterización de los NS/NC en las elecciones generales de 2000
El grupo NS/NC constituye un grupo homogéneo internamente. Sin embargo que
funcionen como un único grupo también puede significar que sean un conjunto
específico de entrevistados que realmente no tengan una intención de voto. Si esto fuera
así, el procedimiento de imputación no tendría sentido. Por el contrario si los NS/NC se
comportan como otros grupos de votantes el sistema de imputación puede cumplir el
objetivo de asignar, a cada uno de ellos, una categoría de intención de voto.
El primer reto por tanto es encontrar un conjunto de variables que sirvan para predecir
la variable dependiente intención de voto de un sujeto y para ello se han realizado tres
análisis discriminantes. De todas las variables empleadas en los análisis solo 15 resultan
importantes (ver Tabla 9). No obstante, se ha optado por añadir una variable más que
consideramos de interés para el estudio, la ubicación ideológica del PP. Los porcentajes
de casos bien clasificados con estas variables, en alguna de las categorías de la intención
de voto, son buenos para IU (82,3%), PP (84,0%), PSOE (77,7%) y No votaría (87,0%).
Por el contrario, para otros partidos el porcentaje de pronósticos acertados es del 44,5%
y de un 38,9% para los NS/NC, resultados que no son suficientes17. Esto implica, que la
imputación múltiple para estos casos va a ser menos exitosa que para el resto de
categorías, pero mejor que para los votantes en blanco, que de nuevo solo son bien
clasificados en el 18,5% de los casos. Esto vuelve a remitirnos a la problemática de este
grupo a la hora de poder ser caracterizado. Mientras que la inclusión de nuevas
variables ha mejorado de forma importante el grupo de individuos No votaría, estás no
son relevantes a la hora de caracterizar la categoría de votantes en blanco. La categoría
No votaría emerge en este caso como un grupo con unas características propias
definitorias.
Para los propósitos de esta investigación, el análisis discriminante no solo permite
generar un modelo de imputación múltiple sino que además permite comprender sus
17 Tras el análisis discriminante del total de NS/NC solo un 38,9% (538 individuos) no se ubican en ninguna otra categoría de intención de voto con las variables utilizadas. Con el fin de que la imputación ofrezca mejores resultados estos individuos han sido eliminados de la muestra utilizada para la imputación múltiple.
20
resultados. Igual que sucedía en el estudio anterior, las respuestas NS/NC no
constituyen un grupo compacto con características propias. Más del 60% de los
individuos incluidos bajo esta etiqueta tienen comportamientos y opiniones que les
asemejan a las de otras opciones políticas.
Tabla 9: Variables en el análisis
- Interés por la política - Frecuencia con la que habla de política - Frecuencia con la que sigue la información política a través de la radio - Situación económica del país dentro de un año - Valoración de la gestión del PP durante los últimos cuatro años - Probabilidad de votar en las próximas elecciones generales - Confianza en líderes políticos: J.M. Aznar y J. Almunia - Valoración líderes políticos: Durán i Lleida y J. Puyol - Probabilidad de votar a : IU, PP y PSOE - Ubicación ideológica de los partidos: PP, IU y PSOE - Ubicación ideológica del entrevistado - Intención de voto en las próximas elecciones generales de 2000 Fuente: Elaboración propia con cuestionario del CIS (encuesta número 2382).
Para confirmar este aspecto, se ha realizado de forma complementaria un análisis de
homogeneidad (HOMALS) que permite, junto con la aplicación del análisis cluster, ver
en un espacio de dos dimensiones la forma en la que se distribuyen los casos.
Los resultados del análisis de homogeneidad son coherentes con lo hasta ahora
señalado. Del mismo modo que en el apartado 2.1 de este trabajo, a partir de las
puntuaciones factoriales obtenidas en el HOMALS, se realizaron, a modo de
exploración, cuatro análisis de conglomerados k-medias con tres, cuatro, cinco y seis
grupos. Finalmente se observó que el análisis con cinco grupos ofrecía grupos más
estables. En base a los resultados obtenidos en el análisis de homogeneidad podemos
concluir que los valores de la categoría No votaría aparecen más concentrados en un
mismo grupo que en el estudio realizado para las elecciones de 1996 (Tabla 10).
21
Tabla 10: Distribución de los individuos según grupo de pertenencia
Fuente: Elaboración propia con datos del CIS (encuesta número 2382).
Gráfico 3: Clusters obtenidos a partir del Análisis de Homogeneidad en el primer plano factorial
Fuente: Elaboración propia con datos del CIS (encuesta número 2382). Ya se trate de tres, cuatro, cinco o seis clusters, al menos uno de los grupos contiene un
alto porcentaje ellos. En este mismo grupo, junto a los No votaría, también se
encuentran concentrados los NS/NC. Esto indica que del total de los NS/NC, 6539 casos
en total, entre 2502 y 1028, según el análisis cluster considerado tiene un modelo de
comportamiento similar a los del No votaría. Este grupo podría ser considerado como el
4
1
3 2
5
Partido político Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 - IU 6,5 0,8 0,6 12,2 0,8 - PP 1,5 38,8 4,7 1,1 67,5 - PSOE 37,5 4,9 6,0 47,6 2,1 - Otros partidos 10,9 7,1 2,1 14,0 6,2 - En blanco 4,0 3,6 3,6 2,9 1,6 - No votaría 13,8 8,9 31,9 3,0 1,0 - NS/NC 25,6 35,8 51,1 19,3 20,7 (N) 4624 5256 2013 4981 7161
22
verdadero núcleo duro de los NS/NC. Mientras el resto se ubica en un espacio similar al
de otras categorías de la variable intención de voto (ver Gráfico 3).
Las variables que primero entran a formar parte de los análisis discriminantes serán las
variables que permitirán identificar diferencias entre los grupos de forma más clara. En
la función discriminante la variable de autoubicación ideológica entra en la quinta
posición. A pesar de ello, las diferencias ideológicas van a ser utilizadas aquí de forma
orientativa para etiquetar a los grupos, salvo para el tercer grupo (NS/NC+abstención).
La ideología media de los cinco clusters oscila entre el 6,27 para el quinto grupo y el
3,45 para el cuarto. Estos son los dos clusters más polarizados. Los grupos 1 y 2 son
grupos más cercanos al centro que los dos anteriores. El grupo 3, que se nutría
principalmente de las respuestas NS/NC y No votaría, aunque no se encuentra en el
centro ideológico es, sin embargo, el grupo ideológico central.
De acuerdo con esto, el primer grupo que el análisis cluster forma, se va a denominar
por razones prácticas Izquierda (–), el segundo Derecha (–), el tercero NS/NC+No
votaría, el cuarto grupo se denominará Izquierda (+) y finalmente el quinto y último
grupo será referido como Derecha (+).
En la Tabla 11 se muestra información sobre las características que identifican a cada
uno de los grupos. El interés general por la política, la conversación política y la
adquisición de información política permite distinguir al grupo central. Así, los grupos
de Izquierda (+) y Derecha (+) son los más interesados en política y eso también se ve
reflejado en la frecuencia con la que hablan de política y el seguimiento de la
información política a través de la radio. En el otro extremo el grupo NS/NC es el
menos interesado en estas cuestiones y además estos encuestados son a su vez los más
pesimistas en cuanto a las perspectivas económicas del país. Con todo esto presente no
es de extrañar que en el grupo de NS/NC que no puede ser asimilado con ninguna
tendencia ideológica, se encuentren los porcentajes más altos de respuesta negativa a la
cuestión sobre la probabilidad de acudir a las urnas a votar.
El grado de confianza en Aznar y Almunia también muestra diferencias entre los
encuestados sin intención de voto. Aquellos que hemos identificado como de Derecha
(+) muestran confianza en Aznar y sin embargo tienen poca confianza en Almunia. A su
vez el grupo de Izquierda (+) aunque desconfía más de Aznar que el grupo Derecha (+)
de Almunia, también es cierto que tiene un grado de confianza en Almunia menos
intenso que la Derecha (+) en Aznar.
23
Tabla 11: Principales características de los clusters
En resumen, la información hasta ahora vista nos da una idea general de las
características que definen a los distintos grupos de votantes. Además ayuda a entender,
por un lado, los resultados del análisis discriminante al observar las preguntas que
diferencian a los grupos, y, por otro lado, a formular un modelo para el procedimiento
24
de imputación múltiple. En el siguiente apartado se presentan los resultados de la
imputación múltiple de la encuesta preelectoral del CIS con motivo de las elecciones
generales al Congreso de los Diputados en el año 2000.
3.2 Procedimiento de Imputación Múltiple (MI) A continuación se presentan los resultados del procedimiento de imputación múltiple
(MI) para el conjunto de los datos preelectorales de 2000. Por un lado, los análisis
discriminantes han ofrecido un porcentaje de buena clasificación general, similar al
obtenido en el estudio anterior para las elecciones de 1996. Las expectativas a cerca de
las tasas de éxito están en un nivel parecido al anterior. Sin embargo, está vez hay tres
elementos nuevos. Por un lado el número de variables utilizadas es mucho mayor, un
hecho que puede mejorar los resultados. Estas variables además caracterizan mejor que
en el estudio anterior de 1996 a los individuos de voto en blanco, y principalmente a los
votantes de otros partidos y al no votaría. Finalmente, el análisis de homogeneidad
muestra en los distintos gráficos que los grupos extremos de Izquierda (+) y Derecha (+)
no se encuentran en esta ocasión tan polarizados como en el preelectoral de 1996. Por
tanto mientras que los dos primeros elementos pueden ayudar a tener mejores resultados
en la imputación múltiple, el tercero puede operar en el sentido contrario.
La imputación múltiple de los NS/NC en la variable intención de voto se ha llevado a
cabo, como en el apartado anterior, en dos pasos diferentes. Por un lado, la imputación
de los datos faltantes de las 17 variables explicativas obtenidas en el tercer análisis
discriminante (cuantitativas y con una distribución arbitraria de los NS/NC) que
posteriormente intervendrán en el proceso de imputación de los valores perdidos de la
variable objeto de estudio, la intención de voto. Y por otro, una vez completos todos los
datos faltantes de estas variables, se procede a la imputación múltiple de la variable
intención de voto. Al igual que en el estudio de 1996, el método utilizado para la
imputación de las 17 variables explicativas es el MCMC mientras que el empleado para
la imputación de la intención de voto ha sido el de la función discriminante (que permite
imputar los valores de una variable nominal).
Los resultados de la Tabla 12 ponen de manifiesto que los valores imputados en dos
pasos no mejoran los resultados directos de la encuesta. La imputación sólo mejora los
resultados de la encuesta para los casos del PSOE y del No votaría, y en este último
caso sólo ligeramente. Como sucedía en el preelectoral de 1996, la recuperación de
25
información a través del procedimiento MI tiende asignar más votos a los partidos de
los que realmente recibieron.
Tabla 12: % de la variable intención de voto (datos directos de encuesta, intención de voto imputada vs. resultados reales elecciones)
Fuente: Elaboración propia con resultados electorales del Ministerio del Interior y datos del CIS (encuesta número 2382).
3.3 Validez del procedimiento de Imputación Múltiple Al igual que sucedería con el preelectoral de las elecciones generales de 1996, el
carácter insatisfactorio de los resultados obtenidos mediante el método de imputación
múltiple (MI) de todas las variables conjuntas nos lleva a comprobar la validez del
método utilizado y si las variables consideradas en el análisis funcionan de forma
adecuada o no. Para ello, se ha elaborado una nueva base de datos que contenga
únicamente aquellos individuos entrevistados que han respondido a todas y cada una de
las variables que han contribuido a la construcción de la función discriminante (las
diecisiete variables del tercer análisis discriminante y la intención de voto en las
elecciones generales de 2000), puesto que sólo conociendo el dato real podemos saber si
el valor estimado (imputado) es correcto. El hecho de considerar un mayor número de
variables discriminantes para la imputación tiene sus ventajas e inconvenientes. La
ventaja está en que cuanto mayor sea el número de variables que intervienen en la
imputación, previsiblemente mayor será el éxito de la imputación, fundamentalmente
para determinadas opciones electorales. El inconveniente, es que el número de NS/NC
aumenta y con ello el número de casos a eliminar para la construcción de la nueva base
de datos “completa”.
Siguiendo el mismo criterio que en el estudio anterior, sobre esta nueva base
“completa”, se ha provocado de forma aleatoria la eliminación de datos reales de la
variable intención de voto convirtiéndolos así en datos faltantes. Así, se han construido
% Intención de voto % Resultados reales % Intención de voto(Encuesta CIS) elecciones 1996* imputada
- IU 4,26 3,74 5,19 - PP 29,50 30,53 42,15 - PSOE 19,28 23,42 25,09 - Otros partidos 8,60 9,79 12,59 - En blanco 2,93 1,08 5,10 - No votaría 8,21 31,44 9,88 - N.S./N.C 27,20Total 100,00 100 100
* % calculado sobre voto válido + abstención
Partido Político
26
cinco bases de datos diferentes con porcentajes de datos faltantes distintos (un 5%, 10%,
15%, 20% y 25% de datos faltantes de la variable intención de voto). Este intervalo de
pérdida de información es similar al que generalmente se da en las encuestas. En este
caso concreto, el porcentaje de NS/NC en la variable intención de voto asciende al
27,2%.
La distribución de esos NS/NC ficticios en función de la variable intención de voto
aparece recogida en la Tabla 13. Los datos eliminados de la variable a imputar oscilan
entre los 245 y 1287 casos. Si tenemos en cuenta los resultados obtenidos para la base
de datos con un 10% de información faltante en la intención de voto se observa que de
los 508 casos eliminados, un 42,1% correspondían a votantes del PP y un 27,4% a
votantes del PSOE (IVO).
Tabla 13: Distribución de los datos faltantes en cada una de las bases de datos antes
Fuente: Elaboración propia con datos del CIS (encuesta número 2382). Tabla 14: Porcentaje de éxito de la imputación según opción política y porcentaje de datos faltantes
Fuente: Elaboración propia con datos del CIS (encuesta número 2382).
I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E - IU 11,0 9,0 8,7 9,3 7,4 7,4 6,6 6,9 6,3 7,3 - PP 42,2 46,5 42,1 42,1 45,6 47,5 45,8 46,9 43,0 44,9 - PSOE 23,7 24,5 27,4 29,7 25,1 25,6 25,6 26,7 28,7 28,0 - Otros partidos 13,9 11,0 12,6 8,9 14,2 11,7 14,1 11,0 13,8 10,6 - En blanco 3,7 2,9 2,8 2,0 3,6 2,3 3,1 2,6 2,8 2,3 - No votaría 5,3 6,1 6,5 8,1 4,1 5,5 4,8 5,8 5,4 6,8
(N)* I.V.O. (Intención de voto observada)* I.V.E. (Intención de voto estimada)
Partido político 25%
245 508 829 1080 1287
5% 10% 15% 20%
Partido político 5% 10% 15% 20% 25% - IU 55,6 68,2 73,8 71,8 70,4 - PP 95,2 92,5 91,0 92,5 93,7 - PSOE 81,0 89,9 81,7 84,8 85,1 - Otros partidos 52,9 40,6 49,2 50,0 52,0 - En blanco 11,1 7,1 3,3 17,6 16,7 - No votaría 76,9 97,0 85,3 90,4 92,9 (N) 190 412 647 872 1053
Total tasa de éxito 77,6 81,1 78,0 80,7 81,8
27
La Tabla 13 también recoge los resultados de la imputación en cada una de las bases
consideradas (IVE). Así, siguiendo en la base de datos con el 10% de datos faltantes, en
la variable intención de voto, de los 508 casos a imputar un 9,3% fueron asignados a la
candidatura de IU, un 42,1% a la del PP, un 29,7% a la del PSOE, el 8,9% a la de otros
partidos políticos, el 2,0% al voto en blanco y el 8,1% al no votaría.
No obstante, y aunque aparentemente los resultados de ambas columnas (IVO e IVE) se
aproximen mucho es necesario corroborar si estas asignaciones obtenidas por el
procedimiento de imputación múltiple se han realizado correctamente. Para ello se ha
calculado la tasa de éxito conseguida en cada una de las bases de datos imputadas.
En la Tabla 14 se presentan las tasas de éxito general y por partido obtenidas en cada
una de las bases de datos en función del porcentaje de información faltante.
Independientemente del porcentaje de datos perdidos en la variable intención de voto
los resultados obtenidos son muy positivos para la totalidad de los casos. Así, el modelo
de imputación múltiple implementado presenta porcentajes de éxito superiores al 77%.
Los mayores porcentajes de éxito se dan para las bases que contienen un 25%, 20% y
10% de datos faltantes donde los aciertos superan el 80%.
Sin embargo, estos elevados índices de éxito no se distribuyen de forma homogénea
para todas las categorías de la variable intención de voto. El proceso de imputación
múltiple no ha funcionado del mismo modo para todas las opciones políticas. El éxito
alcanzado en el caso de los partidos mayoritarios, PP, PSOE e IU parece evidente, al
igual que lo es para la opción No votaría. El modelo también parece funcionar de
manera aceptable para la categoría otros partidos con porcentajes de éxito en torno al
50%. En cambio, resulta un auténtico fracaso para la opción Voto en blanco, donde los
porcentajes de éxito no superan en ninguno de los casos el 20% de aciertos.
En el Gráfico 4 se puede observar la relación que existe entre la tasa de éxito del
análisis y el tamaño de los grupos en los que se hace la imputación. Cuando los datos a
imputar son inferiores a 100 casos, los resultados son muy dispares. Mientras que para
los individuos de voto en blanco la tasa de éxito no supera el 20%, con un nivel de casos
similares los individuos No votaría tienen tasas de éxito entre el 76,9% y el 97,0%.
Las tasas de éxito sin embargo son mucho más estables a partir de 150 casos,
aproximadamente. Estos datos nos indican dos cosas, por una parte que el tamaño de la
muestra no explica por si solo los buenos o malos resultados de una imputación y por
otro que cuando el modelo utilizado en la imputación es potente, (en nuestro caso
procedente de un análisis discriminante previo) el número de casos tiene una influencia
28
menor en las tasas de éxito. Por tanto para tener una tasa de éxito homogénea para todos
los partidos, el modelo de imputación tendría que ser bueno para todos los casos. Esto
implica que ciertas preguntas del cuestionario no son capaces de identificar y aislar del
resto de los grupos a los individuos que contestan que votarían en blanco.
Gráfico 4: Relación entre número de casos y tasa de éxito (para el total de datos faltantes)
6005004003002001000
tamaño de muestra
100,0
80,0
60,0
40,0
20,0
0,0
tasa
de
éxito
NoVotaría
Blanco
Otros
PSOE
PP
IU
NoVotaría
Blanco
Otros
PSOE
PP
IU
NoVotaría
Blanco
Otros
PSOE
PP
IU
NoVotaría
Blanco
Otros
PSOEPP
IUNoVotaría
Blanco
Otros
PSOE
PP
IU
Fuente: Elaboración propia con datos del CIS (encuesta número 2382).
4. Conclusiones Esta investigación ha tratado de comprender mejor la naturaleza de la falta de respuesta
en las investigaciones sociales partiendo de la intención de voto de los estudios
electorales y aplicando un método de imputación múltiple que permitiera amortiguar en
lo posible esta ausencia de información. Para ello se han utilizado las bases de datos
preelectorales realizadas por el CIS para las elecciones generales de 1996 y 2000.
Ambos análisis demuestran la importancia de las preguntas incluidas para poder aplicar
este tipo de métodos. En el primero de los estudios, el correspondiente a 1996, el
número de preguntas no permitía identificar y caracterizar de forma suficiente a todas
Partidos mayoritarios + No votaría
Partidos minoritarios
Voto en blanco
29
las categorías de la variable intención de voto. Así mientras que los potenciales votantes
del PP y del PSOE podían ser bien clasificados mediante el análisis discriminante, en el
85% y 75% de los casos respectivamente, a partir de las variables del cuestionario los
grupos de voto en blanco y no votaría eran muy pobremente caracterizados por esas
mismas variables (en el 2,6% y 30% de los casos respectivamente). Esto se tradujo en
unas tasas de éxito de imputación pobres. El análisis de la segunda de las encuestas
aplicada en 2000 mejoró los resultados ligeramente ya que la función discriminante que
caracterizaba a los entrevistados contenía un mayor número de variables que permitía
ajustarse mejor a las distintas categorías de la variable intención de voto.
Partiendo de esos modelos en ambos casos se realizó una imputación múltiple previa a
la variable intención de voto. Esta imputación tenía por objeto conseguir una matriz de
datos completa para las variables que iban a ser incluidas en el modelo de imputación.
Tras esta primera imputación en ambos casos se procedió a imputar la variable
intención de voto. Los resultados para las elecciones de 2000 fueron ligeramente peores
que los obtenidos para 1996. Estos resultados contrastan con la mejoría que se había
identificado inicialmente en el modelo discriminante al contar con un mayor número de
variables. Esto puede deberse a que si bien, un mayor número de variables explicativas
pueden favorecer la clasificación correcta de los individuos en sus respectivas
categorías, también aumenta el número de casos a imputar en dichas variables y, por
consiguiente, la probabilidad de error. En cualquier caso en ambos estudios la
comparación entre los resultados reales de las elecciones y los resultados de la
imputación múltiple muestra que éstos últimos siguen estando alejados de los resultados
electorales reales.
Ante estos resultados es necesario descartar un posible error en el procedimiento de
imputación múltiple por lo que partiendo de bases “completas”, donde no existían datos
perdidos, se realizaron un total de cinco análisis de imputación múltiple en cada uno de
los estudios con datos faltantes ficticios en la variable intención de voto que oscilaban
entre el 5 y el 25%. Estos análisis han puesto de manifiesto cómo, aun partiendo de
información completa para las variables incluidas en el modelo de imputación, no en
todos los partidos y categorías puede ser imputado el voto con una probabilidad de
acierto similar. El principal problema se encuentra en los casos de individuos que
señalan que su voto será en blanco. En ninguno de los dos estudios se han encontrado
preguntas que puedan caracterizar a estos individuos de forma más precisa. Por esta
razón se cree que una investigación posterior sobre los elementos y características que
30
mejor definen a este colectivo sería muy apropiada. Esto ayudaría a diseñar cuestionario
que incluyan preguntas o items que permitan posteriormente mejorar la identificación de
estos ciudadanos en distintos análisis estadísticos.
La categoría de abstención o no votaría también presenta problemas de imputación en el
preelectoral de 1996 por lo que resulta adecuado un análisis más detallado de las
preguntas, que estando presentes en el estudio de 2000, contribuyeron a mejorar la
información sobre esta categoría. La imputación fue más exitosa en los grupos
ideológicos extremos que a su vez tendían a situarse en los extremos de las escalas de
las preguntas utilizadas. Sin embargo estas escalas no permiten diferencias a los grupos
ideológicos medios.
Teniendo en cuenta la efectividad del procedimiento de imputación múltiple cuando las
variables empleadas en el modelo tienen todos los datos completos, y siendo
conscientes de que esta situación es prácticamente inexistente en las encuestas de
opinión y particularmente en las encuestas electorales, sería interesante, como línea de
investigación futura, profundizar en cuáles son las tasas de datos faltantes en las
distintas variables del cuestionario a partir de las cuáles el procedimiento de imputación
múltiple dejaría de ser efectivo, y en qué variables de las incluidas en el modelo de
imputación la presencia de un elevado número de casos de NS/NC contribuyen al
fracaso del modelo. Es previsible que no todas las variables explicativas incluidas en el
análisis de imputación múltiple tengan la misma importancia y por consiguiente, el
hecho de que unas variables tengan más datos faltantes que otras tampoco tendrán la
misma repercusión en la efectividad del método.
En definitiva, un procedimiento de imputación en dos pasos, un conjunto de variables
insuficientes para caracterizar todas las categorías y la existencia de variables con un
número de casos perdidos muy significativo suponen serias trabas a la obtención de
resultados satisfactorios en los procedimientos de imputación de datos faltantes.
5. Bibliografía COLOMÉ, G (2000). “Sondeos de opinión. ¿El fracaso del oráculo?”. Revista Latinoamericana de Comunicación CHASQUI, nº 71.
DÍAZ DE RADA, V (2002). Problemas originados por la no respuesta en investigación social: definición, control y tratamiento. Navarra: Universidad Pública de Navarra.
DURRANT, G (2005). “Imputation Methods for Handling Item-Nonresponse in the Social Sciences: A Methodological Review”, Research Methods, University of Southampton.
GIFI, A. (1990). Nonlinear Multivariate Analysis. New York: John Wiley & Sons.
31
GIL FLORES, J., GARCÍA JIMÉNEZ, E. y J. RODRÍGUEZ GÓMEZ, G. (2001) Análisis discriminante. Cuadernos de Estadística, 12. Madrid. La Muralla, S.A. GÓMEZ GARCÍA, J. y J. PALAREA ALVADALEJO (2003). “Inferencia basada en imputación múltiple en problemas con información incompleta”. Paper presentado en IX Conferencia Española de Biometría, La Coruña, 28-30 de mayo de 2003.
KING, G; James HONAKER, Anne JOSEPH and Kenneth SCHEVE (2001). "Analyzing Incomplete Political Science Data," American Political Science Review, Vol. 95, No. 1, pp. 49-69.
LAVORI, PW., DAWSON, R. y SHERA, D (1995). “A multiple Imputation Strategy for Clinical Trials with Truncation of Patient Data”, Statistics in Medicine, 14, pp. 1913-1925.
LITTLE R. y Donald B. RUBIN (1989). “The analysis of social science data with missing values”, Sociological Methods and Research, Vol 18, No 2 y 3, pp. 292-326.
LITTLE, R. y Donald B. RUBIN (1987). Statistical Analysis with Missing Data. New York: John Wiley & Sons.
MOLINERO, L.M. (2002). “El método Bayesiano en la investigación médica”, Asociación de la Sociedad Española de Hipertensión. pp. 1-9.
PENG, Y. y Roderick J. LITTLE, Trivellore E. RAGHUNATHAN (2004). “An extended general location model for causal inferences from data subject to noncompliance and missing values”, Biometrics, 60(3), pp. 598-607.
PUERTA GOICOECHEA, A (2002). Imputación basada en árboles de clasificación. Cuadernos técnicos. Instituto Vasco de Estadística (EUSTAT).
RAGHUNATHAN, T (2004). “What do we do with missing data? Some options for analysis of incomplete data”, Annual Review of Public Health, Vol. 25, pp. 99-117.
RAGHUNATHAN T. Y J.P REITER, Donald B. RUBIN (2003). “Multiple imputation for disclosure limitation”, Journal of Official Statistics, Vol.19, pp. 1-16.
RUBIN, D.B. (1976). “Inference and Missing Data”, Biometrika, 63, pp. 581-592.
RUBIN, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons.
RUBIN, D.B. (1996). “Multiple imputation alter 18 + years”, Journal of the American Satatistical Association, 91, pp. 473-489.
SCHAFER, JL (1997). Analysis of Incomplete Multivariate Data. London: Chapman & Hall.
SCHAFER, JL y GRAHAM, J.W. (2002) “Missing data: our view of the state of art”, Psychological Methods, 7, pp.147-177.
TANG, G Y Roderick J. LITTLE, Trivellore. E RAGHUNATHAN.( 2003) “Analysis of multivariate missing data with nonignorable nonresponse”, Biometrika, 90(4), pp. 747.
TIERNEY, L (1994). “Markov chains for exploring posterior distributions”, Annals of Statisstics, 22, pp. 1701-1762.
VARELA, J y Teresa BRAÑA TOBÍO, Alberto GARCÍA CARREIRA, Antonio RIAL BOUBETA y Xosé Gabriel VÁZQUEZ FERNÁNDEZ (1998). “Estimación de la respuesta de los “No sabe/No contesta” en los estudios de intención de voto”, REIS, Vol. 7, No 4.
32
WAGSTAFF, K. (2004). “Clustering with Missing Values: No Imputation Required.” Classification, Clustering, and Data Mining Applications (Proceedings of the Meeting of the International Federation of Classification Societies), pp. 649-658
YUAN, Y. (2000). “Multiple Imputation for Missing Data: Concepts and New Development”, SAS Institute Inc., Proceedings of the Twenty-Fifth Annual SAS Users Group, pp. 267-25.