Download - La no respuesta en los estudios electorales: la imputación ...campus.usal.es/~dpublico/areacp/doctorado07-09/rivasroson.pdf · Si el PP gana las elecciones las cosas conseguidas

1

La no respuesta en los estudios electorales: la imputación múltiple como modelo para mejorar la estimación de voto

María del Mar Martínez ([email protected]) y Cristina Rivas ([email protected])

Universidad de Salamanca

1. Introducción

La estimación de voto es uno de los aspectos fundamentales en los estudios electorales.

Sin embargo en muchas ocasiones el dato estimado y el dato real son claramente

divergentes. Una de las causas de sesgo en la estimación del voto puede estar en la no

respuesta, es decir, en el gran número de entrevistados sobre los que se desconoce su

opinión. Esta falta de respuesta se puede deber a que el individuo no tenga decidido su

voto en el momento de realización de la encuesta (los denominados NS) o bien que el

individuo no quiera contestar a la pregunta (NC). Así en los últimos estudios

preelectorales realizados por el Centro de Investigaciones Sociológicas (CIS) con

ocasión de la celebración de las elecciones generales al Congreso de los Diputados, solo

el porcentaje de los individuos incluidos en el NC asciende al 7,2% en el año 1996, al

10,9% en el 2000 y al 7,4% en el año 2004. Si se tiene en cuenta el NS estos porcentajes

ascienden al 24,1%, 27,2% y 31,0%, lo que representa un total de 1204, 6539 y 7474

individuos respectivamente.

A pesar de la falta de información de un gran número de individuos la práctica más

común que llevan a cabo los investigadores es obviar los datos faltantes y trabajar

únicamente con la información disponible1. El principal inconveniente2 es que se reduce

el número de individuos de la muestra corriendo el riesgo de que las estimaciones

realizadas sean sesgadas si la distribución de la no respuesta no es completamente

aleatoria3, algo que ocurre con frecuencia. Frente a esta opción, es posible tratar de

NOTA DE LAS AUTORAS. La realización de este trabajo ha sido posible gracias a los fondos recibidos del Centro de Investigaciones Sociológicas a través de las Ayudas a la Investigación 2006. 1 Método listwise o pairwise deletion. Según Schafer (1997) cuando el volumen de registros incompletos es un porcentaje reducido, 5% o menos, la eliminación de estos registros es una solución razonable a los problemas de datos faltantes. En este mismo sentido véase Little y Rubin (1987). 2 Para una descripción más detallada de los problemas de la eliminación de casos véase Little y Rubin, (1987: capítulo 3). 3 MCAR: missing completely at random.

2

completar la información faltante a partir de métodos de imputación de datos ya sean

técnicas univariantes, multivariantes o múltiples4.

La imputación permite estimar los datos faltantes mediante un modelo estadístico. Sin

embargo, es un método poco utilizado en el mundo de las ciencias sociales aun cuando

la estimación de datos faltantes se presenta como un reto fundamental en las

investigaciones empíricas. El objeto de este artículo, de carácter metodológico, es el de

plantear ese problema y su resolución a través de la imputación múltiple de los datos

incompletos de la variable intención de voto para las elecciones generales españolas. El

resultado de esta investigación pone de manifiesto que para llevar a cabo un

procedimiento de imputación con resultados satisfactorios es necesario contar con un

cuestionario bien diseñado. Los análisis realizados nos muestran qué problemas generan

ciertas preguntas y cómo estas pueden resultar insuficientes o inapropiadas para realizar

imputaciones.

El trabajo se divide en dos apartados cada uno de los cuales utiliza los datos de la

encuesta preelectoral del CIS para las elecciones generales de los años 1996 y 20005. En

cada uno de estas secciones se ha realizado un proceso de imputación múltiple. Sin

embargo, dados los pobres resultados obtenidos se ha tratado de conocer la fiabilidad

del método de imputación múltiple utilizado. Para comprobar la validez del instrumento

estadístico de imputación múltiple es necesario conocer cada uno de los datos que

hemos imputado y por ello, a partir de una base completa se generan datos faltantes

ficticios en la pregunta de intención de voto. Tras la aplicación de la técnica de

imputación múltiple se ha creado una tasa de éxito que permite conocer el porcentaje de

imputaciones acertadas, para la totalidad de los casos, y para cada una de las categorías

de la variable intención de voto.

En definitiva, el objetivo de este trabajo es la implementación de un método

relativamente nuevo, poco utilizado en el mundo de las ciencias sociales, mediante el

uso de datos de encuestas preelectorales españolas con el objetivo de probar la

efectividad de la aplicación del método de imputación. Los resultados de la imputación

no se acercan a los resultados reales de las elecciones generales. Sin embargo, el

procedimiento de imputación sobre datos faltantes ficticios con las variables

4 Para una mayor información sobre imputación univariante véase Puerta (2002), sobre imputación multivariante véase Schafer (1997) y sobre imputación múltiple ver Rubin (1987, 1996). 5 Se ha desestimado utilizar el procedimiento para la encuesta realizada con ocasión de las elecciones generales de 2004, dado que no recogen el impacto de los últimos hechos sucedidos en los días anteriores a las elecciones.

3

explicativas seleccionadas ofrece tasas de éxito buenas, por encima del 70% en el peor

de los casos, lo que lleva a pensar que el modelo funciona, siempre y cuando las

variables empleadas en el análisis sean las adecuadas.

2. Caracterización de los NS/NC en las elecciones generales de 1996

La caracterización de los sujetos que no saben o no contestan a la variable intención de

voto en las elecciones generales de 1996 se convierte en un requisito indispensable

antes de proceder a su imputación. El hecho de que los NS y NC constituyan o no un

grupo específico con unas características propias y un comportamiento homogéneo al

interior del grupo como si del electorado de otra opción política más se tratara, puede

ayudar a mejorar el proceso de imputación. Además, si los NS y NC no fueran

asimilables a otros grupos el procedimiento de imputación no sería necesario. Un

estudio previo de estos casos nos lleva a la conclusión de que estos dos grupos tienen un

comportamiento muy similar, por esta razón se ha decidido analizarlos de forma

conjunta como si del mismo grupo se tratara.

Saber quiénes son estos individuos y qué características tienen se convierte, por tanto,

en el primer objetivo de este trabajo. Para identificar el mejor conjunto de variables que

caracterizan a los distintos grupos de electores, y por ende, a los NS y NC, se ha

aplicado un análisis discriminante que permite no sólo conocer qué variables son las que

más contribuyen a diferenciar a los distintos grupos de votantes si no también predecir

la pertenencia a los mismos6 (Gil Flores, García Jiménez y Rodríguez Gómez, 2001:12).

Es esta última tarea, la predicción, la que nos interesa y justifica la utilización del

análisis discriminante para la caracterización de los NS y NC.

El análisis discriminante se ha realizado con la variable dependiente intención de voto y

la inclusión de once variables independientes de la encuesta que aparecen recogidas en

la Tabla 1. De todas ellas diez son las implicadas en la función discriminante y alcanzan

6 En este caso, los grupos definidos a priori son los que vienen determinados por la variable intención de voto en las elecciones generales de 1996. Si bien, con fines de simplificación y para evitar sesgos derivados del tamaño de la muestra se han mantenido siete opciones políticas, PSOE, PP, IU, otros partidos, en blanco, no votaría y NS/NC. El hecho de colocar bajo el mismo paraguas, “otros partidos”, a un gran número de fuerzas políticas implica que los resultados de los análisis posteriores sean pobres para esta categoría dada la heterogeneidad interna de la misma, pero el reducido tamaño de la muestra para la gran mayoría de fuerzas políticas que componen esta categoría ha llevado a tomar esta decisión.

4

a clasificar correctamente al 64,1% de los casos en los grupos preexistentes de electores

de la variable intención de voto7.

La primera conclusión relevante que se extrae del análisis es que no es posible

identificar de forma homogénea el comportamiento de los NS/NC. Es decir, este grupo

no se comporta como un grupo compacto8. Las razones pueden ser varias, o bien que las

variables implicadas en la función discriminante para estimar cuál es la intención de

voto de estos individuos, no sean las adecuadas para clasificarlos, o bien que, los

NS/NC no constituyen un grupo homogéneo sino que, por el contrario, su

comportamiento es similar al de los individuos con intención de voto declarada. Los

datos sugieren que la segunda afirmación es la correcta.

Tabla 1: Variables en el análisis

- Situación de España en los últimos tres años

- Autoubicación ideológica de PP y PSOE

- Valoración de líderes políticos: J. Anguita, J.M. Aznar y F. González

- Grado de acuerdo con las siguientes afirmaciones:

. El PP no tiene alternativas reales para mejorar la situación

. El PP es un partido responsable que está mejorando para gobernar

. Si el PP gana las elecciones las cosas conseguidas estarían en peligro

. El PP no es la derecha de siempre

- Intención de voto en las próximas elecciones generales de 1996

Fuente: Elaboración propia con cuestionario del CIS (encuesta número 2207).

Una vez identificadas las variables predictoras y con mayor poder discriminante, y por

tanto las más adecuadas para la imputación de la variable intención de voto, se han

realizado dos nuevos análisis que permiten conocer cuáles son las características del

electorado español en 1996, y más concretamente las de los NS/NC. En primer lugar se

7 El método seleccionado ha sido la inclusión paso a paso para controlar la entrada y exclusión de las variables. El criterio de selección elegido ha sido el basado en la minimización de la lambda de Wilks de modo que en cada paso del análisis, la variable seleccionada será aquella que produce el valor de lambda más pequeño. (Gil Flores, García Jiménez y Rodríguez Gómez, 2001: 44-48). 8 La excepción la constituye un grupo reducido de 86 individuos (25,6%) que si presentan unas características propias como NS/NC y son correctamente clasificados a partir de los valores que toman las variables utilizadas sobre los individuos en ese grupo. El 74,4% restante puede asemejarse al comportamiento de los individuos de otros partidos. Es precisamente, este 74% restante el que nos interesa imputar, dado que los otros 86 casos constituyen un grupo compacto al que no puede asignarse ninguna categoría de la intención de voto. Es por esta razón que se ha optado por no tenerlos en cuenta en los análisis posteriores.

5

aplica un análisis de homogeneidad, HOMALS9, con las once variables empleadas en el

discriminante. Su objetivo principal es identificar un espacio de pocas dimensiones que

permita resumir y representar la estructura de asociaciones entre dos o más variables

nominales, así como las similitudes entre los sujetos pertenecientes a estas categorías.

Así, los individuos que responden la misma categoría para una variable dada aparecerán

próximos en el gráfico multivariante, mientras que los individuos que eligen categorías

diferentes aparecerán distantes en el mismo. Por tanto, la utilización de esta técnica nos

ofrece la posibilidad de detectar similitudes y diferencias entre el electorado y la

estructura de relaciones entre las variables.

Dado que nuestro propósito es la caracterización de los NS/NC, no entraremos a

analizar en detalle los resultados del análisis de homogeneidad, simplemente

utilizaremos las puntuaciones factoriales de los sujetos obtenidas en el HOMALS como

variables de clasificación en el análisis de conglomerados k-medias10. En este trabajo se

utiliza el análisis de conglomerados como una técnica exploratoria con el fin de conocer

el número ideal de grupos de votantes existentes y su composición a partir de la

similaridad entre los sujetos. De manera que sea posible obtener una tipología de los

NS/NC y su distribución en cada uno de los grupos obtenidos. El inconveniente es que

exige definir a priori el número de clusters11 (Díaz de Rada, 2002: 298).

Los resultados del análisis de conglomerados k-medias para cuatro grupos incide,

nuevamente, en la heterogénea composición del colectivo NS/NC, erigiéndose como un

grupo con características similares a las de los votantes de los principales partidos

políticos (IU, PP y PSOE).

Los datos de la Tabla 2 ponen de manifiesto que la distribución de los NS/NC en los

cuatro grupos es bastante homogénea, aunque la mayor parte de ellos tienden a

concentrarse en los grupos 1 y 2. Así todo, la clasificación de los cuatro grupos queda

de la siguiente forma: el grupo 1 y 3 está formado, fundamentalmente, por potenciales

votantes del PSOE, IU y otros partidos, mientras que los grupos 2 y 4 lo constituyen,

9 HOMALS pertenece al grupo de técnicas exploratorias de análisis multivariante no lineal que trabaja con variables de carácter nominal. Véase Gifi, 1990. 10 El objetivo del análisis de conglomerados k-medias es asignar casos a un número fijo de grupos (clusters o conglomerados) según los valores que toman las variables seleccionadas. Se ha utilizado el método k-medias sin especificar los centros de los conglomerados. 11 Al utilizar este análisis como una técnica exploratoria se consideró conveniente repetir el análisis con distintos números de cluster (tres, cuatro, cinco y seis grupos) y comprobar los resultados. A la vista de los resultados se decidió que la opción de cuatro clusters era la más satisfactoria. Una de las razones de mayor peso por la que se tomo dicha decisión reside en la homogeneidad numérica de los conglomerados que se forman.

6

principalmente, posibles votantes del PP. Las principales diferencias entre estos grupos

radican en la identificación partidista. Los grupos 3 y 4, los que contienen un menor

número de casos NS/NC, muestran una afiliación partidista más clara. Esto puede

significar que estos dos grupos están formados por individuos de ideología estable que

tienen menos problemas a la hora de decidir su voto, o bien que lo tienen decidido de

antemano. Los otros dos grupos restantes (1 y 2) además de poder ser un electorado más

volátil, también pueden ser los que mayor reparo tengan a la hora de decantarse

públicamente por un partido u opción política.

Tal y como se observa en el Gráfico 1, los grupos 3 y 4 son los más alejados entre sí.

No en vano resultan ser los grupos con una afiliación partidista más fuerte, uno de

ideología política de izquierda (grupo 3) y otro de derecha (grupo 4). Mientras que los

grupos 1 y 2, aún teniendo una adscripción ideológica distinta, izquierda y derecha

respectivamente, se encuentran más próximos entre sí de lo que lo están los grupos 3 y

4, poniéndose de manifiesto la mayor volatilidad de este electorado.

Tabla 2: Distribución de los individuos según grupo de pertenencia. Análisis de conglomerados

Grupo 1 Grupo 2 Grupo 3 Grupo 4 - IU 14,2 6,9 10,4 1,0 - PP 1,4 47,4 0,5 82,6 - PSOE 37,8 3,1 52,4 1,0 - Otros partidos 10,7 5,5 13,2 1,6 - En blanco 2,5 2,7 1,9 0,3 - No votaría 8,0 6,4 7,8 1,8 - NS/NC 25,4 28,1 13,8 11,7 (N) 1828 1573 882 608

Fuente: Elaboración propia con datos del CIS (encuesta número 2207).

Los grupos se han nombrado en función de la ideología de los entrevistados y de la

dispersión en las respuestas dadas por los sujetos al interior del grupo. De modo que los

grupos con una mayor identificación partidista se presentan con un símbolo (+) mientras

que los que tienen un menor identificación partidista se les asigna el signo (-). Teniendo

en cuenta esto, los grupos quedarían nombrados de la siguiente manera: grupo 1

“Izquierda (-)”, grupo 2 “Derecha (-)”, grupo 3 “Izquierda (+)” y grupo 4 “Derecha

(+)”.

En cualquier caso, el Gráfico 1 no nos permite identificar el posicionamiento de los

distintos grupos en las variables discriminantes. Por ello, para poder ampliar y

7

profundizar en el conocimiento de los NS/NC, se presentan las principales

características de estos grupos para estos casos (ver Tabla 3).

Gráfico 1: Clusters obtenidos a partir del Análisis de Homogeneidad en el primer plano factorial

Fuente: Elaboración propia con datos del CIS (encuesta número 2207). Esta visión más detallada de los datos nos va a permitir identificar qué variables son las

responsables de que los grupos se separen o se unan.

En general, los NS/NC de izquierda, en la encuesta de 1996, son más optimistas que los

de derecha en lo que se refiere a la situación actual de España respecto a la de hace tres

años. Así, mientras que el grupo Izquierda (-) y buena parte de los de Izquierda (+)

opinan que la situación de España sigue siendo igual o incluso ha mejorado algo en

estos últimos tres años, la opinión generalizada entre los grupos de derecha es que la

situación ha empeorado. Dentro de la izquierda, los NS/NC que forman parte del grupo

Izquierda (+) son los más críticos con el gobierno y un buen número de ellos cree, al

igual que la derecha, que la situación del país en estos últimos tres años ha empeorado.

La ubicación ideológica de los dos principales partidos del país, PP y PSOE, es otro de

los aspectos fundamentales de división entre los distintos grupos de NS/NC,

principalmente entre los de izquierda y de derecha. Todos los grupos ubican

4

2

3

1

8

ideológicamente al PP a la derecha de la escala ideológica y al PSOE a la izquierda de

la misma, si bien las diferencias entre los grupos se acentúan sobre todo cuando se trata

de ubicar al PP. Los dos grupos de derecha tienden a ubicar al partido en una posición

de la escala más centrada de lo que lo hacen los de izquierda.

La valoración de los líderes políticos representa un aspecto más de la caracterización de

los NS/NC a partir de los grupos obtenidos. Los grupos Izquierda (+) y Derecha (+)

suspenden al líder de IU, Julio Anguita, siendo precisamente el grupo más extremo de la

izquierda el más crítico con él. Mientras que los otros dos grupos de ideología más

centrada, Izquierda (-) y Derecha (-), aprueban a Julio Anguita sin existir a penas

diferencias entre las valoraciones de uno y otro grupo. Pero esta sintonía de los grupos

más centrados se rompe a la hora de valorar a Felipe González y a José María Aznar.

Los grupos de izquierda valoran negativamente la actuación del líder del PP, siendo

mucho más críticos con él los del grupo Izquierda (+). En cambio, existe división de

opiniones entre ambos grupos a la hora de valorar al líder socialista. Si el grupo

Izquierda (-) se muestra benevolente con Felipe González y le concede un aprobado en

su valoración no sucede lo mismo con el de Izquierda (+), que no tiene ninguna

consideración en su valoración con el líder del PSOE. Por su parte existe un mayor

acuerdo entre los grupos de derecha, ambos suspenden a Felipe González y aprueban

con nota a José María Aznar, los líderes políticos obtienen los valores más bajos y más

altos, respectivamente, del grupo Derecha (+).

En lo que respecta a la opinión de los grupos respecto a una serie de frases que tratan de

caracterizar al PP las diferencias según la ideología de los entrevistados son evidentes.

En general, los grupos de izquierda están de acuerdo con que si el PP ganara las

elecciones, muchas de las cosas conseguidas en los últimos años podrían estar en

peligro. Además consideran que el PP sólo sabe criticar y no tiene alternativas reales

para mejorar la situación del país. Esta opinión es mucho más generalizada entre los

integrantes del grupo Izquierda (+). En cambio, no están de acuerdo con la afirmación

de que el PP demuestra ser un partido responsable, cada vez mejor preparado para

gobernar el país y con que ya no es la derecha de siempre. Si bien, este último aspecto

presenta una mayor diversidad de opiniones al interior de los dos grupos, existiendo un

importante número de individuos que opina que el PP ya no es la derecha de siempre.

Por su parte, la opinión generalizada de los dos grupos de derecha es estar de acuerdo

con que el PP es un partido preparado para gobernar y que ya no es la derecha que era,

mientras que están en desacuerdo con la etiqueta puesta al PP como partido que sólo

9

sabe criticar y no tiene alternativas reales para el cambio y que si ganara las elecciones

pondría en peligro los avances conseguidos en los últimos años.

Tabla 3: Principales características de los clusters


En definitiva y a modo de conclusión, se puede decir que los grupos Izquierda (+) y

Derecha (+) se caracterizan por adoptar posiciones extremas en sus respuestas (siempre

en los polos opuestos) y por ser mucho más críticos en sus valoraciones que el resto de

individuos de los otros grupos. Se trata por tanto de grupos con las ideas políticas más

claras, con una adscripción ideológica definida y sin problemas a la hora de decidir su

voto, que con gran probabilidad tienen ya decidido de antemano. Y por tanto, es fácil

que estos dos grupos estén formados, principalmente, por individuos que no quieren

contestar a la pregunta intención de voto. Por su parte, los grupos Izquierda (-) y

Derecha (-) los integran un electorado con opiniones políticas menos formadas, más

10

volátiles y con una adscripción ideológica centrada, lo que implica que en el momento

de realización de la encuesta puedan aún no tener decidido su voto.

La información presentada hasta ahora nos ofrece una visión general de las

características que definen a los distintos grupos de NS/NC y ayuda a formular el

modelo de imputación múltiple que se va a aplicar. En el siguiente apartado se presenta

el procedimiento y los resultados de la imputación múltiple. El proceso se desarrolla en

dos pasos diferentes, el primero con el objetivo de completar los datos faltantes de las

variables independientes, y el segundo para imputar los valores de los individuos

NS/NC de la variable intención de voto.

2.1 Procedimiento de Imputación Múltiple (MI) El proceso de imputación múltiple consiste en la imputación de los datos faltantes a

través de la estimación de un modelo aleatorio realizado m veces y obteniéndose m

matrices de datos completas con m valores diferentes para cada valor imputado (Rubin,

1987). En cada una de las matrices resultantes se aplica el análisis estadístico que mejor

se ajuste al objeto de estudio y se combinan los resultados obtenidos de cada una de

ellas mediante una serie de fórmulas matemáticas desarrolladas por Little y Rubin con

el fin de obtener una estimación promedio. De esta forma a todos los individuos se les

asignará una opción política en la variable intención de voto.

El procedimiento de imputación múltiple, al contrario que la simple, crea múltiples

bases de datos imputadas para datos multivariantes incompletos y utiliza métodos que

permiten evaluar la variabilidad que la imputación incorpora en la estimación. El

método elegido dependerá de la distribución que tengan los datos faltantes y el tipo de

variable a imputar (Rubin, 1987; Lavori, Dawson, and Shera, 1995; Schafer, 1997).

El proceso de imputación múltiple consta de tres fases claramente diferenciadas: En

primer lugar, cada valor perdido se reemplaza por un conjunto de m>1 valores

generados por simulación, de manera que se crean m bases de datos “completas”. En

segundo lugar, se analizan las m bases de datos “completas” utilizando análisis

estadísticos estándar y, finalmente, se combinan los resultados de las m bases de datos

“completas” mediante reglas simples para producir resultados inferenciales, es decir,

para producir una estimación global.

11

Existen tres asunciones estadísticas importantes para la imputación múltiple:

1. Asume que los datos siguen una distribución normal multivariante y contiene

valores perdidos que pueden aparecer en alguna de las variables.

2. Asume también que los datos tienen una distribución normal multivariante

cuando se utiliza tanto el método de regresión12 como el método Markov Chain

Monte Carlo13 (MCMC).

3. Sea Y una matriz de datos n x p con valores no observados. La matriz Y puede

dividirse en Yobs e Yper distinguiendo de este modo variables observadas de

variables con datos perdidos. Asume que los datos perdidos son datos perdidos

al azar, que recibe habitualmente la denominación de MAR (missing at random),

es decir que el hecho de que una observación sea perdida puede depender de los

valores observados pero no de los valores perdidos (Rubin 1976 y 1987:53). Las

imputaciones se crean desde un enfoque bayesiano a partir de la distribución

predictiva de Yper dado Yobs14

.

Una vez visto en qué consiste el método de imputación múltiple y su aplicación a

nuestros datos nos centraremos en los resultados del proceso de imputación múltiple

llevado a cabo15. Para la imputación de los valores NS/NC en la variable intención de

voto ha sido necesario realizar dos procesos diferentes de imputación. Uno para las

variables explicativas (cuantitativas y con una distribución de los datos faltantes

arbitraria) que intervendrán en el proceso de imputación de la variable intención de voto

y otro para la imputación de la variable nominal objeto de estudio, la intención de voto.

El procedimiento de imputación múltiple tiene sus limitaciones y no deja imputar de

manera conjunta variables mixtas cuando la distribución de los datos faltantes es

arbitraria. De modo que la estrategia seguida en este caso fue la utilización del método

12 El método de regresión se utiliza cuando los datos perdidos tienen una distribución monótona es decir, cuando para un individuo i, a partir de una variable Yj todos los valores son faltantes, y las variables son continuas. 13 Este método se aplica cuando los datos perdidos tienen una distribución arbitraria y las variables son cuantitativas. 14 Los métodos bayesianos constituyen una alternativa a la estadística tradicional centrada en el contraste de hipótesis. La principal diferencia entre ambos enfoques se halla en el cálculo de la probabilidad. En la estadística clásica se calcula la probabilidad de observar un resultado suponiendo que la realidad sea de una manera determinada (hipótesis nula), sin embargo lo que realmente nos interesa conocer es la probabilidad de que, a partir de los datos observados, las cosas sean de una manera determinada. Y esto es lo que trata de hacer el enfoque bayesiano, modificar la probabilidad conocida de que ocurra un suceso cuando tenemos nueva información al respecto (Molinero, 2002). 15 El procedimiento de imputación múltiple aquí aplicado es implementado por SAS, si bien se trata de un procedimiento experimental.

12

MCMC para la imputación de los NS/NC de las once variables independientes

consideradas a partir del análisis discriminante y el método de la función discriminante

para la imputación de los NS/NC de la variable nominal intención de voto.

Los resultados de la Tabla 4 ponen de manifiesto que los valores imputados a partir del

procedimiento de imputación múltiple no mejoran los datos directos de la encuesta, pese

a que para algunas opciones electorales las diferencias con respecto a los resultados

reales de las elecciones de 1996 son menores que antes de imputar. La imputación solo

mejora los resultados de la encuesta para los casos del PSOE, PP y No votaría y, en el

caso del PP sólo ligeramente. Una característica que se puede extraer de la imputación

es que la recuperación de información tiende a asignar más votos a los partidos que los

que realmente recibieron.

Tabla 4: Porcentaje de la variable intención de voto (datos directos de encuesta, intención de voto imputada vs. resultados reales elecciones)

Fuente: Elaboración propia con resultados electorales del Ministerio del Interior y datos del CIS (encuesta número 2207). Esto indica que es necesario reforzar la información sobre abstención de forma teórica y

metodológica de manera que se pueda incluir en las encuestas instrumentos más

refinados de detección de la abstención.

2.2 Validez del procedimiento de Imputación Múltiple

El carácter insatisfactorio de los resultados obtenidos mediante la realización de dos

imputaciones consecutivas nos lleva a considerar dos fuentes de error. Una primera

causada por el propio procedimiento de imputación utilizado y una segunda causa

derivada del diseño del propio cuestionario o de la selección de las variables incluidas

en el proceso de imputación.

% Intención de voto % Resultados reales % Intención de voto(Encuesta CIS) elecciones 1996* imputada

- IU 9,33 8,15 12,82 - PP 25,56 29,98 33,41 - PSOE 24,18 29,09 30,69 - Otros partidos 8,12 9,32 10,78 - En blanco 2,14 0,75 3,08 - No votaría 6,56 22,71 9,23 - N.S./N.C 24,11Total 100 100 100

* % calculado sobre voto válido + abstención

Partido Político

13

Para poder comprobar que la técnica utilizada para la estimación de variables nominales

funciona de forma adecuada se ha construido una base de datos donde aparecen

únicamente aquellos individuos entrevistados que han respondido a todas y cada una de

las preguntas utilizadas en el análisis discriminante y a la pregunta sobre intención de

voto al Parlamento español. El único modo de conocer si un dato ha sido imputado

correctamente es conociendo el valor real del dato, y esto sólo es posible si se trabaja

con la base de datos completa.

Sobre esta base de datos “completa” se ha provocado de forma aleatoria la eliminación

del dato real de la variable intención de voto convirtiéndolo en un dato faltante.

Siguiendo este método se han creado cinco bases de datos diferentes donde se ha

eliminado un 5%, 10%, 15%, 20% y 25% respectivamente de los datos de dicha

variable.

La Tabla 5 contiene cuál ha sido la distribución de los NS/NC ficticios en la variable

que vamos a imputar para cada uno de los partidos cuando se eliminó aleatoriamente un

determinado porcentaje de los datos de la variable intención de voto. Así, las distintas

eliminaciones han generado un total de entre 140 y 676 casos perdidos en la variable de

interés. Si, por ejemplo, tenemos en cuenta los resultados de la base de datos con un

15% de información perdida en la variable intención de voto, se observa que de los 429

casos eliminados en ella, un 35,4% corresponderían a votantes del PSOE. En esta tabla,

también se presentan los porcentajes de casos imputados en cada una de las bases de

datos consideradas. Cuando se trabaja con un 5% de datos faltantes, en la variable

intención de voto, de los 140 casos a imputar un 15,7% fueron asignados a la

candidatura de IU, un 38,6% a la del PP, un 31,4% a la del PSOE, el 10% a la de otros

partidos, un 1,4% al voto en blanco y un 2,9% a la abstención. Sin embargo, aunque

estos datos agregados por partido se aproximan mucho a la distribución de los datos

faltantes original (ver primera columna) es necesario comprobar si estas asignaciones se

han producido adecuadamente. Para ello se ha calculado la tasa de éxito para cada una

de las bases de datos.

14

Tabla 5: Distribución de los datos faltantes en cada una de las bases de datos

Fuente: Elaboración propia con datos del CIS (encuesta número 2207). En la Tabla 6 aparece la tasa de éxito general para cada una de las bases de datos

empleadas. Independientemente del porcentaje de datos faltantes en la variable

intención de voto, el modelo de imputación múltiple presenta porcentajes de éxito

similares, entorno al 70%. La excepción se produce para la base que contiene un 10%

de datos faltantes donde la tasa de éxito asciende al 74%. En cualquier caso hay que

destacar cómo esta técnica de análisis y el modelo utilizado (método de la función

discriminante) mantiene unos resultados homogéneos independientemente del

porcentaje de datos faltantes para un rango comprendido entre el 5% y el 25%. Este arco

de pérdida de información es similar al que generalmente sufren las encuestas, que para

el caso de la intención de voto en este estudio esta situado en un 24,1%.

Tabla 6: Porcentaje de éxito de la imputación según porcentaje de datos faltantes y opción política

Fuente: Elaboración propia con datos del CIS (encuesta número 2207). Este porcentaje de éxito sin embargo no se distribuye de igual forma para todas las

opciones políticas o electorales. Parece evidente el éxito alcanzado en el caso de los

partidos mayoritarios, PP y PSOE, y aceptable para el caso de IU pero el modelo de

I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E - IU 15,0 15,7 14,1 15,8 14,7 14,2 15,7 17,5 16,7 16,1 - PP 32,1 38,6 40,5 39,9 37,3 37,8 37,8 37,3 36,7 37,9 - PSOE 32,9 31,4 32,6 29,2 35,4 36,6 31,5 31,6 33,0 33,7 - Otros partidos 11,4 10,0 7,9 11,3 7,7 8,2 9,6 8,0 9,3 8,4 - En blanco 4,3 1,4 2,4 1,0 2,1 0,7 1,4 2,2 0,9 1,2 - No votaría 4,3 2,9 2,4 2,7 2,8 2,6 4,0 3,4 3,4 2,7

(N)* I.V.O. (Intención de voto observada)* I.V.E. (Intención de voto estimada)

Partido político 25%

140 291 429 553 676

5% 10% 15% 20%

Partido político 5% 10% 15% 20% 25% - IU 59,1 56,5 57,4 58,8 67,0 - PP 81,5 94,0 88,9 90,3 88,3 - PSOE 81,8 82,4 74,5 74,9 75,4 - Otros partidos 35,7 24,2 20,0 20,5 15,8 - En blanco 0,0 0,0 0,0 8,3 0,0 - No votaría 0,0 12,5 9,1 10,5 0,0 (N) 98 214 304 386 480

Total tasa de éxito 70,0 73,5 70,9 69,8 71,0

15

imputación múltiple no funciona cuando se trata de las categorías otros partidos, voto en

blanco o no votaría. En principio, esto era previsible teniendo en cuenta que las

variables empleadas en el modelo, obtenidas a partir del análisis discriminante, no eran

válidas para clasificar correctamente a estos tres grupos, y muy especialmente, al grupo

voto en blanco.

A la vista de estos resultados se puede concluir que el éxito de funcionamiento del

método de imputación múltiple difiere significativamente según la opción política de la

que se trate. Ahora bien, si realmente existe este efecto partido del que parece depender

el éxito o fracaso del modelo de imputación cabría pensar que el principal problema al

que nos enfrentamos está en el diseño del cuestionario. Y es que la conclusión que se

puede extraer de todo ello es que para los votantes declarados de otros partidos, voto en

blanco y abstención, las preguntas formuladas en el cuestionario no recogen de manera

adecuada su opinión o su carácter diferenciado. En cambio, las preguntas funcionan

muy bien cuando los entrevistados se sienten identificados con las principales fuerzas

políticas del país (PP, PSOE e IU).

No obstante, y antes de dar por válida esta conclusión, habría que analizar si existe

alguna relación entre el número de casos en cada opción de respuesta y la tasa de éxito

del método de imputación. A priori, y viendo los datos de la Tabla 7, parece evidente

que los mayores niveles de fracaso se han dado en aquellas opciones políticas con un

menor número de casos. Así todo, para ver si existe relación entre tasa de éxito del

método de imputación y tamaño de la muestra se ha realizado un gráfico de dispersión

con el número de casos y la tasa de éxito en cada una de las muestras.

Tabla 7: Distribución de casos en la variable intención de voto

Partido político Nº de casos (N) - IU 467 - PP 1052 - PSOE 923 - Otros partidos 257 - En blanco 51 - No votaría 108


En el Gráfico 2 se observa la relación que existe entre la tasa de éxito conseguida por el

procedimiento de imputación múltiple y el número de individuos que fueron imputados.

16

El gráfico revela como a partir de 100 miembros imputados para un mismo partido o

categoría de la variable intención de voto la tasa de éxito comienza a estabilizarse en

cifras que oscilan entre el 70% y el 80%. Igualmente la tasa de acierto del modelo es

muy limitada cuando el número de casos está por debajo de 50.

Gráfico 2: Relación entre número de casos y tasa de éxito (para el total de datos faltantes)

300250200150100500

Número de casos imputados

100,0

80,0

60,0

40,0

20,0

0,0

Tasa

de

éxito

bco

ot

psoe pp

iu

nvo

bco

ot

psoe

pp

iu

nvo

bco

ot

psoe

pp

iu

nvobco

ot

psoe

pp

iu

nvo

bco

ot

psoe

pp

iu


En cualquier caso, una mayor información sobre la importancia del número de datos a

partir de los cuales se realiza la imputación ayudaría a establecer si las bajas tasas de

éxito se deben a que las variables no discriminan a estos grupos o si además existe un

efecto provocado por un bajo número de casos.

Un modo de comprobar si efectivamente el número de casos en cada opción de

respuesta es responsable de la tasa de éxito alcanzada por el método de imputación

múltiple es incrementar el número de casos de las categorías otros partidos, voto en

blanco y no votaría hasta alcanzar un mínimo de 300 casos en cada una de ellas. Para

ello se ha duplicado y triplicado el número de casos de estas categorías y se ha

procedido, con esta nueva base de datos a eliminar nuevamente un 5%, 10%, 15%, 20%

y 25% de los datos en dicha variable y aplicar el método de imputación múltiple con las

Partidos mayoritarios

Partidos minoritarios

Abstencionistas/Voto en blanco

17

mismas variables. El número de casos añadidos a la categoría otros partidos es de 257,

255 para voto en blanco y 324 para el no votaría.

En términos generales, y a la vista de los resultados recogidos en la Tabla 8, lo que

parece claro es que el incremento del número de casos de las categorías menos

numerosas no ha contribuido a mejorar el método de imputación múltiple, si no que por

el contrario, en datos globales, la tasa de éxito del modelo de imputación se ve reducida

en torno al 20% con respecto a los datos iniciales.

Tabla 8: Porcentaje de éxito de la imputación según % de datos faltantes en la variable intención de voto

Fuente: Elaboración propia con datos del CIS (encuesta número 2207). El porcentaje de éxito del método de imputación según opción política tampoco mejora

sustancialmente al aumentar el número de casos de las opciones políticas con menor

tasa de éxito en el proceso anterior. Si bien, las tasas de éxito para estos tres casos (otros

partidos, voto en blanco y no votaría) mejoran respecto a los datos anteriores, en ningún

caso superan el 35% de aciertos en su clasificación. Por su parte, el método de

imputación múltiple sigue funcionando de manera aceptable, con una tasa de éxito

elevada, para los casos de IU, PP y PSOE si bien, los porcentajes se reducen respecto al

proceso anterior, especialmente en el caso de los partidos de izquierda.

Por tanto, el incremento artificial del número de casos en los que la tasa de éxito había

sido muy baja no ha dado lugar a mejores resultados. Esto indica que, al contrario de lo

que se podría esperar, no existe un claro efecto debido al bajo número de casos, sino que

la causa de menores tasas de éxito está relacionada con las variables discriminantes

utilizadas en el procedimiento que no resultan adecuadas para identificar a estos grupos.

La conclusión fundamental que se puede derivar de esta circunstancia es que las



18

variables que deben incluirse en el análisis de imputación deben ser variables

explicativas de todas las categorías de la variable intención de voto.

3. Estudio 2382, la encuesta preelectoral de las elecciones de 2000

Los resultados presentados para las elecciones de 1996 constituyen un punto de partida

y referencia para la realización de estudios dirigidos al análisis de la intención de voto y

la imputación múltiple. Sin embargo, estos resultados pueden estar influenciados por un

contexto político, económico y social específico. Para comprobar la consistencia de los

resultados se ha aplicado el mismo proceso a la encuesta preelectoral que el CIS realizó

con ocasión de las elecciones generales de 2000.

En este caso los pasos dados para el análisis son idénticos a los realizados para el

estudio anterior. La primera decisión ha sido valorar la conveniencia de unir en un solo

grupo los NS y NC mediante un análisis discriminante que permite observar si forman o

no un grupo homogéneo. Los resultados obtenidos permiten concluir que los NS y NC

no son grupos diferentes entre sí y por tanto pueden ser analizados como un solo

grupo16.

Una vez que se ha comprobado esto la segunda pregunta va más allá. Ahora lo que se

trata de comprobar es cuánto de parecido son los NS/NC a los grupos que si declaran su

intención de voto. Es decir, si se comportan como los votantes de un partido político

concreto (PP, PSOE o IU), como votantes en blanco o como aquellos entrevistados que

dicen que se abstendrán en las próximas elecciones. Para corroborar esto y además

poder caracterizar a este grupo se ha realizado un análisis de homogeneidad y un

análisis cluster.

Estos pasos previos a la imputación múltiple, permiten conocer mucho mejor los datos

utilizados y abordar el proceso de imputación con un conocimiento previo de los

mismos. Al igual que en el estudio anterior, los datos obtenidos mediante la imputación

múltiple en dos pasos son insatisfactorios a pesar de que en este caso, las preguntas que

incluye el cuestionario, dan más espacio a variables ordinales y numéricas y el tamaño

de muestra es mucho mayor. Este análisis finaliza con la validación del método de

16 Los análisis realizados para determinar si los NS y NC forman o no un único grupo no se muestran aquí por razones de espacio.

19

imputación mediante la obtención de las tasas de éxito procedentes de los análisis

realizados con datos faltantes ficticios.

3.1. Caracterización de los NS/NC en las elecciones generales de 2000

El grupo NS/NC constituye un grupo homogéneo internamente. Sin embargo que

funcionen como un único grupo también puede significar que sean un conjunto

específico de entrevistados que realmente no tengan una intención de voto. Si esto fuera

así, el procedimiento de imputación no tendría sentido. Por el contrario si los NS/NC se

comportan como otros grupos de votantes el sistema de imputación puede cumplir el

objetivo de asignar, a cada uno de ellos, una categoría de intención de voto.

El primer reto por tanto es encontrar un conjunto de variables que sirvan para predecir

la variable dependiente intención de voto de un sujeto y para ello se han realizado tres

análisis discriminantes. De todas las variables empleadas en los análisis solo 15 resultan

importantes (ver Tabla 9). No obstante, se ha optado por añadir una variable más que

consideramos de interés para el estudio, la ubicación ideológica del PP. Los porcentajes

de casos bien clasificados con estas variables, en alguna de las categorías de la intención

de voto, son buenos para IU (82,3%), PP (84,0%), PSOE (77,7%) y No votaría (87,0%).

Por el contrario, para otros partidos el porcentaje de pronósticos acertados es del 44,5%

y de un 38,9% para los NS/NC, resultados que no son suficientes17. Esto implica, que la

imputación múltiple para estos casos va a ser menos exitosa que para el resto de

categorías, pero mejor que para los votantes en blanco, que de nuevo solo son bien

clasificados en el 18,5% de los casos. Esto vuelve a remitirnos a la problemática de este

grupo a la hora de poder ser caracterizado. Mientras que la inclusión de nuevas

variables ha mejorado de forma importante el grupo de individuos No votaría, estás no

son relevantes a la hora de caracterizar la categoría de votantes en blanco. La categoría

No votaría emerge en este caso como un grupo con unas características propias

definitorias.

Para los propósitos de esta investigación, el análisis discriminante no solo permite

generar un modelo de imputación múltiple sino que además permite comprender sus

17 Tras el análisis discriminante del total de NS/NC solo un 38,9% (538 individuos) no se ubican en ninguna otra categoría de intención de voto con las variables utilizadas. Con el fin de que la imputación ofrezca mejores resultados estos individuos han sido eliminados de la muestra utilizada para la imputación múltiple.

20

resultados. Igual que sucedía en el estudio anterior, las respuestas NS/NC no

constituyen un grupo compacto con características propias. Más del 60% de los

individuos incluidos bajo esta etiqueta tienen comportamientos y opiniones que les

asemejan a las de otras opciones políticas.

Tabla 9: Variables en el análisis

- Interés por la política - Frecuencia con la que habla de política - Frecuencia con la que sigue la información política a través de la radio - Situación económica del país dentro de un año - Valoración de la gestión del PP durante los últimos cuatro años - Probabilidad de votar en las próximas elecciones generales - Confianza en líderes políticos: J.M. Aznar y J. Almunia - Valoración líderes políticos: Durán i Lleida y J. Puyol - Probabilidad de votar a : IU, PP y PSOE - Ubicación ideológica de los partidos: PP, IU y PSOE - Ubicación ideológica del entrevistado - Intención de voto en las próximas elecciones generales de 2000 Fuente: Elaboración propia con cuestionario del CIS (encuesta número 2382).

Para confirmar este aspecto, se ha realizado de forma complementaria un análisis de

homogeneidad (HOMALS) que permite, junto con la aplicación del análisis cluster, ver

en un espacio de dos dimensiones la forma en la que se distribuyen los casos.

Los resultados del análisis de homogeneidad son coherentes con lo hasta ahora

señalado. Del mismo modo que en el apartado 2.1 de este trabajo, a partir de las

puntuaciones factoriales obtenidas en el HOMALS, se realizaron, a modo de

exploración, cuatro análisis de conglomerados k-medias con tres, cuatro, cinco y seis

grupos. Finalmente se observó que el análisis con cinco grupos ofrecía grupos más

estables. En base a los resultados obtenidos en el análisis de homogeneidad podemos

concluir que los valores de la categoría No votaría aparecen más concentrados en un

mismo grupo que en el estudio realizado para las elecciones de 1996 (Tabla 10).

21

Tabla 10: Distribución de los individuos según grupo de pertenencia


Gráfico 3: Clusters obtenidos a partir del Análisis de Homogeneidad en el primer plano factorial

Fuente: Elaboración propia con datos del CIS (encuesta número 2382). Ya se trate de tres, cuatro, cinco o seis clusters, al menos uno de los grupos contiene un

alto porcentaje ellos. En este mismo grupo, junto a los No votaría, también se

encuentran concentrados los NS/NC. Esto indica que del total de los NS/NC, 6539 casos

en total, entre 2502 y 1028, según el análisis cluster considerado tiene un modelo de

comportamiento similar a los del No votaría. Este grupo podría ser considerado como el

4

1

3 2

5

Partido político Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 - IU 6,5 0,8 0,6 12,2 0,8 - PP 1,5 38,8 4,7 1,1 67,5 - PSOE 37,5 4,9 6,0 47,6 2,1 - Otros partidos 10,9 7,1 2,1 14,0 6,2 - En blanco 4,0 3,6 3,6 2,9 1,6 - No votaría 13,8 8,9 31,9 3,0 1,0 - NS/NC 25,6 35,8 51,1 19,3 20,7 (N) 4624 5256 2013 4981 7161

22

verdadero núcleo duro de los NS/NC. Mientras el resto se ubica en un espacio similar al

de otras categorías de la variable intención de voto (ver Gráfico 3).

Las variables que primero entran a formar parte de los análisis discriminantes serán las

variables que permitirán identificar diferencias entre los grupos de forma más clara. En

la función discriminante la variable de autoubicación ideológica entra en la quinta

posición. A pesar de ello, las diferencias ideológicas van a ser utilizadas aquí de forma

orientativa para etiquetar a los grupos, salvo para el tercer grupo (NS/NC+abstención).

La ideología media de los cinco clusters oscila entre el 6,27 para el quinto grupo y el

3,45 para el cuarto. Estos son los dos clusters más polarizados. Los grupos 1 y 2 son

grupos más cercanos al centro que los dos anteriores. El grupo 3, que se nutría

principalmente de las respuestas NS/NC y No votaría, aunque no se encuentra en el

centro ideológico es, sin embargo, el grupo ideológico central.

De acuerdo con esto, el primer grupo que el análisis cluster forma, se va a denominar

por razones prácticas Izquierda (–), el segundo Derecha (–), el tercero NS/NC+No

votaría, el cuarto grupo se denominará Izquierda (+) y finalmente el quinto y último

grupo será referido como Derecha (+).

En la Tabla 11 se muestra información sobre las características que identifican a cada

uno de los grupos. El interés general por la política, la conversación política y la

adquisición de información política permite distinguir al grupo central. Así, los grupos

de Izquierda (+) y Derecha (+) son los más interesados en política y eso también se ve

reflejado en la frecuencia con la que hablan de política y el seguimiento de la

información política a través de la radio. En el otro extremo el grupo NS/NC es el

menos interesado en estas cuestiones y además estos encuestados son a su vez los más

pesimistas en cuanto a las perspectivas económicas del país. Con todo esto presente no

es de extrañar que en el grupo de NS/NC que no puede ser asimilado con ninguna

tendencia ideológica, se encuentren los porcentajes más altos de respuesta negativa a la

cuestión sobre la probabilidad de acudir a las urnas a votar.

El grado de confianza en Aznar y Almunia también muestra diferencias entre los

encuestados sin intención de voto. Aquellos que hemos identificado como de Derecha

(+) muestran confianza en Aznar y sin embargo tienen poca confianza en Almunia. A su

vez el grupo de Izquierda (+) aunque desconfía más de Aznar que el grupo Derecha (+)

de Almunia, también es cierto que tiene un grado de confianza en Almunia menos

intenso que la Derecha (+) en Aznar.

23

Tabla 11: Principales características de los clusters

En resumen, la información hasta ahora vista nos da una idea general de las

características que definen a los distintos grupos de votantes. Además ayuda a entender,

por un lado, los resultados del análisis discriminante al observar las preguntas que

diferencian a los grupos, y, por otro lado, a formular un modelo para el procedimiento

24

de imputación múltiple. En el siguiente apartado se presentan los resultados de la

imputación múltiple de la encuesta preelectoral del CIS con motivo de las elecciones

generales al Congreso de los Diputados en el año 2000.

3.2 Procedimiento de Imputación Múltiple (MI) A continuación se presentan los resultados del procedimiento de imputación múltiple

(MI) para el conjunto de los datos preelectorales de 2000. Por un lado, los análisis

discriminantes han ofrecido un porcentaje de buena clasificación general, similar al

obtenido en el estudio anterior para las elecciones de 1996. Las expectativas a cerca de

las tasas de éxito están en un nivel parecido al anterior. Sin embargo, está vez hay tres

elementos nuevos. Por un lado el número de variables utilizadas es mucho mayor, un

hecho que puede mejorar los resultados. Estas variables además caracterizan mejor que

en el estudio anterior de 1996 a los individuos de voto en blanco, y principalmente a los

votantes de otros partidos y al no votaría. Finalmente, el análisis de homogeneidad

muestra en los distintos gráficos que los grupos extremos de Izquierda (+) y Derecha (+)

no se encuentran en esta ocasión tan polarizados como en el preelectoral de 1996. Por

tanto mientras que los dos primeros elementos pueden ayudar a tener mejores resultados

en la imputación múltiple, el tercero puede operar en el sentido contrario.

La imputación múltiple de los NS/NC en la variable intención de voto se ha llevado a

cabo, como en el apartado anterior, en dos pasos diferentes. Por un lado, la imputación

de los datos faltantes de las 17 variables explicativas obtenidas en el tercer análisis

discriminante (cuantitativas y con una distribución arbitraria de los NS/NC) que

posteriormente intervendrán en el proceso de imputación de los valores perdidos de la

variable objeto de estudio, la intención de voto. Y por otro, una vez completos todos los

datos faltantes de estas variables, se procede a la imputación múltiple de la variable

intención de voto. Al igual que en el estudio de 1996, el método utilizado para la

imputación de las 17 variables explicativas es el MCMC mientras que el empleado para

la imputación de la intención de voto ha sido el de la función discriminante (que permite

imputar los valores de una variable nominal).

Los resultados de la Tabla 12 ponen de manifiesto que los valores imputados en dos

pasos no mejoran los resultados directos de la encuesta. La imputación sólo mejora los

resultados de la encuesta para los casos del PSOE y del No votaría, y en este último

caso sólo ligeramente. Como sucedía en el preelectoral de 1996, la recuperación de

25

información a través del procedimiento MI tiende asignar más votos a los partidos de

los que realmente recibieron.

Tabla 12: % de la variable intención de voto (datos directos de encuesta, intención de voto imputada vs. resultados reales elecciones)

Fuente: Elaboración propia con resultados electorales del Ministerio del Interior y datos del CIS (encuesta número 2382).

3.3 Validez del procedimiento de Imputación Múltiple Al igual que sucedería con el preelectoral de las elecciones generales de 1996, el

carácter insatisfactorio de los resultados obtenidos mediante el método de imputación

múltiple (MI) de todas las variables conjuntas nos lleva a comprobar la validez del

método utilizado y si las variables consideradas en el análisis funcionan de forma

adecuada o no. Para ello, se ha elaborado una nueva base de datos que contenga

únicamente aquellos individuos entrevistados que han respondido a todas y cada una de

las variables que han contribuido a la construcción de la función discriminante (las

diecisiete variables del tercer análisis discriminante y la intención de voto en las

elecciones generales de 2000), puesto que sólo conociendo el dato real podemos saber si

el valor estimado (imputado) es correcto. El hecho de considerar un mayor número de

variables discriminantes para la imputación tiene sus ventajas e inconvenientes. La

ventaja está en que cuanto mayor sea el número de variables que intervienen en la

imputación, previsiblemente mayor será el éxito de la imputación, fundamentalmente

para determinadas opciones electorales. El inconveniente, es que el número de NS/NC

aumenta y con ello el número de casos a eliminar para la construcción de la nueva base

de datos “completa”.

Siguiendo el mismo criterio que en el estudio anterior, sobre esta nueva base

“completa”, se ha provocado de forma aleatoria la eliminación de datos reales de la

variable intención de voto convirtiéndolos así en datos faltantes. Así, se han construido

% Intención de voto % Resultados reales % Intención de voto(Encuesta CIS) elecciones 1996* imputada

- IU 4,26 3,74 5,19 - PP 29,50 30,53 42,15 - PSOE 19,28 23,42 25,09 - Otros partidos 8,60 9,79 12,59 - En blanco 2,93 1,08 5,10 - No votaría 8,21 31,44 9,88 - N.S./N.C 27,20Total 100,00 100 100

* % calculado sobre voto válido + abstención

Partido Político

26

cinco bases de datos diferentes con porcentajes de datos faltantes distintos (un 5%, 10%,

15%, 20% y 25% de datos faltantes de la variable intención de voto). Este intervalo de

pérdida de información es similar al que generalmente se da en las encuestas. En este

caso concreto, el porcentaje de NS/NC en la variable intención de voto asciende al

27,2%.

La distribución de esos NS/NC ficticios en función de la variable intención de voto

aparece recogida en la Tabla 13. Los datos eliminados de la variable a imputar oscilan

entre los 245 y 1287 casos. Si tenemos en cuenta los resultados obtenidos para la base

de datos con un 10% de información faltante en la intención de voto se observa que de

los 508 casos eliminados, un 42,1% correspondían a votantes del PP y un 27,4% a

votantes del PSOE (IVO).

Tabla 13: Distribución de los datos faltantes en cada una de las bases de datos antes

Fuente: Elaboración propia con datos del CIS (encuesta número 2382). Tabla 14: Porcentaje de éxito de la imputación según opción política y porcentaje de datos faltantes


I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E I.V.O I.V.E - IU 11,0 9,0 8,7 9,3 7,4 7,4 6,6 6,9 6,3 7,3 - PP 42,2 46,5 42,1 42,1 45,6 47,5 45,8 46,9 43,0 44,9 - PSOE 23,7 24,5 27,4 29,7 25,1 25,6 25,6 26,7 28,7 28,0 - Otros partidos 13,9 11,0 12,6 8,9 14,2 11,7 14,1 11,0 13,8 10,6 - En blanco 3,7 2,9 2,8 2,0 3,6 2,3 3,1 2,6 2,8 2,3 - No votaría 5,3 6,1 6,5 8,1 4,1 5,5 4,8 5,8 5,4 6,8

(N)* I.V.O. (Intención de voto observada)* I.V.E. (Intención de voto estimada)

Partido político 25%

245 508 829 1080 1287

5% 10% 15% 20%



27

La Tabla 13 también recoge los resultados de la imputación en cada una de las bases

consideradas (IVE). Así, siguiendo en la base de datos con el 10% de datos faltantes, en

la variable intención de voto, de los 508 casos a imputar un 9,3% fueron asignados a la

candidatura de IU, un 42,1% a la del PP, un 29,7% a la del PSOE, el 8,9% a la de otros

partidos políticos, el 2,0% al voto en blanco y el 8,1% al no votaría.

No obstante, y aunque aparentemente los resultados de ambas columnas (IVO e IVE) se

aproximen mucho es necesario corroborar si estas asignaciones obtenidas por el

procedimiento de imputación múltiple se han realizado correctamente. Para ello se ha

calculado la tasa de éxito conseguida en cada una de las bases de datos imputadas.

En la Tabla 14 se presentan las tasas de éxito general y por partido obtenidas en cada

una de las bases de datos en función del porcentaje de información faltante.

Independientemente del porcentaje de datos perdidos en la variable intención de voto

los resultados obtenidos son muy positivos para la totalidad de los casos. Así, el modelo

de imputación múltiple implementado presenta porcentajes de éxito superiores al 77%.

Los mayores porcentajes de éxito se dan para las bases que contienen un 25%, 20% y

10% de datos faltantes donde los aciertos superan el 80%.

Sin embargo, estos elevados índices de éxito no se distribuyen de forma homogénea

para todas las categorías de la variable intención de voto. El proceso de imputación

múltiple no ha funcionado del mismo modo para todas las opciones políticas. El éxito

alcanzado en el caso de los partidos mayoritarios, PP, PSOE e IU parece evidente, al

igual que lo es para la opción No votaría. El modelo también parece funcionar de

manera aceptable para la categoría otros partidos con porcentajes de éxito en torno al

50%. En cambio, resulta un auténtico fracaso para la opción Voto en blanco, donde los

porcentajes de éxito no superan en ninguno de los casos el 20% de aciertos.

En el Gráfico 4 se puede observar la relación que existe entre la tasa de éxito del

análisis y el tamaño de los grupos en los que se hace la imputación. Cuando los datos a

imputar son inferiores a 100 casos, los resultados son muy dispares. Mientras que para

los individuos de voto en blanco la tasa de éxito no supera el 20%, con un nivel de casos

similares los individuos No votaría tienen tasas de éxito entre el 76,9% y el 97,0%.

Las tasas de éxito sin embargo son mucho más estables a partir de 150 casos,

aproximadamente. Estos datos nos indican dos cosas, por una parte que el tamaño de la

muestra no explica por si solo los buenos o malos resultados de una imputación y por

otro que cuando el modelo utilizado en la imputación es potente, (en nuestro caso

procedente de un análisis discriminante previo) el número de casos tiene una influencia

28

menor en las tasas de éxito. Por tanto para tener una tasa de éxito homogénea para todos

los partidos, el modelo de imputación tendría que ser bueno para todos los casos. Esto

implica que ciertas preguntas del cuestionario no son capaces de identificar y aislar del

resto de los grupos a los individuos que contestan que votarían en blanco.

Gráfico 4: Relación entre número de casos y tasa de éxito (para el total de datos faltantes)

6005004003002001000

tamaño de muestra

100,0

80,0

60,0

40,0

20,0

0,0

tasa

de

éxito

NoVotaría

Blanco

Otros

PSOE

PP

IU

NoVotaría

Blanco

Otros

PSOE

PP

IU

NoVotaría

Blanco

Otros

PSOE

PP

IU

NoVotaría

Blanco

Otros

PSOEPP

IUNoVotaría

Blanco

Otros

PSOE

PP

IU


4. Conclusiones Esta investigación ha tratado de comprender mejor la naturaleza de la falta de respuesta

en las investigaciones sociales partiendo de la intención de voto de los estudios

electorales y aplicando un método de imputación múltiple que permitiera amortiguar en

lo posible esta ausencia de información. Para ello se han utilizado las bases de datos

preelectorales realizadas por el CIS para las elecciones generales de 1996 y 2000.

Ambos análisis demuestran la importancia de las preguntas incluidas para poder aplicar

este tipo de métodos. En el primero de los estudios, el correspondiente a 1996, el

número de preguntas no permitía identificar y caracterizar de forma suficiente a todas

Partidos mayoritarios + No votaría

Partidos minoritarios

Voto en blanco

29

las categorías de la variable intención de voto. Así mientras que los potenciales votantes

del PP y del PSOE podían ser bien clasificados mediante el análisis discriminante, en el

85% y 75% de los casos respectivamente, a partir de las variables del cuestionario los

grupos de voto en blanco y no votaría eran muy pobremente caracterizados por esas

mismas variables (en el 2,6% y 30% de los casos respectivamente). Esto se tradujo en

unas tasas de éxito de imputación pobres. El análisis de la segunda de las encuestas

aplicada en 2000 mejoró los resultados ligeramente ya que la función discriminante que

caracterizaba a los entrevistados contenía un mayor número de variables que permitía

ajustarse mejor a las distintas categorías de la variable intención de voto.

Partiendo de esos modelos en ambos casos se realizó una imputación múltiple previa a

la variable intención de voto. Esta imputación tenía por objeto conseguir una matriz de

datos completa para las variables que iban a ser incluidas en el modelo de imputación.

Tras esta primera imputación en ambos casos se procedió a imputar la variable

intención de voto. Los resultados para las elecciones de 2000 fueron ligeramente peores

que los obtenidos para 1996. Estos resultados contrastan con la mejoría que se había

identificado inicialmente en el modelo discriminante al contar con un mayor número de

variables. Esto puede deberse a que si bien, un mayor número de variables explicativas

pueden favorecer la clasificación correcta de los individuos en sus respectivas

categorías, también aumenta el número de casos a imputar en dichas variables y, por

consiguiente, la probabilidad de error. En cualquier caso en ambos estudios la

comparación entre los resultados reales de las elecciones y los resultados de la

imputación múltiple muestra que éstos últimos siguen estando alejados de los resultados

electorales reales.

Ante estos resultados es necesario descartar un posible error en el procedimiento de

imputación múltiple por lo que partiendo de bases “completas”, donde no existían datos

perdidos, se realizaron un total de cinco análisis de imputación múltiple en cada uno de

los estudios con datos faltantes ficticios en la variable intención de voto que oscilaban

entre el 5 y el 25%. Estos análisis han puesto de manifiesto cómo, aun partiendo de

información completa para las variables incluidas en el modelo de imputación, no en

todos los partidos y categorías puede ser imputado el voto con una probabilidad de

acierto similar. El principal problema se encuentra en los casos de individuos que

señalan que su voto será en blanco. En ninguno de los dos estudios se han encontrado

preguntas que puedan caracterizar a estos individuos de forma más precisa. Por esta

razón se cree que una investigación posterior sobre los elementos y características que

30

mejor definen a este colectivo sería muy apropiada. Esto ayudaría a diseñar cuestionario

que incluyan preguntas o items que permitan posteriormente mejorar la identificación de

estos ciudadanos en distintos análisis estadísticos.

La categoría de abstención o no votaría también presenta problemas de imputación en el

preelectoral de 1996 por lo que resulta adecuado un análisis más detallado de las

preguntas, que estando presentes en el estudio de 2000, contribuyeron a mejorar la

información sobre esta categoría. La imputación fue más exitosa en los grupos

ideológicos extremos que a su vez tendían a situarse en los extremos de las escalas de

las preguntas utilizadas. Sin embargo estas escalas no permiten diferencias a los grupos

ideológicos medios.

Teniendo en cuenta la efectividad del procedimiento de imputación múltiple cuando las

variables empleadas en el modelo tienen todos los datos completos, y siendo

conscientes de que esta situación es prácticamente inexistente en las encuestas de

opinión y particularmente en las encuestas electorales, sería interesante, como línea de

investigación futura, profundizar en cuáles son las tasas de datos faltantes en las

distintas variables del cuestionario a partir de las cuáles el procedimiento de imputación

múltiple dejaría de ser efectivo, y en qué variables de las incluidas en el modelo de

imputación la presencia de un elevado número de casos de NS/NC contribuyen al

fracaso del modelo. Es previsible que no todas las variables explicativas incluidas en el

análisis de imputación múltiple tengan la misma importancia y por consiguiente, el

hecho de que unas variables tengan más datos faltantes que otras tampoco tendrán la

misma repercusión en la efectividad del método.

En definitiva, un procedimiento de imputación en dos pasos, un conjunto de variables

insuficientes para caracterizar todas las categorías y la existencia de variables con un

número de casos perdidos muy significativo suponen serias trabas a la obtención de

resultados satisfactorios en los procedimientos de imputación de datos faltantes.

5. Bibliografía COLOMÉ, G (2000). “Sondeos de opinión. ¿El fracaso del oráculo?”. Revista Latinoamericana de Comunicación CHASQUI, nº 71.

DÍAZ DE RADA, V (2002). Problemas originados por la no respuesta en investigación social: definición, control y tratamiento. Navarra: Universidad Pública de Navarra.

DURRANT, G (2005). “Imputation Methods for Handling Item-Nonresponse in the Social Sciences: A Methodological Review”, Research Methods, University of Southampton.

GIFI, A. (1990). Nonlinear Multivariate Analysis. New York: John Wiley & Sons.

31

GIL FLORES, J., GARCÍA JIMÉNEZ, E. y J. RODRÍGUEZ GÓMEZ, G. (2001) Análisis discriminante. Cuadernos de Estadística, 12. Madrid. La Muralla, S.A. GÓMEZ GARCÍA, J. y J. PALAREA ALVADALEJO (2003). “Inferencia basada en imputación múltiple en problemas con información incompleta”. Paper presentado en IX Conferencia Española de Biometría, La Coruña, 28-30 de mayo de 2003.

KING, G; James HONAKER, Anne JOSEPH and Kenneth SCHEVE (2001). "Analyzing Incomplete Political Science Data," American Political Science Review, Vol. 95, No. 1, pp. 49-69.

LAVORI, PW., DAWSON, R. y SHERA, D (1995). “A multiple Imputation Strategy for Clinical Trials with Truncation of Patient Data”, Statistics in Medicine, 14, pp. 1913-1925.

LITTLE R. y Donald B. RUBIN (1989). “The analysis of social science data with missing values”, Sociological Methods and Research, Vol 18, No 2 y 3, pp. 292-326.

LITTLE, R. y Donald B. RUBIN (1987). Statistical Analysis with Missing Data. New York: John Wiley & Sons.

MOLINERO, L.M. (2002). “El método Bayesiano en la investigación médica”, Asociación de la Sociedad Española de Hipertensión. pp. 1-9.

PENG, Y. y Roderick J. LITTLE, Trivellore E. RAGHUNATHAN (2004). “An extended general location model for causal inferences from data subject to noncompliance and missing values”, Biometrics, 60(3), pp. 598-607.

PUERTA GOICOECHEA, A (2002). Imputación basada en árboles de clasificación. Cuadernos técnicos. Instituto Vasco de Estadística (EUSTAT).

RAGHUNATHAN, T (2004). “What do we do with missing data? Some options for analysis of incomplete data”, Annual Review of Public Health, Vol. 25, pp. 99-117.

RAGHUNATHAN T. Y J.P REITER, Donald B. RUBIN (2003). “Multiple imputation for disclosure limitation”, Journal of Official Statistics, Vol.19, pp. 1-16.

RUBIN, D.B. (1976). “Inference and Missing Data”, Biometrika, 63, pp. 581-592.

RUBIN, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons.

RUBIN, D.B. (1996). “Multiple imputation alter 18 + years”, Journal of the American Satatistical Association, 91, pp. 473-489.

SCHAFER, JL (1997). Analysis of Incomplete Multivariate Data. London: Chapman & Hall.

SCHAFER, JL y GRAHAM, J.W. (2002) “Missing data: our view of the state of art”, Psychological Methods, 7, pp.147-177.

TANG, G Y Roderick J. LITTLE, Trivellore. E RAGHUNATHAN.( 2003) “Analysis of multivariate missing data with nonignorable nonresponse”, Biometrika, 90(4), pp. 747.

TIERNEY, L (1994). “Markov chains for exploring posterior distributions”, Annals of Statisstics, 22, pp. 1701-1762.

VARELA, J y Teresa BRAÑA TOBÍO, Alberto GARCÍA CARREIRA, Antonio RIAL BOUBETA y Xosé Gabriel VÁZQUEZ FERNÁNDEZ (1998). “Estimación de la respuesta de los “No sabe/No contesta” en los estudios de intención de voto”, REIS, Vol. 7, No 4.

32

WAGSTAFF, K. (2004). “Clustering with Missing Values: No Imputation Required.” Classification, Clustering, and Data Mining Applications (Proceedings of the Meeting of the International Federation of Classification Societies), pp. 649-658

YUAN, Y. (2000). “Multiple Imputation for Missing Data: Concepts and New Development”, SAS Institute Inc., Proceedings of the Twenty-Fifth Annual SAS Users Group, pp. 267-25.

Download - La no respuesta en los estudios electorales: la imputación ...campus.usal.es/~dpublico/areacp/doctorado07-09/rivasroson.pdf · Si el PP gana las elecciones las cosas conseguidas

Top Related