la georeferenciaciÓn de la poblaciÓn de … · el icgc dispone de un servicio web (2), publicado...
TRANSCRIPT
LA GEOREFERENCIACIÓN DE LA POBLACIÓN DE CATALUNYA.
Eduard Suñé Luis
Àrea de Població i Territori.
Subdirecció General de Producció i Coordinació.
Institut d’Estadística de Catalunya (Idescat).
Via Laietana 58, 08003 Barcelona.
RESUMEN
El Institut d’Estadística de Catalunya (Idescat) está trabajando para elaborar un
registro estadístico territorial a partir de fuentes administrativas y estadísticas, de
acuerdo con el código de buenas prácticas de las estadísticas europeas. En este
contexto, la asignación de coordenadas a los microdatos de las fuentes estadísticas
y administrativas es de vital importancia para la obtención de datos
georeferenciados en los ámbitos demográfico, económico y social. En esta
comunicación se describen los resultados obtenidos al utilizar el servicio de
geocodificación del Institut Cartogràfic i Geològic de Catalunya (ICGC) para
georeferenciar la población de Catalunya, como un primer paso para la
georeferenciación sistemática de microdatos. Por último, se describen los métodos
utilizados en la imputación de la posición y algunos casos de uso de la población
georeferenciada.
Palabras clave: Georeferenciación, población, geocodificación
INTRODUCCIÓN.
El Institut d’Estadística de Catalunya (Idescat) está desarrollando un
sistema de información estadística basado en registros administrativos (1). Todos
estos registros tienen en común la existencia de un conjunto de variables que
expresan la localización espacial del microdato: la dirección postal (lugar de
residencia, sede de una empresa, etc.).
Históricamente, el tratamiento dado a las direcciones postales conducía a la
asignación de zonas administrativas, como es el caso de la población y las
secciones censales. El efecto final de esta asignación es que los resultados
estadísticos sólo pueden obtenerse respecto de estas zonas o sus agregados,
produciéndose una pérdida de información indeseable. La solución a este problema
pasa necesariamente por la obtención de unas coordenadas relativas a las
direcciones postales existentes en los microdatos. Así, la posterior agregación
espacial no está, a priori, limitada.
En este artículo presentamos los resultados obtenidos en el proceso de
georeferenciación del Registro de población utilizando el servicio de geocodificación
del Institut Cartogràfic i Geològic de Catalunya (ICGC), como un primer paso hacia
la georeferenciación sistemática de los registros administrativos.
GEOCODIFICACIÓN DEL REGISTRO DE POBLACIÓN.
El Registro de población es un fichero estadístico derivado del padrón de
habitantes gestionado por los ayuntamientos. Esta información la centraliza el
Instituto Nacional de Estadística (INE), realiza ciertos tratamientos de depuración
y, periódicamente, cede la información relativa a la población de Catalunya al
Idescat.
Idescat, por su parte, realiza unos tratamientos para la estandarización de las
direcciones postales, agregación de las personas con una misma dirección postal
(hogares) y creación de la tabla portales que modela una dirección postal a nivel
horizontal.
El diagrama entidad-relación de esta información vendría a ser:
Así pues, la tabla portales representa el conjunto de direcciones postales a
nivel horizontal en donde reside alguna persona. Esta tabla contiene un conjunto
de campos que expresan una dirección postal: provincia, municipio, código de vía,
tipo de numeración, número inferior, número superior, punto kilométrico, etc. La
tabla vías contiene los nombres normalizados de las vías, sus códigos y la clave
foránea de la tabla municipios. El target de nuestro tratamiento será pues la tabla
de portales.
El ICGC dispone de un servicio web (2), publicado bajo el estándar SOAP,
que permite la integración en nuestras aplicaciones del conjunto de operaciones
que este servicio implementa. Entre ellas, disponemos del típico proceso de
geocodificación: obtención de unas coordenadas a partir de una dirección postal.
Hay que tener en cuenta que este servicio trabaja, en ciertas partes del
territorio, contra un grafo de calles y realiza interpolaciones para la obtención de
las coordenadas que, por lo tanto, serán aproximadas. En otras zonas, las
coordenadas que obtenemos son más exactas, es decir devuelve las coordenadas
asignadas a un portal. En cualquier caso, el servicio devuelve para los portales
geocodificados un indicador de exactitud (portal, portal interpolado, etc.).
También es necesario mencionar que el resultado de la geocodificación
depende, obviamente, de los parámetros de entrada y que en casos de direcciones
mal formadas o incorrectas el servicio no devolverá, naturalmente, unas
coordenadas.
Desde Idescat se realizaron los desarrollos de software para integrar este
servicio y realizar altas de las coordenadas obtenidas en las bases de datos
espaciales.
N: 1 N: 1
1: N N: 1
1: N
1: N
1: N
Personas
Hogares Portales
Municipio Distrito
Sección Vías
El nivel de geocodficación obtenido, para la información a 1 de enero de
2013, fue del 92,36% y para la correspondiente a 1 de enero de 2014 del 93,22%.
No obstante, la distribución en el territorio de los portales no geocodificados
no es uniforme. Así, para la información del 2013, los percentiles de casos
geocodificados, agrupados por municipios pueden observarse en la tabla 1.
Tabla 1: Distribución de casos geocodificados agrupados por municipios
Percentil % casos geocodificados
100 100
75 94,94
Mediana 89,01
25 76,99
Los casos de municipios con bajos porcentajes se corresponden a aquellos
de tipo rural, dándose la circunstancia (para 2013) de que en 27 de ellos el proceso
de geocodificación no devolvió ningún punto. Los portales no geocodificados fueron
imputados con diferentes técnicas que describiremos más adelante.
Por otro lado, como parte de los trabajos del Censo de población y viviendas
del año 2011 el INE realizó el Censo de edificios. La principal novedad de este
censo es que se recogieron por primera vez las coordenadas de las aproximaciones
postales de los edificios en aquellas secciones censales en donde se efectuó
recorrido. En el resto de secciones se utilizó la información del Catastro para
obtener estas coordenadas.
Idescat ha utilizado la información provisional de las aproximaciones
postales de esta fuente, para un cierto número de municipios, con el fin de
comparar los resultados obtenidos con el geocodificador del ICGC y validar sus
resultados.
Para el conjunto de portales comunes en las dos fuentes se creó una capa
con un segmento definido por las dos posiciones, la obtenida mediante el
geocodificador del ICGC y las posiciones del Censo de edificios, tal como puede
observarse en la figura 1.
Figura 1: Comparación de los resultados del geocodificador del ICGC y del Censo de edificios 2011
en una zona Vilanova i la Geltrú. Los segmentos unen los puntos correspondientes a las dos fuentes.
Del análisis de la distribución de distancias se deduce que los resultados del
geocodificador del ICGC son muy parecidos a los del Censo de edificios y de hecho
el valor medio de las distancias parece consistente con el hecho de que el
geocodificador del ICGC utiliza un grafo de calles e interpolación para la obtención
de las posiciones, para los municipios analizados. En la tabla 2 puede observarse la
distribución de distancias ICGC-Censo de edificios 2011 para el municipio de
Vilanova i la Geltrú (08307). Que un 75% de la distribución tenga un valor inferior
a los 16 m indica la alta calidad de los resultados obtenidos con el geocodificador
del ICGC. Existen, ciertamente, valores atípicos, aunque son muy poco frecuentes.
Tabla 2: Distribución de distancias entre los puntos obtenidos por el
geocodificador ICGC y el Censo de edificios 2011. Vilanova i la Geltrú.
Percentil Distancia (m.)
Mínimo 0,078
25 6,482
50 10,447
75 16,063
Máximo 1992,496
Media 15,036
Por último resaltar que esta validación no se pudo realizar para el conjunto
de portales de Catalunya debido a que la información completa del Censo de
edificios 2011 no estaba disponible en ese momento.
IMPUTACIÓN DE COORDENADAS.
Para la población del Registro a 1 de enero de 2013 el porcentaje de
portales efectivamente geocodificados asciende a un 92,36% (un 94,85% a nivel
de personas). Queda pues un relativo pequeño número de portales cuya posición
no ha podido obtenerse con el servicio de geocodificación del ICGC. Para la
información correspondiente a 2014 el porcentaje asciende al 93,22%.
A priori, para estos casos, conocemos a qué sección censal pertenecen ya
que es una información que originalmente forma parte del Registro de población.
Podríamos asignar una posición, típicamente el centroide, de esa sección censal,
pero teniendo en cuenta que las secciones censales son divisiones administrativas
que se definen precisamente por la población que incluyen, en zonas de alta
densidad de población el error cometido seria pequeño pero, por el contrario, muy
alto en zonas de baja densidad de población. Precisamente en las zonas de baja
densidad los porcentajes de portales geocodificados son más bajos. Así pues es
necesario proceder a la imputación de las posiciones utilizando métodos más
refinados.
Debido a que en el transcurso de los trabajos de geocodificación los datos
disponibles que hacen posible la imputación de coordenadas han ido variando, los
métodos utilizados para los años 2012 y 2013 difieren notablemente de los
utilizados para el 2014. Fundamentalmente la diferencia estriba en que para el
2014 disponemos de la información correspondiente al archivo CAT del Catastro y
en años anteriores no y que para el 2014 no disponemos del seccionado
suficientemente actualizado. A continuación describiremos los métodos de
imputación utilizados para el 2012 y 2013, por un lado, y para el 2014 por otro.
IMPUTACIÓN. AÑOS 2012 y 2013.
Como quiera que la información original está georeferenciada a nivel de
sección censal es necesario realizar la imputación de coordenadas sección a sección
de tal forma que el valor imputado sea un punto (x,y) de su sección. Por otro lado,
la posición, como tal, es una variable continua cuyos valores posibles dependerán
de la forma de la sección censal.
Para simplificar el problema podemos definir un grid de lado n metros
asociado al bounding box y calcular posteriormente la intersección con el contorno
de la sección censal. En la figura 2 puede observarse el grid y la intersección para
una sección censal (02003) del municipio de Roses (17152).
Figura 2: El grid y su intersección con la sección censal 02003 de Roses.
Así pues, podemos simplificar el problema de la imputación considerando
que las posibles posiciones a imputar son los centroides de los elementos
resultantes de la intersección del grid y la sección censal. De esta forma, la
imputación lo es de una variable discreta: sólo es necesario asignar un elemento
del grid para obtener una posición, su centroide o más exactamente un punto
dentro del elemento.
El problema, una vez simplificado, se reduce a establecer cómo se realiza
esa asignación, que en todo caso debería realizarse con criterios probabilísticos. En
efecto, suponiendo que los valores missing se repartieran uniformemente en el
territorio, deberíamos asignar a cada elemento del grid una probabilidad de ser
escogido igual la superficie relativa de ese elemento:
P(k) ~ s(k) [1]
siendo s la superficie relativa del elemento k del grid
El segmento [0,1] (véase figura 3), cuya longitud representa un suceso
cierto, quedaría pues dividido en tantas partes como elementos del grid con
longitudes iguales a su superficie relativa.
Desde el punto de vista algorítmico, la asignación de unas coordenadas
pasaría por la obtención de un numero aleatorio dentro del intervalo [0,1], la
búsqueda de a qué elemento del grid le corresponde ese valor en la tabla de
superficies relativas acumuladas y la asignación final de un punto de ese elemento.
Figura 3: Mediante la construcción de un grid la asignación aleatoria de coordenadas puede simplificarse
utilizando el centroide de los elementos del grid. Queda estimar la probabilidad asociada a cada
elemento que, a falta de más información, seria función de su superficie relativa.
Otra hipótesis plausible es que el no consta se reparte en las zonas en que
sí existen puntos geocodificados y de forma proporcional al número de portales
geocodificados. Esta hipótesis suele asumirse frecuentemente en ciertos métodos
de imputación, como por ejemplo en los métodos hot deck, en los que los valores a
imputar se toman aleatoriamente del subconjunto de datos no missing. En esta
hipótesis, las probabilidades estimadas para los elementos del grid serían (véase
figura 4):
P(k) ~ f(k) [2]
siendo f la frecuencia relativa de portales geocodificados en el elemento k del
grid.
Figura 4: Podría estimarse la probabilidad mediante la frecuencia relativa de los portales geocodificados.
En esta imagen puede observarse la distribución de casos geocodificados para el municipio de Roses.
No obstante hay que tener en cuenta que pueden haber secciones con un
nivel de portales geocodificados relativamente bajo. En estos casos la hipótesis
anterior pierde fuerza, llegando incluso al caso extremo en que no exista ningún
portal geocodificado.
Por lo tanto es necesario establecer un límite a partir de cual asumiremos la
hipótesis anteriormente mencionada y aplicaremos la ecuación 2 para estimar las
probabilidades. Este límite lo hemos fijado en un 70%, es decir, en secciones con
un nivel de geocodificados igual o superior al 70% estimamos la probabilidad
mediante las frecuencias relativas de geocodificados en los elementos del grid. Este
método de imputación lo denominaremos método A.
En el caso que el límite del 70% no se alcance necesitamos otra solución al
problema. Esta solución no pasa directamente por estimar la probabilidad mediante
la superficie relativa de cada elemento del grid, ya que sabemos, a priori, que
existen zonas en las que esta probabilidad es cero: zonas boscosas, zonas de
cultivo, etc.
Es necesario delimitar el territorio en donde es posible que exista un portal
y donde no. Por suerte el SIGPAC (3) describe las zonas urbanas, de tal forma que
si en vez de trabajar con el grid trabajamos con la intersección del grid y las zonas
urbanas del SIGPAC, eliminamos todos aquellos elementos del grid con
probabilidad cero.
En la figura 5 puede observarse que la distribución de portales geocodificados
están situados precisamente en las zonas urbanas delimitadas en el SIGPAC.
Figura 5: Los elementos del grid con frecuencias no nulas coinciden con la información obtenida del
SIGPAC para zonas urbanas
Podemos fijar nuestra atención en un caso extremo: un municipio en donde
no se ha geocodificado ningún portal, como por ejemplo Bellprat (08021). Para
este municipio, que es de sección única, operaremos como hasta ahora:
calculamos un grid de un cierto tamaño asociado a su bounding box, obtenemos la
intersección con la sección censal y, como novedad, calculamos la intersección con
la información del SIGPAC correspondiente a las zonas urbanas (figura 6).
Figura 6: Bellprat (08021), su zona urbana y la intersección con el grid.
Ahora podríamos estimar la probabilidad utilizando el criterio de la superficie
relativa aplicada al resultado de esas intersecciones. No obstante el criterio de la
superficie no parece suficientemente bueno ya que tiene implícita la suposición de
que la densidad de población es uniforme en el territorio.
Con la finalidad de mejorar los criterios de estimación de probabilidades
hemos utilizado imágenes satélites nocturnas obtenidas por la NOAA (4).
Estas imágenes contienen los valores de luminosidad con un tamaño de
pixel que se corresponde a un área de 900 m x 900 m, aproximadamente. La capa
raster se ha convertido a una capa de puntos con los valores de la luminosidad
(figura 7).
Figura 7: Mediante fotografías satélite nocturnas puede obtenerse una capa de puntos con la
luminosidad asociada
Con todo esto podemos estimar la probabilidad como:
P(k) ~ L(k)*S(k)/∑L(k)*S(k) [4]
donde S(k) es la superficie y L(k) la luminosidad del elemento k del grid, calculada
mediante la media móvil de n valores de luminosidad situados a una cierta
distancia (figura 8).
Figura 8: La probabilidad puede estimarse mediante el producto de la superficie relativa de la
intersección grid-SIGPAC (rojo) y la luminosidad en el centroide del elemento calculada mediante la
media móvil de los puntos de la capa de luminosidad a una cierta distancia.
Este método de imputación, que denominaremos B, se ha aplicado a todas
aquellas secciones censales con un porcentaje de portales geocodificados inferior al
70%.
Por último es necesario comentar que la disponibilidad de la geometría
asociada a las secciones censales está condicionada por sus frecuentes
modificaciones.
Así, en el momento en que se realizaron los tratamientos de la población a
1 de enero de 2012, Idescat disponía de la geometría de las secciones censales del
año 2010. Para el tratamiento de la población a 1 de enero de 2013 disponía de la
geometría de las secciones censales del año 2011 y, por lo tanto, la imputación
que hemos descrito (tanto A como B) se realizó para aquellas secciones que
permanecieron inalteradas. Para el resto se realizó la imputación a algún punto de
la capa SIGPAC o al centroide del municipio. La siguiente tabla indica el número de
portales y personas según los métodos utilizados para la obtención de coordenadas
para el caso de la población a 1 de enero de 2013.
Tabla 3: Resumen del proceso de geocodificación e imputación (año 2013).
Calidad/Tratamiento Portales % Personas %
1/ Geocodificados ICC 914.316 92,36 7.196.043 94,86
2/ Imputados método A 59.538 6,01 327.156 4,31
3/ Imputados método B 15.105 1,53 48.777 0,64
4/ Imputados zona urbana SIGPAC 731 0,07 13.214 0,17
5/ Imputados centroide municipio 310 0,03 1.701 0,02
Total 990.000 100 7.586.891 100
IMPUTACIÓN. AÑO 2014.
Para el tratamiento de la información a 1 de enero de 2014 no disponíamos
de un seccionado lo suficientemente actualizado (último disponible del 2011) y, por
el contrario, sí disponíamos de la información correspondiente al archivo CAT del
Catastro.
El archivo CAT del catastro contiene información alfanumérica de las
parcelas, construcciones y bienes inmuebles. En el caso de las parcelas también
contiene las coordenadas de los centroides y, en teoría, esta información sería
suficiente para georeferenciar los microdatos del Registro de Población.
También podría utilizarse para imputar las posiciones no geocodificadas por el
servicio del ICGC, como ha sido el caso.
Existe, no obstante una dificultad difícil de superar: Catastro utiliza un
conjunto de códigos de vías propio, diferente al que se utiliza en el Registro de
Población. Esta circunstancia obligaría a realizar búsquedas en el archivo CAT a
través del literal de la dirección, y como puede suponerse, los resultados serían
generalmente pobres.
Nos vemos, pues, abocados a realizar búsquedas difusas entre las dos
tablas de literales de direcciones utilizando para ello una métrica determinada. De
las descritas en la bibliografía, hemos evaluado las métricas de Levenshtein y la de
Jaro-Winkler (5), obteniendo el siguiente gráfico (figura 9) que muestra el número
de combinaciones entre literales según valores umbrales de similitud.
Figura 9: Número de combinaciones vía DGC-INE que superan el umbral de similitud según la distancias
de Levenshtein y de Jaro-Winkler.
Como puede deducirse del gráfico, deberíamos aceptar valores de alrededor
de 60 para la distancia de Levenshtein y de 87 para Jaro-Winkler para poder incluir
todas las vías INE en una supuesta tabla de correspondencias vías INE-DGC. El
caso es que deberíamos aceptar un cierto umbral y, naturalmente, corremos el
riesgo de que en esa tabla aparezcan falsos positivos y, fuera de ella, falsos
negativos. Sólo el 51% de los literales de las vías INE tienen una similitud del
100% con alguna de la DGC.
10000
100000
1000000
10000000
100000000
0 10 20 30 40 50 60 70 80 90 100
Jaro Winkler
Levenshtein
N vias Ine
N vias DGC
Por otro lado, asignando a cada portal geocodificado su parcela más cercana
podemos calcular la frecuencia relativa de los pares vía INE- vía DGC, para todos
los puntos y todas las vías (figura 10).
Figura 10: Frecuencia relativa (p) de pares vía INE-DGC entre puntos geocodificados (rojo) y parcelas
más cercanas (negro) para ciertas vías de Castelldefels (08056).
La combinación de estos dos criterios, la similitud de los literales basada en
una cierta métrica y las frecuencias relativas de pares de códigos INE-DGC para los
portales geocodificado-finca más cercana, permiten construir una tabla de
correspondencias con menos riesgos de falsos negativos. El cálculo de las
frecuencias relativas (p) bajo criterios cartográficos sólo se ha realizado para
aquellos portales para los que el geocodificador del ICGC ha dado los resultados
más precisos (a nivel de portal o portal interpolado), calculando al mismo tiempo la
similitud Jaro-Winkler. Para el resto de pares vía INE-DGC se ha calculado la
similitud Jaro-Winkler. Finalmente se ha construido una tabla de correspondencias
que incluye los pares vías INE-DGC que hemos consideramos más probables y que
cubre el 76% de las vías INE. El diagrama de dispersión de los dos parámetros utilizados,
p y la similitud Jaro-Winkler puede observarse en la figura 11.
Figura 11: Diagrama de dispersión similitud Jaro-Winkler frente a p, para los pares incluidos en la tabla
de correspondencias vías INE-DGC.
En las coordenadas [1,0] del diagrama existen unos 300 puntos que serian
falsos negativos si sólo se hubiera utilizado el criterio de similitud entre literales. Es
el caso del par AV TRECENTS-VINT (INE) - AV 320 (DGC), un claro ejemplo de falso
negativo utilizando sólo la similitud de Jaro-Winkler o la de Lenvenshtein.
Con todo esto, el tratamiento de un portal no geocodificado dependerá de si:
su vía existe en la tabla de correspondencias y existe una parcela con
numeración idéntica
su vía existe en la tabla de correspondencias pero no existe una parcela con
numeración idéntica
su vía no existe en la tabla de correspondencias
0
10
20
30
40
50
60
70
80
90
100
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Sim
ilitu
d J
aro
-Win
kle
r
p
En los dos últimos casos la imputación debería tener en cuenta la
información inicial de la sección censal asignada pero, como ya se ha mencionado,
no disponemos de la cartografía del seccionado para el año 2014, siendo el último
disponible el correspondiente al año 2011.
Para dar una solución a esta falta de información podemos realizar un
convex hull de todos los puntos geocodificados de una misma sección censal. En
efecto, el convex hull de una serie de puntos da como resultado el polígono mínimo
que los incluye a todos. Si el nivel de geocodificación es alto el convex debería
reproducir con bastante precisión el área habitable de una sección censal en
particular. Esta operación sería sólo necesaria para aquellos municipios con más de
una sección censal ya que para el resto disponemos de los límites municipales
actualizados.
El cálculo del convex, para una zona del municipio de Barcelona da el
sorprendente resultado que puede observarse en la figura 12:
Figura 12: Detalle del resultado del cálculo del convex hull sección a sección.
Es obvio que existen errores en la sección censal asignada en los microdatos
originales y que el resultado del convex, como tal, no puede utilizarse directamente
ya que corremos el riesgo de imputar posiciones fuera de la sección censal original.
Estos portales, con sección censal mal asignada, son outliers en la distribución de
las medias de las distancias al resto de portales de la sección:
[k]= d[k,j]/n [5]
Obteniendo el z-score de esta medida y despreciando aquellos puntos que
tienen un valor superior a un cierto umbral para la construcción del convex pueden
obtenerse unos polígonos que se aproximan mejor a las secciones censales, tal
como puede observarse en la figura 13:
Figura 13: Convex construido con puntos cuyo z-score <=0,90.
Recordamos aquí que el objetivo de la construcción de estas zonas es el de
delimitar el espacio para la imputación y no la búsqueda de valores mal asignados
de la sección censal. También es importante resaltar que a medida que el umbral
de z-score disminuye perdemos espacio asignable, pero esta aproximación se ha
realizado en municipios con más de una sección censal, en donde, normalmente, el
nivel de geocodificación es bastante alto. Los casos más problemáticos se
corresponderían a zonas rurales, normalmente a municipios de sección única, en
donde no es necesario calcular el convex ya que para ellos disponemos de los
límites municipales.
En todo caso, como en los métodos de imputación utilizados en los años
2012 y 2013, también es necesario delimitar aun más la zona de imputación
mediante intersecciones con la información de las zonas urbanas del SIGPAC. En la
figura 14 puede observarse un buen ejemplo: un convex que contiene dos clusters
de puntos con una zona no habitada entre ellos.
Figura 14: Convex correspondientes a la secciones 01001 y 01002 de Sant Jaume d’Enveja (43902)
(verde claro) y la intersección con la zona urbana SIGPAC (verde oscuro).
Así pues, no todos los puntos de la sección censal se utilizan para la
construcción del convex, sino sólo aquellos con un z-score inferior o igual a 0,9. Es,
desde luego una simplificación, pero recordemos que la finalidad es llegar a
construir unas zonas de imputación que aseguren la coherencia con la sección
censal originalmente asignada.
La intersección con las zonas urbanas del SIGPAC permiten afinar aún más
las zonas de imputación, limitando el conjunto de coordenadas imputables a los
centroides de las parcelas situadas dentro de ellas. Para municipios de sección
censal única la zona de imputación se construye mediante la intersección de los
límites municipales y las zonas urbanas SIGPAC.
En síntesis, la información de que disponemos para la imputación del año
2014 es por un lado, las zonas sobre las que imputar, los centroides de las parcelas
que aparecen en el archivo CAT de la DGC y la tabla de correspondencias
construida mediante la métrica Jaro-Winkler y las frecuencias relativas de los pares
vía INE-vía DGC para los pares portal geocodificado-parcela más cercana.
Con esto, el esquema general que hemos seguido para la imputación es:
existe su vía en la tabla de correspondencias INE-DGC
existe una finca con idéntica numeración
asignación directa
no existe una finca con idéntica numeración de imputación
finca con numeración cercana dentro de la zona de imputación
finca con numeración cercana sin restricción espacial
no existe su vía en la tabla de correspondencias INE-DGC
aleatoriamente a una finca dentro de zona de imputación
portal no geocodificado
0
-1
-2
-3
-4
Para cada tipo de asignación hemos definido un indicador de calidad (los
números que aparecen en el esquema) que se almacena junto con las coordenadas
en la base de datos espacial. Este indicador varia de 0, caso en el que las
coordenadas se han imputado a una finca cuya vía aparece en la tabla de
correspondencias con numeración idéntica, a los valores -3 y -4 que se
corresponden a posiciones imputadas aleatoriamente de los centroides de las fincas
situadas dentro de la zona de imputación (convex zona urbana SIGPAC o límites
municipales zona urbana SIGPAC, según los casos). Una vez realizada la
imputación, se almacena también la referencia catastral de la finca seleccionada y
esta ya no se tiene en cuenta en posteriores ciclos del proceso.
En cuanto al penúltimo modo de imputación (valor -3), no parece razonable
que en una finca con muchos inmuebles sea imputado a un portal del registro de
población con un solo hogar. Y tampoco lo es que sean imputadas las coordenadas
de una finca con un cierto número de inmuebles a un portal con un número de
hogares superior. Así pues, hemos estimado la probabilidad en base a la relación
entre el número de hogares del portal a imputar y el número de bienes inmuebles
destinados a vivienda de las fincas situadas dentro de la zona de imputación. Los
pares de puntos que utilizábamos para construir la tabla de correspondencias de
vías INE-DGC se han utilizado, también, para obtener las frecuencias relativas de
nº de hogares vs nº de inmuebles destinados a vivienda y poder estimar así la
probabilidad de que un portal no geocodificado se corresponda a una finca (véase
fig. 15). Aquí está implícita la suposición de que para este subconjunto la finca más
cercana se corresponde efectivamente al portal asociado.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Figura 15. Frecuencia relativa de nº hogares frente a nº bienes
inmuebles destinados a vivienda para los pares portales-fincas mas cercanas
1 hogar
2 hogares
3 hogares
4 hogares
5 hogares
6 hogares
7 hogares
El último caso (valor de calidad -4) se corresponde a una imputación
aleatoria del subconjunto de fincas con probabilidades iguales y se ha aplicado en
aquellos pocos casos en que no se han cumplido ninguna de las condiciones
anteriores.
El proceso de imputación arroja para el año 2014 los resultados resumidos
en la tabla 4.
Tabla 4: Resumen del proceso de geocodificación e imputación (año 2014).
Tratamiento % sobre el total de portales
geocodificados 93.22
0 2.14
-1 0.22
-2 1.13
-3 2.98
-4 0.31
Por último, podemos calcular un valor medio con los indicadores de
exactitud devueltos por el servicio de geocodificación del ICGC (valores que van de
1 a 4) y los indicadores de calidad en la imputación (0 a -4), obteniendo para los
municipios de Catalunya la siguiente imagen (figura 16):
Figura 16: Calidad global del producto de geocodificación e imputación del Registro de población 2014.
Zonas más oscuras se corresponden a zonas con peor calidad.
Como puede observarse la calidad es más baja en zonas rurales. Destacan
los casos de ciertos municipios en el que el 100% de los portales han sido
imputados, como Estamariu (25088). Para este municipio el número de vías según
la DGC es de 7, mientras que según el Registro de Población es de 43. En este
caso, mientras la información de direcciones del Catastro se refiere a calles (por
ejemplo CL Major), la del Registro de población se refiere a nombres de casas (por
ejemplo Cal Grau). El autor de la presente comunicación imagina que cuando las
personas de este municipio se dieron de alta en el padrón, la dirección en la que
fueron inscritos ya era conocida por el funcionario del ayuntamiento y no como una
calle y un número sino como un mote que se da a las familias.
RESULTADOS. CASOS DE USO.
El esquema entidad relación del registro de población, para cualquiera de los
años tratados, es después de los procesos de geocodificación e imputación:
Como puede observarse, a cada portal del registro de población se ha
asignado unas coordenadas, una fuente y un indicador de calidad. De esta forma,
los usuarios finales de esta información pueden escoger el nivel de calidad de los
datos e incluir en sus cálculos aquellos que consideren más fiables.
Asignar unas coordenadas a un portal y por consiguiente asignarlas al lugar
de residencia permite evaluar la población dentro de cualquier área de interés. Un
caso paradigmático lo encontramos en los trabajos de planificación que debe
realizar Protección Civil:
planes por riesgo de inundación (INUNCAT),
transporte de materias peligrosas (TRANSCAT)
planes de emergencia exterior del sector químico en Catalunya (PLASEQCAT).
N: 1
N: 1 1: N
N: 1
1: N
N: 1
N: 1
1: N
1: N
1: N
Personas
Hogares Portales
Municipio Distrito
Sección Vías
Posición
Fuente
Calidad
En todos estos casos, con una metodología concreta para la realización de
cada plan, se deben evaluar poblaciones en zonas de riesgo. En la figura 17, a
modo de ejemplo, puede observarse la población georeferenciada 2013 (capa en
rojo) y las zonas de inundación correspondiente a las desembocaduras de los rios
Llobregat y Besós (capa azul). La intersección de la dos capas permite evaluar con
precisión la población por edades dentro de la zona de riesgo, tal como es necesario
según la metodología que Protección Civil aplica en este plan.
Figura 17: Detalle de las zonas de desembocadura de los ríos Llobregat y Besós.
Otro caso típico consiste en evaluar las zonas de influencia de ciertas
infraestructuras y el cálculo de a cuanta población, de un determinado tipo,
incluyen.
A modo de ejemplo, en la figura 18, pueden observarse las posiciones de
ciertos colegios de Vilanova y la Geltrú (puntos azules), la población (puntos
negros) y las zonas de influencia (polígonos de Voronoi).
Figura 18: El cálculo de los polígonos de Voronoi permitiría evaluar la población afectada
CONCLUSIONES.
La georreferenciación de los microdatos en los diferentes registros
estadísticos de población permite su evaluación precisa en zonas de interés y, por
lo tanto, la toma de decisiones por parte de la administración. El servicio de
geocodificación del ICGC, junto con técnicas de imputación permiten en este
momento la obtención de esta valiosa información. En un futuro no muy lejano,
iniciativas como la base de datos de direcciones de Catalunya (BDMAC) (6) o el
modelo de direcciones de la administración general del estado permitirán la
validación y georeferenciación sistemática de los microdatos del sistema estadístico
basado en registros administrativos.
REFERENCIAS.
Anders Wallgren, Britt Wallgren. Estadísticas basadas en registros. INEGI.
Servei web de geocodificació de l’Institut Cartogràfic i Geològic de Catalunya.
http://www.gencat.cat/ptop/butlleti_innovacio/01/ICC_01.pdf.
SIGPAC. Generalitat de Catalunya. http://www.gencat.cat
NOAA. http://ngdc.noaa.gov/eog/dmsp/downloadV4composites.html
Winkler, W. E. (2006). "Overview of Record Linkage and Current Research
Directions". Research Report Series, RRS.
Especificacions tècniques de la Base de dades municipal d'adreces de Catalunya
v1.0.