la georeferenciaciÓn de la poblaciÓn de … · el icgc dispone de un servicio web (2), publicado...

LA GEOREFERENCIACIÓN DE LA POBLACIÓN DE CATALUNYA.

Eduard Suñé Luis

Àrea de Població i Territori.

Subdirecció General de Producció i Coordinació.

Institut d’Estadística de Catalunya (Idescat).

Via Laietana 58, 08003 Barcelona.

[email protected]

RESUMEN

El Institut d’Estadística de Catalunya (Idescat) está trabajando para elaborar un

registro estadístico territorial a partir de fuentes administrativas y estadísticas, de

acuerdo con el código de buenas prácticas de las estadísticas europeas. En este

contexto, la asignación de coordenadas a los microdatos de las fuentes estadísticas

y administrativas es de vital importancia para la obtención de datos

georeferenciados en los ámbitos demográfico, económico y social. En esta

comunicación se describen los resultados obtenidos al utilizar el servicio de

geocodificación del Institut Cartogràfic i Geològic de Catalunya (ICGC) para

georeferenciar la población de Catalunya, como un primer paso para la

georeferenciación sistemática de microdatos. Por último, se describen los métodos

utilizados en la imputación de la posición y algunos casos de uso de la población

georeferenciada.

Palabras clave: Georeferenciación, población, geocodificación

mailto:[email protected]

INTRODUCCIÓN.

El Institut d’Estadística de Catalunya (Idescat) está desarrollando un

sistema de información estadística basado en registros administrativos (1). Todos

estos registros tienen en común la existencia de un conjunto de variables que

expresan la localización espacial del microdato: la dirección postal (lugar de

residencia, sede de una empresa, etc.).

Históricamente, el tratamiento dado a las direcciones postales conducía a la

asignación de zonas administrativas, como es el caso de la población y las

secciones censales. El efecto final de esta asignación es que los resultados

estadísticos sólo pueden obtenerse respecto de estas zonas o sus agregados,

produciéndose una pérdida de información indeseable. La solución a este problema

pasa necesariamente por la obtención de unas coordenadas relativas a las

direcciones postales existentes en los microdatos. Así, la posterior agregación

espacial no está, a priori, limitada.

En este artículo presentamos los resultados obtenidos en el proceso de

georeferenciación del Registro de población utilizando el servicio de geocodificación

del Institut Cartogràfic i Geològic de Catalunya (ICGC), como un primer paso hacia

la georeferenciación sistemática de los registros administrativos.

GEOCODIFICACIÓN DEL REGISTRO DE POBLACIÓN.

El Registro de población es un fichero estadístico derivado del padrón de

habitantes gestionado por los ayuntamientos. Esta información la centraliza el

Instituto Nacional de Estadística (INE), realiza ciertos tratamientos de depuración

y, periódicamente, cede la información relativa a la población de Catalunya al

Idescat.

Idescat, por su parte, realiza unos tratamientos para la estandarización de las

direcciones postales, agregación de las personas con una misma dirección postal

(hogares) y creación de la tabla portales que modela una dirección postal a nivel

horizontal.

El diagrama entidad-relación de esta información vendría a ser:

Así pues, la tabla portales representa el conjunto de direcciones postales a

nivel horizontal en donde reside alguna persona. Esta tabla contiene un conjunto

de campos que expresan una dirección postal: provincia, municipio, código de vía,

tipo de numeración, número inferior, número superior, punto kilométrico, etc. La

tabla vías contiene los nombres normalizados de las vías, sus códigos y la clave

foránea de la tabla municipios. El target de nuestro tratamiento será pues la tabla

de portales.

El ICGC dispone de un servicio web (2), publicado bajo el estándar SOAP,

que permite la integración en nuestras aplicaciones del conjunto de operaciones

que este servicio implementa. Entre ellas, disponemos del típico proceso de

geocodificación: obtención de unas coordenadas a partir de una dirección postal.

Hay que tener en cuenta que este servicio trabaja, en ciertas partes del

territorio, contra un grafo de calles y realiza interpolaciones para la obtención de

las coordenadas que, por lo tanto, serán aproximadas. En otras zonas, las

coordenadas que obtenemos son más exactas, es decir devuelve las coordenadas

asignadas a un portal. En cualquier caso, el servicio devuelve para los portales

geocodificados un indicador de exactitud (portal, portal interpolado, etc.).

También es necesario mencionar que el resultado de la geocodificación

depende, obviamente, de los parámetros de entrada y que en casos de direcciones

mal formadas o incorrectas el servicio no devolverá, naturalmente, unas

coordenadas.

Desde Idescat se realizaron los desarrollos de software para integrar este

servicio y realizar altas de las coordenadas obtenidas en las bases de datos

espaciales.

N: 1 N: 1

1: N N: 1

1: N

1: N

1: N

Personas

Hogares Portales

Municipio Distrito

Sección Vías

El nivel de geocodficación obtenido, para la información a 1 de enero de

2013, fue del 92,36% y para la correspondiente a 1 de enero de 2014 del 93,22%.

No obstante, la distribución en el territorio de los portales no geocodificados

no es uniforme. Así, para la información del 2013, los percentiles de casos

geocodificados, agrupados por municipios pueden observarse en la tabla 1.

Tabla 1: Distribución de casos geocodificados agrupados por municipios

Percentil % casos geocodificados

100 100

75 94,94

Mediana 89,01

25 76,99

Los casos de municipios con bajos porcentajes se corresponden a aquellos

de tipo rural, dándose la circunstancia (para 2013) de que en 27 de ellos el proceso

de geocodificación no devolvió ningún punto. Los portales no geocodificados fueron

imputados con diferentes técnicas que describiremos más adelante.

Por otro lado, como parte de los trabajos del Censo de población y viviendas

del año 2011 el INE realizó el Censo de edificios. La principal novedad de este

censo es que se recogieron por primera vez las coordenadas de las aproximaciones

postales de los edificios en aquellas secciones censales en donde se efectuó

recorrido. En el resto de secciones se utilizó la información del Catastro para

obtener estas coordenadas.

Idescat ha utilizado la información provisional de las aproximaciones

postales de esta fuente, para un cierto número de municipios, con el fin de

comparar los resultados obtenidos con el geocodificador del ICGC y validar sus

resultados.

Para el conjunto de portales comunes en las dos fuentes se creó una capa

con un segmento definido por las dos posiciones, la obtenida mediante el

geocodificador del ICGC y las posiciones del Censo de edificios, tal como puede

observarse en la figura 1.

Figura 1: Comparación de los resultados del geocodificador del ICGC y del Censo de edificios 2011

en una zona Vilanova i la Geltrú. Los segmentos unen los puntos correspondientes a las dos fuentes.

Del análisis de la distribución de distancias se deduce que los resultados del

geocodificador del ICGC son muy parecidos a los del Censo de edificios y de hecho

el valor medio de las distancias parece consistente con el hecho de que el

geocodificador del ICGC utiliza un grafo de calles e interpolación para la obtención

de las posiciones, para los municipios analizados. En la tabla 2 puede observarse la

distribución de distancias ICGC-Censo de edificios 2011 para el municipio de

Vilanova i la Geltrú (08307). Que un 75% de la distribución tenga un valor inferior

a los 16 m indica la alta calidad de los resultados obtenidos con el geocodificador

del ICGC. Existen, ciertamente, valores atípicos, aunque son muy poco frecuentes.

Tabla 2: Distribución de distancias entre los puntos obtenidos por el

geocodificador ICGC y el Censo de edificios 2011. Vilanova i la Geltrú.

Percentil Distancia (m.)

Mínimo 0,078

25 6,482

50 10,447

75 16,063

Máximo 1992,496

Media 15,036

Por último resaltar que esta validación no se pudo realizar para el conjunto

de portales de Catalunya debido a que la información completa del Censo de

edificios 2011 no estaba disponible en ese momento.

IMPUTACIÓN DE COORDENADAS.

Para la población del Registro a 1 de enero de 2013 el porcentaje de

portales efectivamente geocodificados asciende a un 92,36% (un 94,85% a nivel

de personas). Queda pues un relativo pequeño número de portales cuya posición

no ha podido obtenerse con el servicio de geocodificación del ICGC. Para la

información correspondiente a 2014 el porcentaje asciende al 93,22%.

A priori, para estos casos, conocemos a qué sección censal pertenecen ya

que es una información que originalmente forma parte del Registro de población.

Podríamos asignar una posición, típicamente el centroide, de esa sección censal,

pero teniendo en cuenta que las secciones censales son divisiones administrativas

que se definen precisamente por la población que incluyen, en zonas de alta

densidad de población el error cometido seria pequeño pero, por el contrario, muy

alto en zonas de baja densidad de población. Precisamente en las zonas de baja

densidad los porcentajes de portales geocodificados son más bajos. Así pues es

necesario proceder a la imputación de las posiciones utilizando métodos más

refinados.

Debido a que en el transcurso de los trabajos de geocodificación los datos

disponibles que hacen posible la imputación de coordenadas han ido variando, los

métodos utilizados para los años 2012 y 2013 difieren notablemente de los

utilizados para el 2014. Fundamentalmente la diferencia estriba en que para el

2014 disponemos de la información correspondiente al archivo CAT del Catastro y

en años anteriores no y que para el 2014 no disponemos del seccionado

suficientemente actualizado. A continuación describiremos los métodos de

imputación utilizados para el 2012 y 2013, por un lado, y para el 2014 por otro.

IMPUTACIÓN. AÑOS 2012 y 2013.

Como quiera que la información original está georeferenciada a nivel de

sección censal es necesario realizar la imputación de coordenadas sección a sección

de tal forma que el valor imputado sea un punto (x,y) de su sección. Por otro lado,

la posición, como tal, es una variable continua cuyos valores posibles dependerán

de la forma de la sección censal.

Para simplificar el problema podemos definir un grid de lado n metros

asociado al bounding box y calcular posteriormente la intersección con el contorno

de la sección censal. En la figura 2 puede observarse el grid y la intersección para

una sección censal (02003) del municipio de Roses (17152).

Figura 2: El grid y su intersección con la sección censal 02003 de Roses.

Así pues, podemos simplificar el problema de la imputación considerando

que las posibles posiciones a imputar son los centroides de los elementos

resultantes de la intersección del grid y la sección censal. De esta forma, la

imputación lo es de una variable discreta: sólo es necesario asignar un elemento

del grid para obtener una posición, su centroide o más exactamente un punto

dentro del elemento.

El problema, una vez simplificado, se reduce a establecer cómo se realiza

esa asignación, que en todo caso debería realizarse con criterios probabilísticos. En

efecto, suponiendo que los valores missing se repartieran uniformemente en el

territorio, deberíamos asignar a cada elemento del grid una probabilidad de ser

escogido igual la superficie relativa de ese elemento:

P(k) ~ s(k) [1]

siendo s la superficie relativa del elemento k del grid

El segmento [0,1] (véase figura 3), cuya longitud representa un suceso

cierto, quedaría pues dividido en tantas partes como elementos del grid con

longitudes iguales a su superficie relativa.

Desde el punto de vista algorítmico, la asignación de unas coordenadas

pasaría por la obtención de un numero aleatorio dentro del intervalo [0,1], la

búsqueda de a qué elemento del grid le corresponde ese valor en la tabla de

superficies relativas acumuladas y la asignación final de un punto de ese elemento.

Figura 3: Mediante la construcción de un grid la asignación aleatoria de coordenadas puede simplificarse

utilizando el centroide de los elementos del grid. Queda estimar la probabilidad asociada a cada

elemento que, a falta de más información, seria función de su superficie relativa.

Otra hipótesis plausible es que el no consta se reparte en las zonas en que

sí existen puntos geocodificados y de forma proporcional al número de portales

geocodificados. Esta hipótesis suele asumirse frecuentemente en ciertos métodos

de imputación, como por ejemplo en los métodos hot deck, en los que los valores a

imputar se toman aleatoriamente del subconjunto de datos no missing. En esta

hipótesis, las probabilidades estimadas para los elementos del grid serían (véase

figura 4):

P(k) ~ f(k) [2]

siendo f la frecuencia relativa de portales geocodificados en el elemento k del

grid.

Figura 4: Podría estimarse la probabilidad mediante la frecuencia relativa de los portales geocodificados.

En esta imagen puede observarse la distribución de casos geocodificados para el municipio de Roses.

No obstante hay que tener en cuenta que pueden haber secciones con un

nivel de portales geocodificados relativamente bajo. En estos casos la hipótesis

anterior pierde fuerza, llegando incluso al caso extremo en que no exista ningún

portal geocodificado.

Por lo tanto es necesario establecer un límite a partir de cual asumiremos la

hipótesis anteriormente mencionada y aplicaremos la ecuación 2 para estimar las

probabilidades. Este límite lo hemos fijado en un 70%, es decir, en secciones con

un nivel de geocodificados igual o superior al 70% estimamos la probabilidad

mediante las frecuencias relativas de geocodificados en los elementos del grid. Este

método de imputación lo denominaremos método A.

En el caso que el límite del 70% no se alcance necesitamos otra solución al

problema. Esta solución no pasa directamente por estimar la probabilidad mediante

la superficie relativa de cada elemento del grid, ya que sabemos, a priori, que

existen zonas en las que esta probabilidad es cero: zonas boscosas, zonas de

cultivo, etc.

Es necesario delimitar el territorio en donde es posible que exista un portal

y donde no. Por suerte el SIGPAC (3) describe las zonas urbanas, de tal forma que

si en vez de trabajar con el grid trabajamos con la intersección del grid y las zonas

urbanas del SIGPAC, eliminamos todos aquellos elementos del grid con

probabilidad cero.

En la figura 5 puede observarse que la distribución de portales geocodificados

están situados precisamente en las zonas urbanas delimitadas en el SIGPAC.

Figura 5: Los elementos del grid con frecuencias no nulas coinciden con la información obtenida del

SIGPAC para zonas urbanas

Podemos fijar nuestra atención en un caso extremo: un municipio en donde

no se ha geocodificado ningún portal, como por ejemplo Bellprat (08021). Para

este municipio, que es de sección única, operaremos como hasta ahora:

calculamos un grid de un cierto tamaño asociado a su bounding box, obtenemos la

intersección con la sección censal y, como novedad, calculamos la intersección con

la información del SIGPAC correspondiente a las zonas urbanas (figura 6).

Figura 6: Bellprat (08021), su zona urbana y la intersección con el grid.

Ahora podríamos estimar la probabilidad utilizando el criterio de la superficie

relativa aplicada al resultado de esas intersecciones. No obstante el criterio de la

superficie no parece suficientemente bueno ya que tiene implícita la suposición de

que la densidad de población es uniforme en el territorio.

Con la finalidad de mejorar los criterios de estimación de probabilidades

hemos utilizado imágenes satélites nocturnas obtenidas por la NOAA (4).

Estas imágenes contienen los valores de luminosidad con un tamaño de

pixel que se corresponde a un área de 900 m x 900 m, aproximadamente. La capa

raster se ha convertido a una capa de puntos con los valores de la luminosidad

(figura 7).

Figura 7: Mediante fotografías satélite nocturnas puede obtenerse una capa de puntos con la

luminosidad asociada

Con todo esto podemos estimar la probabilidad como:

P(k) ~ L(k)*S(k)/∑L(k)*S(k) [4]

donde S(k) es la superficie y L(k) la luminosidad del elemento k del grid, calculada

mediante la media móvil de n valores de luminosidad situados a una cierta

distancia (figura 8).

Figura 8: La probabilidad puede estimarse mediante el producto de la superficie relativa de la

intersección grid-SIGPAC (rojo) y la luminosidad en el centroide del elemento calculada mediante la

media móvil de los puntos de la capa de luminosidad a una cierta distancia.

Este método de imputación, que denominaremos B, se ha aplicado a todas

aquellas secciones censales con un porcentaje de portales geocodificados inferior al

70%.

Por último es necesario comentar que la disponibilidad de la geometría

asociada a las secciones censales está condicionada por sus frecuentes

modificaciones.

Así, en el momento en que se realizaron los tratamientos de la población a

1 de enero de 2012, Idescat disponía de la geometría de las secciones censales del

año 2010. Para el tratamiento de la población a 1 de enero de 2013 disponía de la

geometría de las secciones censales del año 2011 y, por lo tanto, la imputación

que hemos descrito (tanto A como B) se realizó para aquellas secciones que

permanecieron inalteradas. Para el resto se realizó la imputación a algún punto de

la capa SIGPAC o al centroide del municipio. La siguiente tabla indica el número de

portales y personas según los métodos utilizados para la obtención de coordenadas

para el caso de la población a 1 de enero de 2013.

Tabla 3: Resumen del proceso de geocodificación e imputación (año 2013).

Calidad/Tratamiento Portales % Personas %

1/ Geocodificados ICC 914.316 92,36 7.196.043 94,86

2/ Imputados método A 59.538 6,01 327.156 4,31

3/ Imputados método B 15.105 1,53 48.777 0,64

4/ Imputados zona urbana SIGPAC 731 0,07 13.214 0,17

5/ Imputados centroide municipio 310 0,03 1.701 0,02

Total 990.000 100 7.586.891 100

IMPUTACIÓN. AÑO 2014.

Para el tratamiento de la información a 1 de enero de 2014 no disponíamos

de un seccionado lo suficientemente actualizado (último disponible del 2011) y, por

el contrario, sí disponíamos de la información correspondiente al archivo CAT del

Catastro.

El archivo CAT del catastro contiene información alfanumérica de las

parcelas, construcciones y bienes inmuebles. En el caso de las parcelas también

contiene las coordenadas de los centroides y, en teoría, esta información sería

suficiente para georeferenciar los microdatos del Registro de Población.

También podría utilizarse para imputar las posiciones no geocodificadas por el

servicio del ICGC, como ha sido el caso.

Existe, no obstante una dificultad difícil de superar: Catastro utiliza un

conjunto de códigos de vías propio, diferente al que se utiliza en el Registro de

Población. Esta circunstancia obligaría a realizar búsquedas en el archivo CAT a

través del literal de la dirección, y como puede suponerse, los resultados serían

generalmente pobres.

Nos vemos, pues, abocados a realizar búsquedas difusas entre las dos

tablas de literales de direcciones utilizando para ello una métrica determinada. De

las descritas en la bibliografía, hemos evaluado las métricas de Levenshtein y la de

Jaro-Winkler (5), obteniendo el siguiente gráfico (figura 9) que muestra el número

de combinaciones entre literales según valores umbrales de similitud.

Figura 9: Número de combinaciones vía DGC-INE que superan el umbral de similitud según la distancias

de Levenshtein y de Jaro-Winkler.

Como puede deducirse del gráfico, deberíamos aceptar valores de alrededor

de 60 para la distancia de Levenshtein y de 87 para Jaro-Winkler para poder incluir

todas las vías INE en una supuesta tabla de correspondencias vías INE-DGC. El

caso es que deberíamos aceptar un cierto umbral y, naturalmente, corremos el

riesgo de que en esa tabla aparezcan falsos positivos y, fuera de ella, falsos

negativos. Sólo el 51% de los literales de las vías INE tienen una similitud del

100% con alguna de la DGC.

10000

100000

1000000

10000000

100000000

0 10 20 30 40 50 60 70 80 90 100

Jaro Winkler

Levenshtein

N vias Ine

N vias DGC

Por otro lado, asignando a cada portal geocodificado su parcela más cercana

podemos calcular la frecuencia relativa de los pares vía INE- vía DGC, para todos

los puntos y todas las vías (figura 10).

Figura 10: Frecuencia relativa (p) de pares vía INE-DGC entre puntos geocodificados (rojo) y parcelas

más cercanas (negro) para ciertas vías de Castelldefels (08056).

La combinación de estos dos criterios, la similitud de los literales basada en

una cierta métrica y las frecuencias relativas de pares de códigos INE-DGC para los

portales geocodificado-finca más cercana, permiten construir una tabla de

correspondencias con menos riesgos de falsos negativos. El cálculo de las

frecuencias relativas (p) bajo criterios cartográficos sólo se ha realizado para

aquellos portales para los que el geocodificador del ICGC ha dado los resultados

más precisos (a nivel de portal o portal interpolado), calculando al mismo tiempo la

similitud Jaro-Winkler. Para el resto de pares vía INE-DGC se ha calculado la

similitud Jaro-Winkler. Finalmente se ha construido una tabla de correspondencias

que incluye los pares vías INE-DGC que hemos consideramos más probables y que

cubre el 76% de las vías INE. El diagrama de dispersión de los dos parámetros utilizados,

p y la similitud Jaro-Winkler puede observarse en la figura 11.

Figura 11: Diagrama de dispersión similitud Jaro-Winkler frente a p, para los pares incluidos en la tabla

de correspondencias vías INE-DGC.

En las coordenadas [1,0] del diagrama existen unos 300 puntos que serian

falsos negativos si sólo se hubiera utilizado el criterio de similitud entre literales. Es

el caso del par AV TRECENTS-VINT (INE) - AV 320 (DGC), un claro ejemplo de falso

negativo utilizando sólo la similitud de Jaro-Winkler o la de Lenvenshtein.

Con todo esto, el tratamiento de un portal no geocodificado dependerá de si:

su vía existe en la tabla de correspondencias y existe una parcela con

numeración idéntica

su vía existe en la tabla de correspondencias pero no existe una parcela con

numeración idéntica

su vía no existe en la tabla de correspondencias

0

10

20

30

40

50

60

70

80

90

100

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Sim

ilitu

d J

aro

-Win

kle

r

p

En los dos últimos casos la imputación debería tener en cuenta la

información inicial de la sección censal asignada pero, como ya se ha mencionado,

no disponemos de la cartografía del seccionado para el año 2014, siendo el último

disponible el correspondiente al año 2011.

Para dar una solución a esta falta de información podemos realizar un

convex hull de todos los puntos geocodificados de una misma sección censal. En

efecto, el convex hull de una serie de puntos da como resultado el polígono mínimo

que los incluye a todos. Si el nivel de geocodificación es alto el convex debería

reproducir con bastante precisión el área habitable de una sección censal en

particular. Esta operación sería sólo necesaria para aquellos municipios con más de

una sección censal ya que para el resto disponemos de los límites municipales

actualizados.

El cálculo del convex, para una zona del municipio de Barcelona da el

sorprendente resultado que puede observarse en la figura 12:

Figura 12: Detalle del resultado del cálculo del convex hull sección a sección.

Es obvio que existen errores en la sección censal asignada en los microdatos

originales y que el resultado del convex, como tal, no puede utilizarse directamente

ya que corremos el riesgo de imputar posiciones fuera de la sección censal original.

Estos portales, con sección censal mal asignada, son outliers en la distribución de

las medias de las distancias al resto de portales de la sección:

[k]= d[k,j]/n [5]

Obteniendo el z-score de esta medida y despreciando aquellos puntos que

tienen un valor superior a un cierto umbral para la construcción del convex pueden

obtenerse unos polígonos que se aproximan mejor a las secciones censales, tal

como puede observarse en la figura 13:

Figura 13: Convex construido con puntos cuyo z-score <=0,90.

Recordamos aquí que el objetivo de la construcción de estas zonas es el de

delimitar el espacio para la imputación y no la búsqueda de valores mal asignados

de la sección censal. También es importante resaltar que a medida que el umbral

de z-score disminuye perdemos espacio asignable, pero esta aproximación se ha

realizado en municipios con más de una sección censal, en donde, normalmente, el

nivel de geocodificación es bastante alto. Los casos más problemáticos se

corresponderían a zonas rurales, normalmente a municipios de sección única, en

donde no es necesario calcular el convex ya que para ellos disponemos de los

límites municipales.

En todo caso, como en los métodos de imputación utilizados en los años

2012 y 2013, también es necesario delimitar aun más la zona de imputación

mediante intersecciones con la información de las zonas urbanas del SIGPAC. En la

figura 14 puede observarse un buen ejemplo: un convex que contiene dos clusters

de puntos con una zona no habitada entre ellos.

Figura 14: Convex correspondientes a la secciones 01001 y 01002 de Sant Jaume d’Enveja (43902)

(verde claro) y la intersección con la zona urbana SIGPAC (verde oscuro).

Así pues, no todos los puntos de la sección censal se utilizan para la

construcción del convex, sino sólo aquellos con un z-score inferior o igual a 0,9. Es,

desde luego una simplificación, pero recordemos que la finalidad es llegar a

construir unas zonas de imputación que aseguren la coherencia con la sección

censal originalmente asignada.

La intersección con las zonas urbanas del SIGPAC permiten afinar aún más

las zonas de imputación, limitando el conjunto de coordenadas imputables a los

centroides de las parcelas situadas dentro de ellas. Para municipios de sección

censal única la zona de imputación se construye mediante la intersección de los

límites municipales y las zonas urbanas SIGPAC.

En síntesis, la información de que disponemos para la imputación del año

2014 es por un lado, las zonas sobre las que imputar, los centroides de las parcelas

que aparecen en el archivo CAT de la DGC y la tabla de correspondencias

construida mediante la métrica Jaro-Winkler y las frecuencias relativas de los pares

vía INE-vía DGC para los pares portal geocodificado-parcela más cercana.

Con esto, el esquema general que hemos seguido para la imputación es:

existe su vía en la tabla de correspondencias INE-DGC

existe una finca con idéntica numeración

asignación directa

no existe una finca con idéntica numeración de imputación

finca con numeración cercana dentro de la zona de imputación

finca con numeración cercana sin restricción espacial

no existe su vía en la tabla de correspondencias INE-DGC

aleatoriamente a una finca dentro de zona de imputación

portal no geocodificado

0

-1

-2

-3

-4

Para cada tipo de asignación hemos definido un indicador de calidad (los

números que aparecen en el esquema) que se almacena junto con las coordenadas

en la base de datos espacial. Este indicador varia de 0, caso en el que las

coordenadas se han imputado a una finca cuya vía aparece en la tabla de

correspondencias con numeración idéntica, a los valores -3 y -4 que se

corresponden a posiciones imputadas aleatoriamente de los centroides de las fincas

situadas dentro de la zona de imputación (convex zona urbana SIGPAC o límites

municipales zona urbana SIGPAC, según los casos). Una vez realizada la

imputación, se almacena también la referencia catastral de la finca seleccionada y

esta ya no se tiene en cuenta en posteriores ciclos del proceso.

En cuanto al penúltimo modo de imputación (valor -3), no parece razonable

que en una finca con muchos inmuebles sea imputado a un portal del registro de

población con un solo hogar. Y tampoco lo es que sean imputadas las coordenadas

de una finca con un cierto número de inmuebles a un portal con un número de

hogares superior. Así pues, hemos estimado la probabilidad en base a la relación

entre el número de hogares del portal a imputar y el número de bienes inmuebles

destinados a vivienda de las fincas situadas dentro de la zona de imputación. Los

pares de puntos que utilizábamos para construir la tabla de correspondencias de

vías INE-DGC se han utilizado, también, para obtener las frecuencias relativas de

nº de hogares vs nº de inmuebles destinados a vivienda y poder estimar así la

probabilidad de que un portal no geocodificado se corresponda a una finca (véase

fig. 15). Aquí está implícita la suposición de que para este subconjunto la finca más

cercana se corresponde efectivamente al portal asociado.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Figura 15. Frecuencia relativa de nº hogares frente a nº bienes

inmuebles destinados a vivienda para los pares portales-fincas mas cercanas

1 hogar

2 hogares

3 hogares

4 hogares

5 hogares

6 hogares

7 hogares

El último caso (valor de calidad -4) se corresponde a una imputación

aleatoria del subconjunto de fincas con probabilidades iguales y se ha aplicado en

aquellos pocos casos en que no se han cumplido ninguna de las condiciones

anteriores.

El proceso de imputación arroja para el año 2014 los resultados resumidos

en la tabla 4.

Tabla 4: Resumen del proceso de geocodificación e imputación (año 2014).

Tratamiento % sobre el total de portales

geocodificados 93.22

0 2.14

-1 0.22

-2 1.13

-3 2.98

-4 0.31

Por último, podemos calcular un valor medio con los indicadores de

exactitud devueltos por el servicio de geocodificación del ICGC (valores que van de

1 a 4) y los indicadores de calidad en la imputación (0 a -4), obteniendo para los

municipios de Catalunya la siguiente imagen (figura 16):

Figura 16: Calidad global del producto de geocodificación e imputación del Registro de población 2014.

Zonas más oscuras se corresponden a zonas con peor calidad.

Como puede observarse la calidad es más baja en zonas rurales. Destacan

los casos de ciertos municipios en el que el 100% de los portales han sido

imputados, como Estamariu (25088). Para este municipio el número de vías según

la DGC es de 7, mientras que según el Registro de Población es de 43. En este

caso, mientras la información de direcciones del Catastro se refiere a calles (por

ejemplo CL Major), la del Registro de población se refiere a nombres de casas (por

ejemplo Cal Grau). El autor de la presente comunicación imagina que cuando las

personas de este municipio se dieron de alta en el padrón, la dirección en la que

fueron inscritos ya era conocida por el funcionario del ayuntamiento y no como una

calle y un número sino como un mote que se da a las familias.

RESULTADOS. CASOS DE USO.

El esquema entidad relación del registro de población, para cualquiera de los

años tratados, es después de los procesos de geocodificación e imputación:

Como puede observarse, a cada portal del registro de población se ha

asignado unas coordenadas, una fuente y un indicador de calidad. De esta forma,

los usuarios finales de esta información pueden escoger el nivel de calidad de los

datos e incluir en sus cálculos aquellos que consideren más fiables.

Asignar unas coordenadas a un portal y por consiguiente asignarlas al lugar

de residencia permite evaluar la población dentro de cualquier área de interés. Un

caso paradigmático lo encontramos en los trabajos de planificación que debe

realizar Protección Civil:

planes por riesgo de inundación (INUNCAT),

transporte de materias peligrosas (TRANSCAT)

planes de emergencia exterior del sector químico en Catalunya (PLASEQCAT).

N: 1

N: 1 1: N

N: 1

1: N

N: 1

N: 1

1: N

1: N

1: N

Personas

Hogares Portales

Municipio Distrito

Sección Vías

Posición

Fuente

Calidad

En todos estos casos, con una metodología concreta para la realización de

cada plan, se deben evaluar poblaciones en zonas de riesgo. En la figura 17, a

modo de ejemplo, puede observarse la población georeferenciada 2013 (capa en

rojo) y las zonas de inundación correspondiente a las desembocaduras de los rios

Llobregat y Besós (capa azul). La intersección de la dos capas permite evaluar con

precisión la población por edades dentro de la zona de riesgo, tal como es necesario

según la metodología que Protección Civil aplica en este plan.

Figura 17: Detalle de las zonas de desembocadura de los ríos Llobregat y Besós.

Otro caso típico consiste en evaluar las zonas de influencia de ciertas

infraestructuras y el cálculo de a cuanta población, de un determinado tipo,

incluyen.

A modo de ejemplo, en la figura 18, pueden observarse las posiciones de

ciertos colegios de Vilanova y la Geltrú (puntos azules), la población (puntos

negros) y las zonas de influencia (polígonos de Voronoi).

Figura 18: El cálculo de los polígonos de Voronoi permitiría evaluar la población afectada

CONCLUSIONES.

La georreferenciación de los microdatos en los diferentes registros

estadísticos de población permite su evaluación precisa en zonas de interés y, por

lo tanto, la toma de decisiones por parte de la administración. El servicio de

geocodificación del ICGC, junto con técnicas de imputación permiten en este

momento la obtención de esta valiosa información. En un futuro no muy lejano,

iniciativas como la base de datos de direcciones de Catalunya (BDMAC) (6) o el

modelo de direcciones de la administración general del estado permitirán la

validación y georeferenciación sistemática de los microdatos del sistema estadístico

basado en registros administrativos.

REFERENCIAS.

Anders Wallgren, Britt Wallgren. Estadísticas basadas en registros. INEGI.

Servei web de geocodificació de l’Institut Cartogràfic i Geològic de Catalunya.

http://www.gencat.cat/ptop/butlleti_innovacio/01/ICC_01.pdf.

SIGPAC. Generalitat de Catalunya. http://www.gencat.cat

NOAA. http://ngdc.noaa.gov/eog/dmsp/downloadV4composites.html

Winkler, W. E. (2006). "Overview of Record Linkage and Current Research

Directions". Research Report Series, RRS.

Especificacions tècniques de la Base de dades municipal d'adreces de Catalunya

v1.0.

http://www.gencat.cat/ptop/butlleti_innovacio/01/ICC_01.pdf

http://www.gencat.cat/

http://ngdc.noaa.gov/eog/dmsp/downloadV4composites.html

http://www.census.gov/srd/papers/pdf/rrs2006-02.pdf

http://www.census.gov/srd/papers/pdf/rrs2006-02.pdf

http://www.cccartografica.cat/catl/content/download/56140/392500/file/bdmacv10esp_01ca.pdf

http://www.cccartografica.cat/catl/content/download/56140/392500/file/bdmacv10esp_01ca.pdf

la georeferenciaciÓn de la poblaciÓn de … · el icgc dispone de un servicio web (2), publicado...

Documents