captura y visualización de datos abiertos para acciones ciudadanas
DESCRIPTION
periodismo, datos, data, journalism, open data, rdf, linked data, extraction, visualization, visualización, capturaTRANSCRIPT
Captura y visualización de datos abiertos para acciones ciudadanas
Unai [email protected]
@unaguil
I Jornada de Periodismo de Datos y Open DataUniversidad de Deusto, Donostia
24 de mayo de 2013
Periodismo
Recopilar
Sintetizar
Publicar
Información de actualidad
Facilitar acceso al "lector"
"When information was scarce, most of our efforts were devoted to hunting and gathering. Now that information is abundant, processing is more important."
Philip Meyer, Professor Emeritus, University of North Carolina at Chapel Hill
"The unifying goal is a journalistic one: providing information and analysis to help inform us all about important issues of the day."
Aron Pilhofer, New York Times
"It used to be that you would get stories by chatting to people in bars, and it still might be that you’ll do it that way sometimes. But now it’s also going to be about poring over data and equipping yourself with the tools to analyze it and picking out what’s interesting."
Tim Berners-Lee, founder of the World Wide Web
Periodismo de datos
Do not Harm, Las Vegas Sun (2010)http://www.lasvegassun.com/hospital-care/
2,9 millones de facturas analizadas
Detectados 3600 errores prevenibles
Resultado
6 modificaciones ley sanitaria
Iraq War Logs, Associated Presshttp://overview.ap.org/blog/2010/12/a-full-text-visualization-of-the-iraq-war-logs/
11,616 SIGACT informes desde diciembre 2006
Búsqueda de palabras relacionadas
Clusterización
Enfatizar visualmente la estructura
El indultómetro, Fundación Civiohttp://www.elindultometro.es/
Uso y posible abuso de la ley de indulto
Información del BOE desde 1996
Análisis gráfico
Tiempo medio de indulto
Histórico de indultos
Indultos destacados
Fuentes
Procesar
Visualizar
Flujo de trabajoSelecciónFiabilidadPre-proceso
PatronesRelacionesRazonar
ResumirFacilitarAtraer
¿Por dónde empezamos?
Catálogos de datosDatos abiertos
http://datahub.io/
http://opendata.euskadi.net/
http://datacatalogs.org/
Empresas privadas
http://datamarket.com/Datos abiertos y de pago
Búsqueda de datosBuscador
Proceso más costoso
Conjuntos de datos duplicados
Sin catalogar
Origen dudoso
Licencias de uso
desempleo filetype:CSV
Tipo de fichero
desempleo filetype:XLS
desempleo filetype:RDF desempleo filetype:PDF
De personas y máquinasOrientada a personas
Representación visual (HTML + CSS)
Documentos PDF
Difíciles de procesar (PDF Miner)
API web
http://www.justizia.net/
Web scraping
Scripting
Python+Beautiful Soap
Ejemplo
https://github.com/RHoK-Bilbao/desahucios
Machine readable dataListado personas desaparecidas durante la Guerra Civil y el Franquismo (9600 entradas)
Fuente de datos: Justicia y Administración Pública. Gobierno Vasco
http://opendata.euskadi.net/w79-contdata/es/contenidos/ds_general/personas_desaparecidas/es_desapare/personas_desaparecidas.html
Nombre
Vecindad
Lugar muerte
Fecha muerte
Causa
Datos
¿Qué podemos preguntar?
Google Fusion TablesListado personas desaparecidas durante la Guerra Civil y el Franquismo (solo 300 primeras / 9600 entradas)Fuente de datos: Justicia y Administración Pública. Gobierno Vasco
Linked Data
Sir Tim Berners-Lee
LOD - Linked Open Data Cloud
Mecanismos básicos de la web
Aplicados a datos
HTTP -> Enlaces
URIs -> Recursos
RDF -> Estructura
http://5stardata.info/
RDF + Linked Data
http://helheim.deusto.es/bizkaisense
Ontologías+Semantic Sensor Network
Semantic Web for Earth andEnvironmental Terminology
http://ckan.linkeddata.es/dataset/bizkaisense
Publicación Aplicación web
Proyecto Bizkaisense
Procesado de datos
Comparar
Limpieza
ClusterizaciónCurvas de ajuste
¿Qué quieres responder?
Combinar fuentes
¿Qué quieres demostrar?
¿Qué datos tienes?
Data mining
Hadoop
Visualización
Grandes volúmenes de datos
Facilitar comprensión
Interactividad
Razonar
Extraer conclusiones
Representación adecuada
Gráficos de puntos (dispersión)
Distribución de valores 2D
Conocer las ocurrencias
Agrupaciones (clusters)
No representan tendencias
Gráficos de líneas
Relaciones entre valores
Tendencias
Cambios temporales
No representan categorías
Gráficos de barras
Compara categorías
Orden de las barras
Pareto (mayor a menor)
Cronológico
Gráficos circulares
Proporción numérica
Problemas
Comparación áreas
Muchas categorías
Mejor gráficos de barras
Google Charts
https://developers.google.com/chart/
Interactivos
HTML5 + SVG
Javascript
D3.js
http://d3js.org/
Interactivos
HTML5
Javascript
Complementamente Excesivamente configurables
Geolocalización
¡Cuidado con las licencias de uso!
Visualización++
Information is Beautiful
Ideas para visualización
Figuras estáticas
Usar otras aplicaciones
http://www.informationisbeautiful.net/
Proyecto LinkedStats
Mapa de calor (OpenLayers)
Kg residuos/persona
Progresión temporal
Gráficas por municipio (NVD3.JS)
Datos utilizados
ResiduosDiputación de Bizkaia(PDF Scraping)Copy & Paste - ing
PoblaciónINS(Fichero CSV)
http://helheim.deusto.es/linkedstats/
Autor
Jon Lázaro
Conclusiones
Oportunidad de trabajo
Periodistas, ingenieros, diseñadores, ...
Conciencia social
Grupos interdisciplinares
Algunas herramientas
OpenRefine
+
JavaScript
HACKATHON
¿Cómo empezar?
Noticia en
DeustoTech-Internet
Joseba Abaitua@kavango
Unai Aguilera@unaguil
Oscar Peña@Oscar_PDR
Mikel Emaldi@memaldi
Jon Lázaro@jon_lazaro
Diego López de Ipiña@dipina
David Buján@dbujan
http://www.morelab.deusto.es/ @morelab_ud
Linked and Open Data Group
Referencias
European Public Data Show Casehttp://publicdata.eu/
http://datajournalismhandbook.orgData Journalism Handbook
Licencia Creative Commons
Now You See It: Simple Visualization Techniques for Quantitative Analysis
Python Programming Languagehttp://python.org/