curso de verano "datos y gobierno abierto" david cabo
DESCRIPTION
Ponencia de David Cabo dentro del curso de verano "Datos y gobierno Abierto" organizado por la iniciativa Aragón Open Data de la Dirección General de Nuevas Tecnologías del Gobierno de Aragón. La ponencia se celebró dentro de los cursos de verano de la Universidad de Zaragoza, en Jaca, del 10 al 12 de Julio de 2013 y se titula "Reutilización de datos abiertos y no tan abiertos"TRANSCRIPT
...Preparación de datos para su análisis
David Cabo @dcabo
CC BY-NC-SA
Open data / datos abiertos
- disponible online, gratuita - procesable por ordenadores- licencia abierta, reutilizable
http://datos.fundacionctic.org/sandbox/catalog/faceted/
Generadoelectrónicamente
(buscable)
Imagenescaneada
Tablas Formato complejo
Generadoelectrónicamente
(buscable)
Imagenescaneada
Formato complejoTablas
Tablas
1. Copiar y pegar a Excel no funciona bien
2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro...
3. Servicios web gratuitos:
• cometdocs.com
• pdftoexcelonline.com
• zamzar.com
Tablas
Generadoelectrónicamente
(buscable)
Imagenescaneada
Formato complejo
Formatos complejos
• Columnas, datos partidos en varias lineas, datos intercalados entre el texto...
• Las herramientas automáticas no suelen ser capaces de extraer la información
• Es necesario:
• extraer el texto del PDF (xpdf / poppler)
• y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)
Tablas
Generadoelectrónicamente
(buscable)
Formato complejo
Imagenescaneada
Imágenes
• El texto original no está disponible: no podemos buscar en él, ni copiarlo
• Software para reconocer carácteres (OCR)
• La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra)
• Bastante trabajo:
• Hay que revisar el resultado
• Difícil de automatizar para muchos ficheros
OCROpen Source
• Tesseract + OCROpus
• Usado por Google
• No es fácil de instalar y utilizar
Comerciales
• AbbyyReader
• Adobe Acrobat Pro
• Solid
• Google Docs (gratis)
https://addons.mozilla.org/en-US/firefox/addon/dafizilla-table2clipboard/
https://support.google.com/docs/bin/answer.py?hl=en&answer=155182
https://scraperwiki.com/
http://open.dapper.net/
https://ws037.juntadeandalucia.es/riibp/inicio.do
http://trabajanparati.es
http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data
Ruby, Google Refine, Firebug, Nokogiri, Tesseract
¿Preguntas?
David Cabo (@dcabo)