andrea borruso & gabriele gattiglia - reperire, scaricare, pulire i dati

56
Andrea Borruso – Gabriele Gattiglia Reperire, scaricare e pulire i dati

Upload: openpompei

Post on 09-Aug-2015

62 views

Category:

Government & Nonprofit


0 download

TRANSCRIPT

Page 1: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Andrea Borruso – Gabriele Gattiglia Reperire, scaricare e pulire i dati

Page 2: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Premessa Talking and making / learning by doing Approccio hacker «Hack ha solo un significato: quello estremamente sottile e profondo di qualcosa che rifiuta ulteriori spiegazioni» Phil Agre Da cui discende che un hacker è colui che affronta sfide intellettuali per aggirare o superare creativamente le limitazioni senza manuale di istruzioni. L’hacker non è un pirata informatico quello è un cracker!

Page 3: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati
Page 4: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Siamo alla MODA?

Page 5: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

www.modarc.org @Manifesto_MODA MODA

Page 6: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

ATTENZIONE! E’ importante – e fondamentale – non confondere il termine open data con quello open access. Con open access ci riferiamo per lo più a testi – articoli, libri, relazioni, tesi di laurea, ecc… -, liberamente consultabili e spesso scaricabili in rete. In ambito archeologico si possono definire ad accesso aperto anche i webGIS, quando sono usati per la sola visualizzazione geografica del dato archeologico, che però non ne permettono lo scaricamento e il riuso.

Page 7: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

PRIMARI: cioè grezzi (raw), in modo da poter essere integrati e aggregati con altri dati e contenuti, in formato digitale.

TEMPESTIVI: gli utenti devono essere messi in condizione di accedere velocemente alle informazioni e utilizzare i dati presenti sul web in modo rapido e immediato, massimizzando il valore e l’utilità derivanti dall’accesso e dall’uso di queste risorse.

RICERCABILI: è necessario assicurare agli utenti l’opportunità di ricercare con facilità e immediatezza i dati, mediante strumenti di ricerca ad hoc. (IMPORTANTE!!! I Dati devono poter essere usati)

PERMANENTI: le peculiarità descritte devono caratterizzare i dati nel corso del loro intero ciclo di vita sul web.

I DATI APERTI devono essere:

NON PROPRIETARI

Liberi di essere UTILIZZATI

Liberi di essere RIUTILIZZATI

Liberi di essere RIDISTRIBUITI per qualunque scopo

Quindi

Page 8: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Accesso

L’opera deve essere disponibile nella sua interezza ed a un costo di riproduzione ragionevole, preferibilmente tramite il download gratuito via Internet

I dati devono essere completi: esportabili, utilizzabili online e offline, integrabili e aggregabili con altre risorse, diffondibili via web e riportare le specifiche adottate per la loro realizzazione

I dati devono essere accessibili a tutti senza alcuna sottoscrizione di contratto, pagamento, registrazione o richiesta ufficiale; devono essere trasmissibili e interscambiabili tra tutti gli utenti direttamente via web

Page 9: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Assenza di restrizioni tecnologiche

L’opera deve essere fornita in un formato che non ponga ostacoli tecnologici al riuso.

Dati machine-readable

Gli utenti devono poter utilizzare e processare i dati attraverso programmi, applicazioni e interfacce non proprietarie e aperte.

I dati devono essere pubblicati e riutilizzabili in formati semplici e generalmente supportati dai programmi più usati dalla collettività digitalizzata

Page 10: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Ridistribuzione: licenza

La licenza non deve imporre alcuna limitazione alla vendita o all’offerta gratuita dell’opera singolarmente considerata o come parte di un pacchetto composto da opere provenienti da fonti diverse.

La licenza non deve richiedere alcuna “royalty” o altra forma di pagamento per tale vendita o distribuzione.

La licenza deve consentire il riutilizzo, la realizzazione cioè di modifiche e di opere derivate e deve consentire la loro distribuzione agli stessi termini dell’opera originaria.

Attribuzione: La licenza può richiedere di citare i vari contributori e creatori dell’opera (BY) come condizione per la ridistribuzione ed il riutilizzo di quest’ultima. Se imposta, questa condizione non deve essere onerosa. Integrità: La licenza può richiedere, di distinguere l’opera derivata dall’opera originaria (originalità del nome).

La licenza non deve contenere nessuna discriminazione di persone , gruppi o settori d’attività

Page 11: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Oggi produciamo miliardi di dati

Questi dati ci appartengono

L’ecologia dei dati

La produzione di dati ha un costo sostenuto dall’intera collettività

I dati sono prodotti a prescindere dal loro riuso

PERCHE’ NON RIUTILIZZARLI?

Page 12: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

I dati grezzi sono il vero unico «codice sorgente» dell’archeologia,

quello che consente di formulare ulteriori ipotesi e ricostruzioni storiche

Doc. grafica

Doc. fotografica

Doc. compilativa

Relazioni

Apparato archeografico

(dataset)

Letteratura grigia

Page 13: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

PERCHE’? ‘Aprire per proteggere’

Archiviazione digitale dei dati

Utilizzo dei dati come materiale di confronto immediatamente fruibile

Pubblicazione di tutti i dati

Riconoscimento del lavoro archeografico anche in termini scientifici e di ‘titoli’

Verifica del processo di indagine NO archeologia dogmatica, ma esplicitazione della componente soggettiva del processo interpretativo

Ri- uso dei dati per creare nuove analisi (scalarità dei dati) e nuove interpretazioni

Ottimizzazione dei costi di gestione/tutela

Conservazione dei dati

Page 14: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

ruolo sociale dell’archeologo

lavoro

ricerca

tutela

trasparenza beni comuni

Big Data

Page 15: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

ma soprattutto di sviluppi inaspettati e imprevedibili………..

Page 16: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

QUALI SONO I PROBLEMI?

• Eterogeneità dei dati: formati proprietari, formati non adatti alla pubblicazione dei dati, documentazione mancante, non omogenea o parziale, vincoli giuridici alla circolazione, protocolli proprietari

• I dati sono difficili da trovare: diverse amministrazioni

pubbliche, diversi siti web, diverse modalità di ricerca, accessibilità ed utilizzo del dato

• Mancanza di standard condivisi nella produzione e

nella diffusione: i dati sono difficili da interpretare. Diverse sono le classificazioni , i vocabolari utilizzati , gli schemi e i modelli per rappresentare il mondo reale

(Dove esistente) diversa modalità di metadazione.

Page 17: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Barriere giuridiche alla pubblicazione e al riuso degli open data: poca chiarezza in campo legislativo (regolamentazioni generali – Codice Amministrazione Digitale – ma difficoltà di applicazione nei settori specifici)

Impreparazione tecnica (carenza formazione) (cosa pubblicare? Come pubblicare? Dove? Cosa farne dei dati open?)

Scelta dei dati (?) Cosa serve pubblicare e cosa no

Diffidenza culturale (siamo ancora nella fase di «sensibilizzazione»)

Difficoltà di comunicazione. Esiste ancora il «preconcetto tecnologico»: gli open data sono qualcosa che serve solo agli informatici. Non vi è migliore forma di comunicazione che la dimostrazione

Page 18: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Ma dove sono i dati degli scavi???

Page 19: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

http://sitar.archeoroma.beniculturali.it/

Page 20: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

http://www.mappaproject.org/webgis

Page 21: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

http://dati.trentino.it/dataset/siti-di-interesse-archeologico-pup-986531

CC0

Page 24: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

http://www.opendatahub.it

Page 27: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Massaciuccoli romana http://www.massaciuccoliromana.it/wordpress/documentazione/

Page 28: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

MOD Mappa Open Data

archaeological archive

Come per la PA, per i beni archeologici non sono ancora stati affrontati centralmente i problemi e le potenzialità reali delle

pubblicazione di dati aperti

Pubblicare l’archeologia italiana in forma di Open Data

http://www.mappaproject.org/mod

Page 29: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

La struttura del MOD

http://mappaproject.arch.unipi.it/mod/Index.php

Modello ripreso dall’Archaeological Data Service (ADS , GB) creato e gestito dall’Università di York

Archivio

Intervento

LETTERATURA GRIGIA DATASET

Relazione

DOI

Schede US Planimetrie

Schede di quantificazione Schede materiali

Matrix Sezioni

….

DOI

Introduzione

Work in progress: - collegamento a MAPPAGIS - nuova strutturazione su base nazionale

Page 30: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Troppe chiacchere…

Page 31: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

per partire…. parliamo di tabelle

Page 32: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

I dati tabellari non sempre sono buoni, anzi il più delle volte sono brutti e cattivi!

Page 34: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

a volte serve la ramazza

Page 35: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

TSV, CSV, *SV, Excel (.xls and .xlsx), JSON, XML, RDF as XML

http://openrefine.org/

Page 36: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

1. Prendiamo i dati MOD

2. Facciamo una ricerca per formati

3. Scarichiamo come .csv

4. Lo importiamo in OpenRefine

5. Lo ripuliamo lavorando coi cluster

6. Lo prepariamo per future visualizzazioni

(grafici)

Page 37: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Reperire, scaricare, ripulire i dati

Ma i dati si possono trovare anche sui siti internet esposti come tabelle…..

…..come li togliamo di lì???

Page 40: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

1. Estraggo i dati dalla tabella

2. Li importo in OpenRefine 3. Modifico il campo

cronologia 4. Esporto come csv

Appuriamolo

NO, no lo è SI, anche se non hanno messo una licenza e potremmo considerare tutto di pubblico dominio, citiamo ugualmente la fonte

Page 41: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

…..la ciliegina sulla torta

Dulcis in fundo

Page 42: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

I più brutti di tutti…..

Page 43: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati
Page 44: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Siccome l’archeologia non è solo scavi e ricerche,

ma è anche appalti e contratti

Page 45: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

E siccome i dati non sono sempre bene ordinati come quelli del portale della Trasparenza… http://open.pompeiisites.org/

Page 46: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

1. Apriamo il portale della

trasparenza

2. Scarichiamo il pdf

3. Estraiamo i dati con tabula

4. Li apriamo in OpenRefine

5. Trasformiamo la data

6. Trasformiamo il campo costi

7. Filtriamo le voci

8. Esportiamo come .csv

Page 47: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Mmmmmmm…..geografia….

Page 48: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

2002, Wheatley and Gillings: «Contrary to popular mythology, contemporary professional archaeologists may spend more time using GIS than a trowel» 2014, CAA Session: Is GIS the new trowel?

Sicuramente il GIS permette di scavare nei dati

Page 49: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati
Page 50: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Geocoding 1. Scarichiamo i dati interventi filtrati da

MAPPAgis 2. Importiamo in OpenRefine 3. Ripuliamo la colonna ubicazioni 4. Applichiamo Fetching URL

"http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url")

5. Trasformiamo in coordinate (lat/long) with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)

6. Dividiamo la colonna (split) 7. Esportiamo in .csv 8. Importiamo .csv in qGIS (layer testo

delimitato) 9. Colleghiamo a WMS regione Toscana

http://www502.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmscastore http://web.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmsctr

10.Usiamo OSM 11.Mappa di Concentrazione / KDE

https://github.com/OpenRefine/OpenRefine/wiki/Geocoding

Page 51: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

OpenStreetMap

«OpenStreetMap è una mappa liberamente modificabile dell'intero pianeta. È fatta da persone come te. OpenStreetMap permette a chiunque sulla Terra di visualizzare, modificare ed utilizzare dati geografici con un approccio collaborativo.» In parole povere una cartografia collaborativa open data

Ma riguarda anche l’archeologia? Incredibile, SI!

Page 52: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party

Nel dicembre 2008 venne fatto un Mapping Party a Pompei, che ha prodotto la migliore cartografia on-line del sito: guardare per credere

OSM Google Map

Page 53: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Diverse rappresentazioni…

…anche 3D

Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party

Page 54: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Molte possibilità di utilizzo dai servizi mobile agli stradari…

Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party

Page 55: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Formati e problemi

http://dati.comune.matera.it/dataset/19luoghidellacultura

.shp VS Geojson

Page 56: Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Buon appetito