l’importanza dei dati in un gis - dic.unipi.it prof... · stime dei costi di acquisizione dei...
TRANSCRIPT
Qualità dei dati - Metadati 1
All’interno di un GIS, i dati sono una risorsa cruciale.
Inoltre bisogna tenere presente che i dati di tipo geografico sonocostosi da
• acquisire• archiviare• manipolareanche perché solitamente occorrono grandi volumi di dati per
risolvere problemi geografici di tipo sostanziale.
L’importanza dei DATI in un GIS
Qualità dei dati - Metadati 2
Stime dei costi di acquisizione dei dati per GIS:• più del doppio del costo di hardware e software,
oppure• 70% del costo totale di implementazione di un intero GIS (altra stima).
L’importanza dei DATI in un GIS
Ciò significa che quando si acquisiscono dati perun GIS è fondamentale verificare che essirispondano ai requisiti richiesti per la base didati che si intende organizzare.
Si deve cioè verificare qual è la qualità dei dati.
Qualità dei dati - Metadati 3
• ACCURATEZZA• PRECISIONE• RISOLUZIONE (spaziale)• SCALA• CONSISTENZA LOGICA• COMPLETEZZA
QUALITA’ DEI DATIParametri usati per valutarla
Lo US Standard for DigitalCartographic Data Quality proponecome categorie soggette a verifica leseguenti:accuratezza delle posizioniaccuratezza degli attributiconsistenza logicacompletezza
DEFINIZIONE DI QUALITA’ DEI DATI:“fitness for use”
idoneità all’uso (previsto dall’utente)
Qualità dei dati - Metadati 4
L’accuratezza (e quindi la conoscenza fornita da una misura) si distingue in:• accuratezza nelle posizioni • accuratezza negli attributi e dipende dalla scala usata per la misura.
ACCURATEZZA
s. nominale e s. ordinale (si trattasolitamente di classificazioni, es. tipi disuolo o di vegetazione): la misuracomporta la definizione di
appartenenza a una categoria (classe)
>>> MATRICE DELL’ERROREDI CLASSIFICAZIONE
E’ la discrepanza fra il valore registrato nella base di dati e il valore ”vero” (perquanto lo si può conoscere) o accettato come tale.
La valutazione dell’accuratezza di una osservazione (misura) può essere fattasolo per confronto con la misura più accurata che sarebbe possibile ottenere.
s. per intervalli o s. per rapporti:le misure sono di tipo numericoe comportano
incertezze numeriche
>>> ERRORIe modellizzazione degli errori
Qualità dei dati - Metadati 5
Gli errori numerici, per dati di tipo numerico (essenzialmente, datidi posizione), sono indicatori dell’accuratezza.
L’errore va visto come un concetto di tipo statistico, il cherichiede che sia nota la natura del procedimento di misura(esperimenti con numerose ripetizioni delle misure).
ESEMPIO: se si sa che il procedimento di misura è tale da dar luogo adosservazioni distribuite secondo una curva normale (gaussiana), il valore piùprobabile è rappresentato dalla media e la dispersione dei dati attorno allamedia è indicata da σ (scarto quadratico medio).
ERRORI nelle posizioniIncertezze numeriche
Qualità dei dati - Metadati 6
Errori negli attributiMATRICE DELL’ERRORE DI CLASSIFICAZIONE
Per i dati di tipo non numerico (di solito, classificazioni) si possonovalutare gli errori tramite la matrice dell’errore di classificazione:si registra il numero di campioni osservati al suolo come appartenentia una certa classe, interpretati come appartenenti a determinate classi.
I campioni interpretati correttamente risultano sulla diagonale dellamatrice.
E’ così possibile valutare:• errore di omissione (percentuale di una certa categoria che non è
stato classificato come tale);• errore di commissione (percentuale che è stata classificata in una
certa categoria, ma in realtà non è stata verificata essere tale).
Qualità dei dati - Metadati 7
Esempio diMATRICE DELL’ERRORE DI CLASSIFICAZIONE
dati interpretati inmodo corretto
totali dei valoriosservati al suolo
valori interpretatinelle diverse classi
Percentuale di terreno erbosointerpretato correttamente:
p = 300/600 = 50%
Qualità dei dati - Metadati 8
E’ il grado di dettaglio con cui si registra un valore(per esempio, se si tratta di dati numerici è il numero di cifre
significative).
PRECISIONE
ATTENZIONE: per quanto riguarda i valori numerici, se si sa cheun certo valore non può essere più accurato di 0.1 mm, non haalcun significato registrare tale valore in mm con più di una cifradecimale.
Qualità dei dati - Metadati 9
Su una carta (leggibile dall’occhio umano) è il minimo spessore diuna linea (raramente inferiore a 0.1 mm).
Su un plotter la risoluzione più fine è determinata teoricamentedalla separazione fra i pixel:
• stampante laser: 0.08 mm;• plotter laser (alta qualità): 0.008 mm (non visibile ad occhio
nudo).
RISOLUZIONE spaziale
Questo parametro indica la più piccola differenza distinguibile fradue valori misurabili.
Qualità dei dati - Metadati 10
Esistono altri due tipi di RISOLUZIONE:• risoluzione temporale• risoluzione tematica
legati al grado di dettaglio temporale e tematico
con cui si registrano i dati.
RISOLUZIONE
Qualità dei dati - Metadati 11
In assenza di altri dati sull’accuratezza, la scala può essere unparametro interessante.
Infatti la scala di una carta contiene implicitamente informazionisulla risoluzione spaziale (precisione) e sull’accuratezza.
SCALA
Scala Risoluzione Accuratezza(precisione)
1:1000000 500 m 1000 m1:500000 250 m 500 m1:250000 125 m 250 m1:100000 50 m 100 m1:50000 25 m 50 m1:10000 5 m 10 m
La linea più sottile che è possibiledisegnare su una carta rappresentaun limite alla risoluzioneraggiungibile a una determinatascala. Alla scala 1:10000 una lineadi spessore 0.5 mm rappresenta 5 mal suolo: nessun oggetto didimensioni inferiori può essereregistrato.
Qualità dei dati - Metadati 12
Inoltre la scala di una carta è legataalle operazioni digeneralizzazione che si devonoeseguire per realizzarla.
SCALA
Concetto di generalizzazioneLe informazioni e la loro
simbolizzazione sono selezionate emodificate in modo da adattarsi allascala prescelta.
Qualità dei dati - Metadati 13
La consistenza logica si riferisce al fatto che non ci sianodati in contraddizione fra di loro.
TEST di consistenza logica:• controllo degli eventuali vincoli matematici o logici
(relazioni matematiche o logiche fra i dati)• test sulla topologia, per individuare ad esempio
– bordi mancanti– poligoni non etichettati
CONSISTENZA LOGICAfra i dati
Qualità dei dati - Metadati 14
E’ un parametro relativo alla mancanza di errori di omissioneall’interno della base di dati, e si riferisce ai criteri usati perselezionare le informazioni da inserire fra i dati.
La valutazione della completezza dei dati si basa su:• verifiche relative all’inclusione fra i dati di oggetti appartenenti
a liste note;• verifiche relative all’inclusione fra i dati di oggetti di
dimensioni (area o spessore) minime.
COMPLETEZZA
Qualità dei dati - Metadati 15
La stima del costo annuale del mantenimento dellaqualità di una base di dati è:
COSTOdel mantenimento della qualità dei dati
neacquisizio costo
tomantenimen costo
C % 10
==
=
a
m
am
C
C
C
ATTENZIONE!
Qualità dei dati - Metadati 16
Evoluzione della qualità dei datiin funzione del TEMPO
nessun tipo di“manutenzione”
“manutenzione”periodica
Qualità dei dati - Metadati 17
Il problema delTRASFERIMENTO DATI
Quando si esegue un trasferimento di dati geografici, vanno rispettatidue requisiti:
1 Occorre formattare i dati in modo standardizzato e riconoscibile
STANDARD di TRASFERIMENTO DATI
2 Occorre fornire informazioni sufficienti perché l’utente possagiudicare se i dati gli sono davvero utili per i suoi scopi e hanno laqualità che li rende tali uso dei METADATI(i metadati sono descritti all’interno dello standard di trasferimento)
Qualità dei dati - Metadati 18
I METADATI
I metadati sono un insieme strutturato di informazioni digitali relativea una determinata base di dati e preparato da chi ha creato la base di dati.
Scopi per cui sono creati i metadati:
• consentire agli utilizzatori della base di dati di valutare l’utilità dell’informazione a disposizione per l’applicazione di loro interesse;
• fornire l’opportuna documentazione nel caso di trasferimento di dati: ineffetti, molti standard di trasferimento per dati spaziali richiedono elementicontenuti nei metadati;
• servire come “documentazione interna” (eventualmente disponibile “online”), per registrare la provenienza e la catena di processamento dei dati.
Qualità dei dati - Metadati 19
Identificazione dei dati Descrizione concisa dell’insieme dei dati
Responsabile dei dati (“contatto”) Chi contattare per ottenere i dati
Condizioni di trasferimento dei dati Come possono essere acquisiti i dati
Stato dei dati Grado di completezza o disponibilità dei dati
Provenienza dei dati Origine dell’insieme di dati
Rappresentazione cartografica usata Sistema di riferimento e sistema di rappresentazione cartografica
Riferimento dei metadati Informazioni specifiche sui metadati
Processamento dei dati Operazioni eseguite sui dati
Qualità dei dati Parametri per la valutazione della qualità dei dati
Lista di elementi e attributi Descrizione esplicita dell’informazione contenuta nei dati
Contenuto informativo dei metadati
Qualità dei dati - Metadati 20
and content for metadata.Identification informationData set identityIdentification codeTheme keywordsUse restrictionsAccess restrictionsSpatial data structureData set description
Bounding coordinatesGeographic keywordsBrowse graphic
Hydrologic unit map, intermediate scaleNot applicableHydrology, basin, hydrologic unit, watershedNone, public domainNoneVectorHydrologic units as defined by the federal government, collected and digitized at1:250,000 scale with 1:100,000 scale insets in several western states. Hydrologicunits have been appended into a single data set that comprises the conterminous 48states, removing map edges in the process. Polygon and boundary attributes arepresent for site analysis and basin boundary symbolization.21.4346, -126.0221 49.23, -67.000 NASConterminous United StatesNone
Contact information
Contenuto informativo dei metadati
Identificazione dei dati
Qualità dei dati - Metadati 21
Contenuto informativo dei metadati
Browse graphicContact informationContact typeContact organizationContact personContact mailing addressContact telephoneContact fax numberContact electronic mailContact instructionsContact liability
CustodianU.S. Geological Survey, Water Resources DivisionMs. Jane Doe444 National Center, Reston, VA 22092(703) 555-1212(703) [email protected] for technical information via e-mail or regular mailData are in public domain. Custodian does not assume any liability.
Transfer informationTransfer formatTransfer modeTransfer sizeTransfer instructions
Fees
DLG-3 OptionalOnline/offline40 MBData are available through WAIS software and anonymous ftp from Internet site130.11.51.171. Tape requests are filled at cost of duplication.Fees range from $50 to $500 depending on tape format and media. Contact fordetailed pricing.
Status informationData set statusRelease dateMaintenance and update frequency
Available19921001As needed
Source information
Responsabile dei dati (“contatto”)Condizioni di trasferimento dei datiStato dei dati
Qualità dei dati - Metadati 22
Contenuto informativo dei metadati
Coordinate system informationHorizontal coord. SystemCoordinate typeCoordinate unitsOrigin latitudeOrigin longitudeLatitude of standard parallel oneLatitude of standard parallel twoFalse eastingFalse northingCentral azimuthCentral scale factorDatum nameEllipsoid nameEllipsoid semimajor axisEllipsoid reciprocal flatteningVertical coord. SystemVertical coordinate typeVertical datum nameVertical datum type
Albers equal-area conicMap projectionMetersNot applicable-96.029.545.5not applicableNot applicableNot applicableNot applicableNorth American Datum 1927Clarke 18666378206.4294.9786982Not applicableNot applicableNot applicableNot applicable
Metadata reference information
Maintenance and update frequency As neededSource informationSource descriptor
Source citation
Source data resolution
Land use and land cover digital data from 1:250,000 and 1:100,000 scale maps –GIRAS series data from USGS National Mapping Division.U.S. Geological Survey, 1990, land use and land cover digital data from 1:250,000and 1:100,000 scale maps, data users guide 4.U.S. Geological Survey, 1982, codes for the identification of hydrologic units in theUnited States and the Caribbean outlying areas: U.S. Geological Survey Circular878-A.10 m.
Provenienza dei datiRappresentazione cartografica usata
Qualità dei dati - Metadati 23
Contenuto informativo dei metadati
Vertical datum type Not applicableMetadata reference informationMetadata dateMetadata contact
19930105Jane Doe, U.S. Geological Survey
Processing history informationProcess used
Process parametersProcess date
Original materials were USGS/NMD quadrangle based digital files in the UTMprojection. These files were processed as follows: 1. Performed an affinetransformation between the internal map coordinates (to nearest 10 meters) and trueUTM coordinates for each quadrangle. 2. Eliminated bounding neatline from eachquadrangle and replaced with geometrically correct neatline. Extended undershootsto intersect new neatline using 500 metr maximum extension. Clipped overshoots toneatline. 3. Reestablished topology of polygon and line features using 2 meter feature– feature tolerance, clipped all overshoot features. 4. Joined all quadrangle data setstogether, preserving line and polygon features and attribution. 5. Removed map edgelines where hydrologic unit identities (HUC) were the same on either side of a line.See process description.19920801
Riferimento dei metadatiProcessamento dei dati
Qualità dei dati - Metadati 24
Contenuto informativo dei metadatiProcess dateData quality informationHorizontal positional accuracyHorizontal posit. accur. Explanation
Vertical positional accuracyVertical posit. accur. ExplanationThematic accuracyThematic accuracy explanationLogical consistency
Completeness
+/- 150 metersDeductive estimate, map materials at 1:250,000 scale do not comply with NationalMap Accuracy Standards.Not applicable.Not applicable.Greater than 90 %Value derived from comparison with 1:2M scale source values.Data set is verified topologically-structured polygon and line data with nodes at allintersections.All hydrologic units identified by U.S.G.S. are included in this digital map product.Several hydrologic units may be composed of multiple, non-contiguous polygons.
Feature/attribute informationFeature labelFeature definitionFeature definition sourceAttribute labelAttribute definitionAttribute definition sourceAttribute feature associationAttribute domain value
Hydrologic unit codesHydrologic units delimit catchment basin for stream segments.U.S.G.S- Circular 878-AAreaArea measured in equal area meters.Algorithm used by software.Area associated with each hydrologic unit.Positive real numbers. Qualità dei dati
Lista di elementi e attributipresenti nei dati