m. scannapieco - da sdmx a rdf data cube vocabulary: integrare i dati statistici con il web...

20
Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico Monica Scannapieco Joint work with: Raffaella M. Aracri, Andrea Pagano, Laura Tosco, Luca Valentino Istat - RST/B U.O. Sviluppo sistemi informatici per la statistica

Upload: istituto-nazionale-di-statistica

Post on 18-Dec-2014

37.475 views

Category:

Education


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

Da SDMX a RDF Data Cube Vocabulary:

Integrare i Dati Statistici con il Web Semantico

Monica Scannapieco

Joint work with:

Raffaella M. Aracri, Andrea Pagano,

Laura Tosco, Luca Valentino

Istat - RST/B U.O. Sviluppo sistemi informatici per la statistica

Page 2: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

2

Introduzione: Open Data & Linked Open Data

• Open: formato che consenta «utilizzo, ri-utilizzo e ri-

distribuzione»

• Linked Open: modelli e formati standard (e.g. RDF) che

consentano integrazione

• Superamento del pattern «prima open - poi linked»: Dati

direttamente in formato Linked Open Data (LOD)

• Esempio 1: USA data.gov è un esempio significativo di portale open data

in ambito PA. In corso la trasformazione in LOD

• Esempio 2: DBpedia & Wikidata

• Dbpedia: estrazione dati dalle infoboxes di Wikipedia

• Wikidata: recente (aprile 2012), database strutturato, si propone di

alimentare le infoboxes di Wikipedia

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 3: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

3

Introduzione: Linked Open Data e Interoperabilità

Semantica

• Linked Open Data

• Dataset in formato RDF

• Interconnessi=>Interoperabilità semantica

• Stack del Web Semantico

Formato e sintassi

Semantica

Conoscenza

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 4: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

4

LOD CLOUD

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

31 miliardi di triple

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

Page 5: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

5

Problema...

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

ISTAT Dati sul WEB

Reference Metadata

Enhanced SDMX

BB1 BB2 BBn

SDMX

Web Service Provider

SEP

Tablets/

smartphones

Structural Metadata

WEB GUI

Structural Metadata

Istat

Information System

Building Blocks

Excel

Plug-in

Metadata Management System

Come “integrare” i dati diffusi dall’Istat con i dati

presenti sul Web e già interconnessi tra loro?

Page 6: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

6

…Soluzione (una possibile)

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Trasformazione

RDF

RDF Data Cube

Vocabulary

SDMX

Page 7: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

7

Progetto in Collaborazione con Spazio Dati

• Nell’ambito del gruppo di lavoro su Open Data, si è avviata una

collaborazione con la società SpazioDati (http://spaziodati.eu/home)

• Obiettivo: integrazione di data set dell’Istat con dati in formato RDF Data

Cube (RDF-QB)

• Le Fasi del Progetto:

• Progetto e sviluppo del traduttore da SDMX a RDF-QB (Istat): Done

• Validazione dei risultati (Istat e SpazioDati): Done

• Utilizzo del traduttore e integrazione (SpazioDati): To Do

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 8: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

8

RDF Data Cube Vocabulary

• RDF Data Cube (RDF QB) è un W3C Working Draft del 5 aprile 2012

• RDF QB si basa su SDMX

• Centrato unicamente sulla pubblicazione sul web di dati multi-

dimensionali

• Costruito sull’ information model di SDMX

• Costruito sui seguenti vocabolari (già esistenti):

• SKOS for concept schemes

• SCOVO for core statistical structures (deprecated)

• VoiD for data access

• FOAF for organisations

• Dublin Core Terms for metadata

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 9: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

9

RDF Data Cube Vocabulary

• I nomi delle entità RDF sono delle URI

• Notazione Compact: i nomi sono scritti nel formato prefix:localname

• Prefix identifica un namespace URI

• La concatenazione del prefix e del localname fornisce l’URI completo

• Prefix diffusi:

• rdf, rdfs: namespace del core di RDF

• dc: Dublin Core

• skos: Simple Knowledge Organization System

• foaf: Friend Of A Friend

• void: Vocabulary of Interlinked Datasets

• qb: Data Cube namespace http://purl.org/linked-data/cube#

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 10: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

10

Trasformazione da SDMX a RDF-QB

DSD (key family)

SDMXRDF QB

Data file

SDMX

Data set RDF

trasformazione

trasformazione

Code list

Concept

dimension, attribute,measure

?

?

?

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 11: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

11

Analisi Ambienti Tecnologici

• Ambiente R:

• Package RSDMX (sviluppato alla FAO): non completato e non

manutenuto attivamente

• Ambiente Java:

• Apache JENA: framework per la lettura, processamento e

scrittura dati in RDF, possibilità di effettuare query SPARQL e

molto altro

• Input SDMX non contemplato

• Progetto MIMAS (http://mimasld.wordpress.com/2011/11/25/final-product-

post-esds-the-sdmx-to-rdf-process/ )

• Trasformazione dei dati utilizzando XSLT

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 12: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

12

Scelta Tecnologica

• Ispirata da MIMAS: Utilizzo di trasformazioni XSLT

• Motore di esecuzione delle trasformazioni: Saxson (Home

Edition)

• Supporta XSLT 2.0, XQuery 1.0, XPath 2.0

• Disponibile sia in Java che in .NET

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 13: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

13

Esempio di Mapping

<structure:Concept id="REF_AREA">

<structure:Name xml:lang="en">Geographical reference area</structure:Name>

</structure:Concept>

SDMX DSD

<rdf:Description rdf:nodeID="REF_AREA">

<qb:dimension rdf:resource="http://dati.istat.it/output/code/territory"/>

<dc:language>en</dc:language>

<rdf:type rdf:resource="http://purl.org/linked-data/sdmx#DimensionProperty"/>

<rdf:type rdf:resource="http://purl.org/linked-data/sdmx#CodedProperty"/>

<sdmx:codeList rdf:resource="http://dati.istat.it/output/code/territory"/>

<rdfs:range rdf:resource="http://dati.istat.it/output/code/territory"/>

<rdfs:label xml:lang="en">Geographical reference area</rdfs:label>

</rdf:Description>

RDF QB

Page 14: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

14

Esempio di File XSL: Definizione delle Regole di

Trasformazione

<xsl:for-each select="doc($dsd)//*[local-

name()='KeyFamilies']/structure:KeyFamily/structure:Components/*[@conceptRef]">

<xsl:variable name="conceptRef" select="./@conceptRef"/>

<xsl:variable name="codeList" select="./@codelist"/>

<xsl:variable name="codeListName"

select="doc($dsd)/*[1]/*[2]/*[name()='registry:CodeLists']/*[@id=$codeList]/structure:Name[@xml:lang=$lan

guage]"/>

<xsl:element name="rdf:Description" >

<xsl:attribute name="rdf:nodeID" select="$conceptRef"/>

<xsl:element name="qb:dimension">

<xsl:attribute name="rdf:resource" select="concat($IstatRoot,'/code/',$codeListName)"/>

</xsl:element>

</xsl:element>

Lettura da SDMX: Concept e Codelist

Scrittura in RDF QB: Concept e Codelist

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 15: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

15

Validazione Sintattica e Semantica

• Validazione Sintattica: validati i file RDF

sintatticamente, creando le triplette RDF e la relativa

rappresentazione a grafo

• Utilizzato il software free validator

(http://www.w3.org/RDF/Validator/)

• Verificata anche conformità a turtle (formato Eurostat per le DSD)

• Da RDF XML a fomato turtle (.ttl)

• Software any23 (http://any23.apache.org/ )

• Validazione semantica: il modello dati è un modello

modello RDF QB «valido»

• Utilizzato Openlink Virtuoso (http://download.openlinksw.com/ )

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 16: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

16

Background: SPARQL

• SPARQL (Sparql Protocol And RDF Query Language) è

un linguaggio con una sintassi simile a quella SQL per

l'interrogazione di dati RDF e un protocollo di

comunicazione basato su HTTP

• Uno SPARQL client può quindi interrogare un

endpoint SPARQL con interrogazioni (“query”)

riguardanti un grafo RDF

• SPARQL consente di fare “graph pattern matching”

all'interno di dati RDF

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 17: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

17

Validazione Semantica

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

SELECTobs_id,ref_area, obs_value,time_period,territoryLabelWHEREtypeofWaste=9ANDTime=2001-01-01

Page 18: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

18

Test Case e Performance

Test Case Data Input Size(KB)

Execution Time(min,sec)

Mimas-like 1.338 6m 7,9s

Mimas-like 2.674 12m 32,86s

Mimas-like 4.009 18m 42,248s

Mimas-like 5.345 23m 49,127s

Base 1.338 2m 17,71s

Base 2.674 4m 36,933s

Base 4.009 7m 28,945s

Base 5.345 9m 12,627s

Optimized 1.338 5,6s

Optimized 2.674 7,87s

Optimized 4.009 11,003s

Optimized 5.345 13,968s

Page 19: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

19

Test Case e Performance

Millisecondi (Log Scale)

KB

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013

Page 20: M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico

20

Conclusioni e Sviluppi Futuri

• Sviluppo prototipale

• Formato dati SDMX : Compact

• Possibili estensioni ad altri formati SDMX (i.e.,

Generic, Cross-Sectional)

• Estensione delle regole di trasformazione dei

costrutti

• Integrazione con il Single Exit Point (SEP)

• Estensione dei Test

Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013