20121009 10-datalift-camp-paris

20
Datalift Camp, 09 et 10 octobre 2012, Paris 1 DATALIFT CAMP 09 et 10 octobre 2012 Paris Gazouillez #datalift

Upload: datalift

Post on 22-Jun-2015

404 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 1

DATALIFT CAMP09 et 10 octobre 2012

Paris

Gazouillez #datalift

Page 2: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 2

Plan

● Problématiques● Objectifs du projet● Etapes et jalons● Réalisations● La plateforme Datalift● Difficultés rencontrées● Travaux futurs

Page 3: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 3

Partons en voyage...

Page 4: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 4

Problème de planning

Page 5: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 5

Problème de planning

Page 6: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 6

Une situation insuffisament satisfaisante pour la valorisation de vos données

Oblige les développeurs à :

Ø Analyser à chaque fois la sémantique de vos données : qu'est-ce que veut dire ce champ “nom” ? signifie-t-il la même chose que dans cet autre jeu de données ?

Ø Découvrir par eux-mêmes les relations entre vos données et d'autres données

Ø Gérer des formats hétérogènes pour croiser des données : CSV pour tel jeu de données, XLS pour tel autre, SHP pour ce dernier

Ø Gérer des méthodes d'accès hétérogènes pour accéder aux données : APIs propriétaires différentes

De votre côté :

Ø Temps passé à développer des APIs

Ø Difficulté à faire adapter des applications existantes à vos données

Page 7: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 7

Ø Un système d'identifiants global : les URIs

● chaque donnée ou métadonnée est identifiée de manière non ambigue : http://dbpedia.org/resource/Paris est la ville de Paris en France ; pas de risque de confusion avec Paris au Texas ou avec les paris sportifs

Ø Un format unique, RDF : un modèle de données simple pour décrire vos données, extensif à l'infini

Ø La standardisation de la sémantique de vos données, à travers des propriétés et des “vocabulaires” réutilisables : par ex. vous n'avez pas à réinventer pas la propriété “auteur” qui est déjà définie ailleurs

Ø Un protocole d'acccès uniforme : HTTP, SPARQL

● SPARQL est l'API unique, normalisée, du web sémantique (ressemble à SQL)

Le Web sémantique comme solution

Page 8: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 8

but de datalif

De données brutes ouvertesà des données sémantques

interconnectées

Page 9: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 9

Datalift

Plateforme logicielle pour assister la publication de données

Publication de jeux de données

R&D pour automatiser le processus de publication

Formations, tutoriels, camps de publication de données

Page 10: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 10

Le processus d'élévation

Page 11: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 11

Le processus de publicationDBPedia IGN

Ontologie du service public

Accès HTTP Interrogation en SPARQL

INSEE

Conversion XML → RDF

Conversion RDF → RDFOntologie

géographique

Page 12: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 12

Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?

§ Critères d’utilisabilité

§ Simplicité, visibilité, pérennité, intégration, cohérence …

Ø Différents types de vocabulaires

§ De métadonnées, de référence, de domaine, généraliste …

§ Les piliers du Linked Data : Dublin Core, FOAF, SKOS

Ø Bonnes et moins bonnes pratiques

§ Ex : Programmes BBC vs legislation.gov.uk

§ Vocabulary of a Friend : les vocabulaires en réseau

Ø Problèmes linguistiques

§ Les vocabulaires existants sont en anglais à 99%

§ Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »

sélection

Page 13: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 13

conversionØGuide des bonnes pratiques pour les données liées:

§ La ressource: http://id.insee.fr/geo/commune/75056 ● Le document: http://www.insee.fr/geo/commune/75056● Les données: http://rdf.insee.fr/geo/commune/75056

Page 14: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 14

conversionØGuide des bonnes pratiques pour les données liées:

§ La ressource: http://id.insee.fr/geo/commune/75056 ● Le document: http://www.insee.fr/geo/commune/75056● Les données: http://rdf.insee.fr/geo/commune/75056

Page 15: 20121009 10-datalift-camp-paris

SemWebPro 18/01/2011 15Tim Berners Lee,

http://www.w3.org/DesignIssues/LinkedData.html

publication§ Utliser le format RDF§ Utliser des URI pour nommer les choses§ Utliser des URI HTTP (URL) pour pouvoir leur demander des informatons§ Donner des informatons (HTML, RDF) quand les liens sont dé-référencés§ Inclure dans ces infos les URIs pointant vers d'autres données pour

permettre la découverte

Page 16: 20121009 10-datalift-camp-paris

SemWebPro 18/01/2011 16

Interconnexion

§ Comment identfier les jeux de données à lier ?

§ Comment trouver les resourceséquivalentes ?

Dépasser l'hétérogénéité des données

Page 17: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 17

Et plus ...

● Gestion des droits d'accès aux données à échelle variable

● Gestion des licences, licences composites● Une API web de données pour Androïd● Des patrons configuration pour visualiser les

données● ...

Page 18: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 18

La plateforme Datalift

● Architecture modulaire● Supporte le processus de publication● Documentée : installation, utilisation,

développement● Sécurisée● Open-source● Exécutables pour Windows, MacOS, Linux

Page 19: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 19

La plateforme Datalift

Page 20: 20121009 10-datalift-camp-paris

Datalift Camp, 09 et 10 octobre 2012, Paris 20

DAT

ALIF

T

En route vers le web de données