le web sémantique - sylvie fayet
DESCRIPTION
Journée d'étude "Evolutions des catalogues, évolutions des métiers, ce qui va changer dans nos établissements" le 29 mars 2013, proposée par le CRFCB en collaboration avec l'ABF Midi-Pyrénées Depuis plusieurs années l’évolution des catalogues, l’arrivée de RDA, l’implémentation des FRBR alimentent les débats. Au-delà du jargon et des débats de spécialistes, il y a de vraies questions pour les bibliothèques, des enjeux importants pour l’avenir, des décisions qu’il convient d’anticiper et de préparer. Cette journée a pour objectif de rappeler la réalité derrière des mots parfois abscons, souvent lointains, de souligner ce qui va changer dans nos établissements et les questions que soulèvent ces changements certes longs, parfois encore en instance mais auxquels tous les établissements devront demain se préparer...TRANSCRIPT
1 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
LE WEB SEMANTIQUEQue change le web sémantique pour les
établissements documentaires ? Quel intérêt pour les bibliothèques d’y prévoir leurs données ?
Sylvie Fayet, Urfist de Toulouse
Evolutions des catalogues,évolutions des métiers,
ce qui va changerdans nos établissements
Vendredi 29 mars 2013 – Manufacture des tabacs
Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon et le groupe Midi-Pyrénées de l’ABF
2 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Ce qu’est le web « sémantique »
Idée d’origine de T. Berners-Lee : plutôt un web « syntaxique »
Point de départ : des ressources web (pages, éléments, fichiers, données…) décrites par des métadonnées
Objectif : exploiter par des opérations de calcul ces ressources hétérogènes
Outils :• des URI pour identifier les ressources• RDF pour exprimer les métadonnées selon un modèle
logique commun
3 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Les URI(Uniform Resource Identifier)
= identifiant unique et pérenne d’une ressource dans un réseau, construit selon une syntaxe normalisée
Ex : mailto:[email protected]
URL (uniform resource locator) : le type d’URI le plus fréquentPas forcément le chemin qui s’affiche dans la barre d’adresse
du navigateur (exemple dans le Sudoc)Alternative : les DOI (Digital Object Identifier)
URN (uniform resource name) : un ISBN par exemple
4 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
RDF (Resource description frame)
= modèle logique de représentation de l’information
Base : un graphe de relations entre des entités
organise
organise
s’intitule
a lieu à
a lieu le
coopère
a lieu le
a lieu à
5 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Les triplets RDF
Toutes ces relations s’expriment sous la forme de triplets
Objet Prédicat Sujet
La ressource dont on parle
La relation entre la ressource et sa caractéristique
L’attribut, la caractéristique
Le CRFCB organise une journée d’études
Evolutions des catalogues
a lieu le 29 mars 2013
URI (numéro RNE du CRFCB , URL de la page de la journée…)
Typologie des relations (auteur, date…)
Valeur variable libellée si possible selon référentiel (« event » dans une typologie des ressources, format AAAA/MM/JJ pour la date…)
6 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Fabriquer du RDF
Les informations avec lesquelles bâtir ces triplets proviennent des métadonnées décrivant les ressources web.
Préalable = « traduire » les métadonnées métier en RDF
Dublin Core s’exprime en RDF (exemple en XML et en RDF)
FRBR = adaptation de la logique RDF aux informations bibliographiques
7 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Vocabulaires et ontologies
RDF s’appuie sur des vocabulaires contrôlés :• Modèles de métadonnées ; par exemple :
• FOAF (Friend of a friend) pour les personnes physiques (correspondance avec le Dublin Core)
• OAI-ORE pour des ressources composites agrégeant diverses données
• EDM (European data model) pour les objets patrimoniaux
• ontologies au format OWL (ex: Bibo)• thesauri exprimés en SKOS (Rameau et LCSH par exemple)
Exemple d’une notice SUDOC en RDF
Exemple du RDF AGRIS : http://agris.fao.org/fr/agris-rdf-properties
8 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Applications
Difficulté : l’interrogation se fait au moyen de langages spécifiques comme SPARQL
Un des points de départ : DBPedia (http://www.dbpedia.org) Exemples de requête
Application aux données bibliographiques : http://data.bnf.fr
Le linked data cloud : http://lod-cloud.net/versions/2011-09-19/lod-cloud_colored.html
Et le linked data des bibliothèques : http://datahub.io/group/lld
Linked data bibliographique : exemple par Ivan Herman du W3C (http://www.w3.org/People/Ivan/CorePresentations/SWTutorial)
9 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
10 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
11 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
12 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Le web sémantique n’est pas (forcément) :
un outil de TAL ni d’extraction du sens
Le tuyau sémantique (Ch. Fauré)
13 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Le web sémantique n’est pas non plus…
…la mise à disposition de données sous n’importe quelle forme
« Ouverture des données » :• Des données en RDF (ex : l’INSEE http://rdf.insee.fr/) • Des données brutes• Des API (Application programming interface) = interface
permettant l’interaction d’un programme informatique avec d’autres (ensemble de fonctions et de procédures)
14 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Apiculture (Christian Fauré)
APIculture = temps court / économie de l’attentionvs
Dataculture = temps long / économie de la mémoire
15 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Mais quelles que soient les techniques
Les moteurs de recherche évoluent vers de « vraies »réponses: non plus une liste de sites à interroger, mais des éléments structurés synthétisésexemple : Wolfram Alpha qui combine repérage de termes signifiants, exploitation de métadonnées et base de connaissances
Distance croissante entre les habitudes des internautes et le paradigme de recherche proposé par les bibliothèques
Difficulté inhérente aux bases de connaissances : on ne maîtrise pas les données (choix d’indexation notamment)
16 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Hétérogénéité des accèsgérés par les bibliothèques
Portail documentaire
Base de connaissances
Résolveur de liens
Outils d’interrogation
OPAC
Autres interfaces gérées par la bibliothèque
Interfaces extérieures
RessourcesDocuments
électroniques acquis à l’extérieur
Documents numériques produits par la bibliothèque
Documents non électroniques
17 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Enjeux
Croiser les données bibliographiques avec :• Les données des autres institutions culturelles (http
://lodlam.net/) • Les données du monde académique (publications
scientifiques, thèses…)• D’autres types de données publiques
Exploiter les thesaurus et vocabulaires contrôlés / les fichiers d’autorités
Améliorer la recherche fédérée et valoriser les collections
18 Journée CRFCB / ABF – 29 mars 2013Urfist de Toulouse – S. Fayet
Questions
Comment maîtriser des données que nous ne produisons pas ?
Inversement, quelle part « intéressante » dans les données que nous produisons ?
Rentrer dans les contenus ?• Éléments d’évaluation• Sélection
Dépasser la difficulté technique
Semantic web in libraries 2012 : http://swib.org/swib12/programme.php