référentiels et interoperabilité (2) antoine isaac europeana & vrije universiteit amsterdam...
Post on 04-Apr-2015
112 Views
Preview:
TRANSCRIPT
Référentiels et interoperabilité (2)
Antoine Isaac
Europeana & Vrije Universiteit Amsterdam
Séminaire INRIA ISTCarnac, 2 Octobre 2012
Interopérabilité des éléments de données
• Objectif: passer de données exprimées avec un jeu d’éléments de données à un autre jeu
• Typiquement, relier classes et propriétés de deux ontologies– owl:equivalentClass, owl:equivalentProperty– rdfs:subClassOf, rdfs:subPropertyOf– Axiomes « ad hoc »
edm:Agent rdfs:subClassOf [ rdf:type owl:Restriction ; owl:maxCardinality "1"^^xsd:nonNegativeInteger ; owl:onProperty rdaGr2:dateOfBirth] .
Idéalement: réutiliser un maximum de référentiels
Exemple: EDM
http://lov.okfn.org/dataset/lov/details/vocabulary_edm.html
Idéalement: réutiliser un maximum de référentiels
Delacroix en EDM
<http://www.mied.fr/personne/Eugene_Delacroix>rdf:type edm:Agent ;foaf:name "Eugène Delacroix" ;skos:altLabel " Ferdinand Victor Eugène Delacroix" ;rdaGr2:dataOfBirth "26 avril 1798" .
Application Profiles
Dublin Core Singapore Framework
http://dublincore.org/documents/singapore-framework/
Leçons pour la réutilisation d’éléments de données
Points cruciaux : • Accessibilité technique (Linked Data)• Documentation
Le support institutionnel est crucial
• Bonne interconnection - Eviter la duplication • Réponse à des besoins spécifiques (requirements), pas
seulement des problèmes philosophiques• Nécessité de “cartographier” l’offre disponible
Cf. Linked Open vocabularies: http://lov.okfn.org/dataset/lov/
En pratique: alignement post hoc
• Souvent la roue a déjà été inventée, quelque part• Mais elle n’était peut-être pas belle…• Et/ou pas vraiment adaptée à votre besoin
Cas des ontologies applicatives ou de sous-domainesPrivilégier une élément d’un jeu particulier peut être contre-productif
Malheureusement beaucoup sont encore réticents à assembler leur jeux d’éléments en recyclant directement des vocabulaires existants
Correspondance entre éléments “locaux” utilisés par les fournisseurs et EDM
Scenario Europeana
EDM property -“Original” property -
Comment ?
• En général les fournisseurs voudront créer le mapping eux mêmes– Travail ardu, mais la précision est cruciale– Beaucoup ont déjà l’expérience
• Pas d’instruction sur comment le réaliserPlus tard: inférence en utilisant des axiomes OWL, matérialisation par
requête SPARQL CONSTRUCTPour l’instant: n’importe quelle feuille de style XSLT ou script XML-
>EDM/XML
Outillage
MINT: http://mint.image.ece.ntua.gr/
Outillage
• Autres projets liés à EuropeanaPrestoPrime
prestoprime.joanneum.atEuropeanaConnect semanticweb.cs.vu.nl/xmlrdf
• Context plus généralR2R
www4.wiwiss.fu-berlin.de/bizer/r2rDatalift
datalift.org…
Intéropérabilité des vocabulaires de valeurs
12
Provient d’un jeu d’éléments de données
/ ontologie
Provient d’un vocabulaire contrôlé
Intéropérabilité des vocabulaires de valeurs
• Requiert l’alignement des éléments de données utilisés pour chacun des vocabulaires, ou la conversion vers un jeu d’élément pivots (par ex. SKOS)
• Requiert la détection d’équivalences « sémantiques » entre concepts
Créer un réseau d’équivalences
DemoConcepts equivalents• American LCSH
http://id.loc.gov/authorities/subjects/sh85145447
• French RAMEAUhttp://data.bnf.fr/ark:/12148/cb11931913j
• German SWDhttp://d-nb.info/gnd/4064689-0
• STWhttp://zbw.eu/stw/descriptor/14188-0
• DBPediahttp://dbpedia.org/resource/Water
SKOS mappings
KOS 1:animalscatswildcats
KOS 2:animalhumanobject
Un problème difficile
L’alignement manuel de vocabulaires demande beaucoup de travail• LCSH, RAMEAU et SWD alignés dans le projet MACS• SWD et Dewey alignés dans le projet CRISS-CROSS
Problème: taille, langue, différence d’approches
Le crowdsourcing n’a pas encore été expérimenté pour des vocabulaires experts
Sémantique et interopérabilité
Techniques d’alignement automatiques
• Lexicales
• StructurellesStructure des vocabulaires
• Connaissances de contexte
• Extensionnelles
Web Sémantique et Interopérabilité des Vocabulaires Conceptuels
Alignement lexical
• Utilise les libellés des concepts, définitions…
avancée à la perchebarque BarquebroaderMatch
chat chatexactMatch
chat chatsexactMatch
chat catexactMatch
Référentiel de contexte
Connaissances de contexte
Exploitation des liens d’une référence partagée
Thesaurus 1 Thesaurus 2
“Calendar”
“Publication”
Extensionnelles
Néerlandais
Litérature néerlandaise
Thesaurus 1
Thesaurus 2
Utilisant les ressources décrites avec les vocabulaires de valeurs
Combiner des techniques: AMALGAME
• Do not try to make the tool smart– use simple atomic matching components– fast, scalable, with predictable and understandable results
• Empower domain experts by interactive iteration loop– try most promising component(s)– analyze the results– decide on next step:
• discard results from last attempt• refine current results to improve precision• look for more results to improve recall
22http://semanticweb.cs.vu.nl/amalgame/
Amsterdam Museum case, http://semanticweb.cs.vu.nl/lod/am/
Alignement: pas de solution triviale
• Ces techniques permettent d’obtenir des résultatsSTW, AGROVOC…
• Mais seules, elles ne suffisent pasCombinaison avec travail manuel (vérification, complétion)
• L’alignement est un problème de recherche difficile• La R&D s’est surtout concentrée sur les ontologies• Le Web de données change la donne
Des outils pour jeux de données sont dévoloppés, e.g., SILK
www4.wiwiss.fu-berlin.de/bizer/silk/
Un problème général d’alignement
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
Un problème général d’alignement
• Les vocabulaires de valeurs sont des jeux de données, d’un point de vue technique
• Ils sont plus « réguliers » que les jeux de données générauxUne sous-famille utilisant SKOS comme ontologie
• Des techniques similaires sont appliquées aux ontologies, valeurs de vocabulaires et autres jeux de données, même si les caractéristiques des référentiels et les besoins en relations sont différents
Des challenges de haut niveau
[Cyganiak, Jentzsch] http://linkeddata.org/
Sparse linkage: the LD cloud
[Guéret, 2010] http://blog.larkc.eu/?p=1941
Sparse of linkage: another view
Stratégies d’alignement ?
Stratégie pivot vs. alignement par paire
Backbone, hub-and-spoke [BS8723]
Guidage par la communauté ?
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
Guidage par la communauté ?
• Liens entre ressources spécifiques aux bibliothèquesVIAF, LCSH, Dewey, UDC, Worldcat, PND…
• Liens de/vers des ressources plus générales– Musées, archives– Coommunauté scientifique: données de recherche– Editeurs– Europeana et autres aggrégateurs
Critères de sélection
Exemple: EuropeanaConnect
• Pertinence institutionnelle, par rapport aux collections• Adequation du type de ressources (lieux, sujets, personnes…)
à l’application• “Qualité”
– Grain conceptuel et couverture– Couverture lexicale – langues– Couverture et précision des liens sémantiques
• Licenses
Flexibiliser l’approche pivot ?
• Aligner des ressources petites et spécialisées à des ressources plus grandes et générales, multi-lingues et/ou largement adoptées
• Des ressources plus spécialisées pourraient être retenues comme points d’ancrage, en fonction des domaines et des alignement existants
• Plusieurs ressources complémentaires, d’importance comparable, pourraient ensemble jouer le rôle de pivot– La combinaison LCSH-RAMEAU-SWD-etc. peut jouer pour les sujets un rôle
similaire à VIAF– Il est possible d’aligner des vocabulaires spécifiques à l’un ou l’autre
Flexibiliser l’approche pivot ?
Les outils d’alignment doivent supporter des stratégies flexibles, avec essais et erreurs
Quels types de liens ?
Beaucoup d’ontologies proposent des liens d’équivalence sémantique pour des instances de classes
• owl:sameAs• skos:exactMatch, skos:closeMatch• skos:broadMatch, narrowMatch & relatedMatch• umbel:isLike• ore:isSimilarTo• foaf:focus…
Problèmes d’application des liens : owl:sameAs
• En principe, deux URIs liées par owl:sameAs partagent automatiquement ex:a name “Antoine Isaac” .
ex:b owl:sameAs ex:a .
impliqueex:b name “Antoine Isaac” .
• En pratique, owl:sameAs est appliqué entre des ressources qui ne sont que “très similaires”Une même ressource, mais dans differents contextes
Problèmes d’application des liens : owl:sameAs
• Par ex., première version de data.nytimes.com http://data.nytimes.com/60694995023816375851
dcterms:rightsHolder The New York Times Company .
http://data.nytimes.com/60694995023816375851
owl:sameAs http://dbpedia.org/resource/Park_Slope%2C_Brooklyn .
• Quelles conséquences?On peut se contenter de ne pas “appliquer” la sémantique de owl:sameAs
Bonnes pratiques (1)
Regarder ce qui est alignéConcepts ou autorités vs. documents vs. entités “du monde réel” (personnes, lieux…)
Tenir compte de comment ça a été aligné Co-reference exacte obtenue par reconnaissance d’identifiants uniquesvs. similarité (incl. équivalence) dérivée de libellés ou relations sémantiques
Représenter les données sur l’alignment et/ou la correspondance individuelle est une option
Au-delà des liens simples
Pour des besoins spécifiques, on peut représenter des alignments et leur provenance de façon très fine
http://alignapi.gforge.inria.fr/edoal.html
Bonnes pratiques (2)
Minimiser l’engagement sémantique des liens utilisés• skos:exactMatch est transitive: les concepts liés peuvent être échangés en
toute généralité, par ex. pour des applications de recherche d’information• skos:closeMatch n’est pas transitive, pour représenter un lien qui ne se
“propage” pas dans les cas où plus de deux vocabulaires sont alignés de manière approximative
Tenir compte de l’application de l’alignement• SKOS implique un “contexte d’application” des alignements• La qualité d’un alignement dépend aussi du type d’application qui l’emploie !
Evaluation spécifique à une application
Campagne Ontology alignment Evaluation Initiative 20073 outils évalués suivant deux scénarios: “fusion de thesaurus” et
“ré-indexation de livres”
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Precision Coverage
Falcon
Silas
DSSim
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Pa Ra
Falcon
Silas
DSSim
Evaluation spécifique à une application
Cas: 2 thesauri à la bibliothèque nationale des Pays-Bas: GTT and Brinkman
• Pour la fusion de thesaurus, gtt:excavation doit être aligné avec brinkman:excavation
• Pour la ré-indexation, gtt:excavation doit être aligné avec brinkman:archeology_netherlands
Applications d’alignements
Par exemple:• Recherche à base de concepts• Ré-indexation de livres• Fusion de thesaurus• Integration d’un thesaurus dans un autre• Recherche plein texte• Navigation
Suggère l’utilisation des correspondences et l’information qu’elles devraient fournir
Prédiction de sujets à la KB
Point de départ• 2 collections• Chacune indexée par son propre thesaurus
Collection 1 Collection 2
Thes1 Thes2
Prédiction de sujets à la KB
Ré-indexation• But: avoir les livres d’une collection décrits avec le
thesaurus de la seconde• Par ex: si un thesaurus est abandonné, les livres doivent
être indexés avec l’autre
Collection 1 Collection 2
Thes1 Thes2
Ré-indexation de livres
Convertir index source en un système d’indexation cible
? ? ?
Thes1
Thes2
STITCH final event
Prototype
Dans le projet STITCH
• Etant donnés des index NND/Biblion, prédire un index Brinkman• Mix de techniques
– Lexicales– Statistiques, utilisant 240000 livres communs, très spécifique au scénario
• Integration dans le logiciel de catalogage• Etude utilisateurs (catalogueurs)
Règles de prédiction de sujets
Source combination → target concept Confidence level
Correct books / Total
DGP:Jeugd fictie; vanaf 13 jaar' + KAR:Stripverhaal → BTR:stripverhalen
0.995 182/182
LTR:Reisgidsen + LTR:Spanje → BTR:Spanje ; reisgidsen
0.982 50/50
LTR:Liefde + AUT:Jeanette Winterson →
romans en novellen ; vertaald 0.540 1/1
LTR:Bouwkunde → BTR:leermiddelen ;
bouwtechniek 0.196 25/123
Les techniques d’alignment extensionnelles prennent en compte les variation d’usage et peuvent être très utiles pour des applications spécifiques
Conclusions
• Des solutions techniques qui permettent de résoudre des problèmes, mais mettent en valeur là où la difficulté se pose vraiment– Interopérabilité et contexte– Applications et requirements
• Il semble qu’il y ait besoin de professionnels de l’information !– Sélection de ressources– Alignement manuel et semi-automatique– Relation aux application
• Focus de cette présentation : pas les outils, mais un contexte pour juger les outils
Merci !
aisaac@few.vu.nl
EuropeanaConnect WP1 @ VU AmsterdamJacco van Ossenbruggen, Victor de Boer, Jan Wielemaker, Guus Schreiber
Equipe projet STITCH: Lourens van der Meij, Shenghui Wang, Stefan Schlobach, Frank van Harmelen, Henk Matthezing, Claus Zinn
First Demo pointers
• American LCSH http://id.loc.gov• French RAMEAU: http://data.bnf.fr • German SWD: http://d-nb.info/gnd/ • Agrovoc: http://aims.fao.org/ • STW: http://zbw.eu/stw/ • DBPedia: http://dbpedia.org/
[Cyganiak, Jentzsch] http://linkeddata.org/
Sparse linkage: the LD cloud
[Guéret, 2010] http://blog.larkc.eu/?p=1941
Sparse of linkage: another view
Datacloud in the making
top related