Sibille jacobson thesaurus

Download Sibille jacobson thesaurus

Post on 16-Apr-2017

475 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

Le thsaurus pour l'indexation des archives locales dans le Web
de donnes

Claire SIBILLE-DE GRIMOARD & Michel JACOBSONArchives de France

Forum AAF Les archives aujourdhui et demain, Angers, 22 mars 2013

PLAN

Le thsaurus pour l'indexation des archives localesHistorique

La rvision (les limites du modle, les besoins d'volution)

Les volutions

Les perspectives

Historique (1/2)

Thsaurus W. Vocabulaires normaliss pour la description et lindexation des archives administratives locales contemporaines1re dition 1987, rvisions en 1989, 1997, 2000 (partielle), 2009, 2012

Depuis 2009, est devenu Thsaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines (outil diachronique, gnrique, peut s'appliquer toutes les ressources conserves par les services d'archives)

Mises jour: groupes de travail, appels commentaires

Historique (2/2)

Utilisation obligatoire pour les services darchives territoriauxInstructions DAF/SIAF 1994, 2009, 2011, 2012

Essais de structuration informatique2002: tests de conversion XML (par un prestataire)

2008: transformation (quick&dirty) des tableaux Excel qui servaient la rvision en fichiers RDF/XML conformes SKOS

Structure (1/2)

Le thsaurus inclut un thsaurus-matires et 3 listes dautorit :actions administratives (71 descripteurs et 44 non-descripteurs)

types de documents (238 descripteurs et 66 non-descripteurs)

contexte historique (131 descripteurs)

Les descripteurs des listes dautorit ne sont pas des termes dindexation, mais ils peuvent tre combins avec un (ou plusieurs) descripteur(s) du thsaurus-matires

Structure (2/2)

Les 1498 descripteurs et 1011 non-descripteurs du thsaurus sont regroups en 11 classes reprsentant les termes de haut niveau autour desquels les concepts sont organiss selon 4 niveaux hirarchiques

Thsaurus monolingue, mono-hirarchique

Relations hirarchiques, dquivalence, dassociation

Notes de contenu

Le thsaurus jusqu'en 2008

Les limitesAbsence de formalisme directement exploitable par une machineLe formalisme utilis (fichiers doc, pdf..) a pour seule vocation d'tre lu par un oprateur humain qui doit mettre en uvre le thsaurus pour des tches d'indexation.

La tche d'indexation tant assiste par un logiciel, des ressaisies du thsaurus sont ncessairesComment viter des saisies directes avec risques de divergences?

Comment rduire les cot des ressaisies? Le mcanisme d'ingestion dans les outils n'est pas forcment le mme d'un outil l'autre et les mises jour sont elles aussi dlicates et coteuses.

Edition thmatique du thsaurus-matires

Les besoins

Faciliter la mise en uvre du thsaurus pour les tches d'indexation.

Faciliter la mise en uvre du thsaurus pour les tches de recherche.

Garantir la permanence des indexations alors mme que le thsaurus volue.

Faciliter la gestion du thsaurusvolutions (propositions, versions, mises jour...)

Accs / Requtes / Publications

Choix d'un formalisme

Exprimer toutes les notions dj prsentes (termes, relations, annotations, etc.)

Apporter une aide l'dition et la publication

Outils normatifsNorme ISO 2788:1986 Principes directeurs pour l'tablissement et le dveloppement de thsaurus monolinguesPose les concepts de terme, relation smantiques, etc. mais ne propose pas de formalisme d'expression pour sa mise en uvre.

En 2008: en cours de rvision

SKOS Simple Knowledge Organization System Au dbut du travail fin 2008, SKOS n'tait encore qu' l'tat de Working Draft au W3C mais aboutit en 2009 une recommandation.

SKOS (1/2)

Simple Knowledge Organization SystemPour dcrire des vocabulaires simples de type thsaurus, classifications, listes, taxonomies.

SKOS permet de dcrire des organisations de concepts pour former des vocabulaires. Cette description est faite avec le langage RDF qui va permettre d'associer aux concepts des proprits (dont le terme)RDF dfinit un graphe base de triplets (sujet prdicat objet)Le sujet reprsente la ressource dcrire ;

Le prdicat reprsente un type de proprit de la ressource ;

L'objet reprsente la valeur de la proprit.

SKOS (2/2)

Les ressources du thsaurus sont des concepts identifiables par des URI que l'on souhaite durables et traables.

Les proprits principales des concepts sont:Les termes ou labels (prefLabel, altLabel)

Les relations entre concepts:Relations hirarchiques (spcifique vs. gnrique)

Relations d'association

Les annotations (dfinitions, notes)

Les relations d'alignement avec d'autres vocabulaires (exactMatch, closeMatch)

Reprise des donnes

Les termes distincts font l'objet de dfinition de concepts:Identifis dans un premier temps par des URL;

Puis dans un deuxime temps par des ARK.

Les termes prfrentiels deviennent des prefLabel et les termes non prfrentiels des altLabel

Les domaines et rubriques donnent naissance des relations bijectives entre concepts (spcifique / gnrique)

Les associations smantiques d'un terme des termes d'une autre branche deviennent des relations d'association

Les dfinitions et autres notes deviennent des annotations

Poursuite de la rvision

La poursuite de la rvision s'est faite dans le format SKOSCharg dans l'application ThManager (mais ancienne version de skos)

Charg dans l'application Protege (mais peu conviviale et/ou peu matrise)

Manipulation directes dans un diteur XML (oXygen, peu convivial mais plus matris)

Utilisation de scripts pour vrifier la cohrence du thsaurus

Transformations XSL pour produire les anciens tats publis (classement thmatique, classement alphabtique)

Un outil de publication (1/2)

Commande en 2010D'un outil de publication du rfrentielPour tirer le meilleur partie du modle web de donnesDes URI de concepts drfrenables. Ngociation de contenu pour dlivrer soit une page web prsentant le concept (en HTML pour un client humain)

soit une dfinition formelle du concept (en RDF/XML pour un client machine).

Les triplets sont stocks dans une base de donnes (tripleStore RDF Sesame)

Une interrogation de ces donnes est possible par des requtes SPARQL

Plus un travail exprimental d'alignement sur d'autres thsaurusAlignement sur le Thsaurus Rameau (dans sa version skos)

Alignement sur DBPedia

Un outil de publication (2/2)

Mise en ligne de l'outilDans un premier temps sur le portail archivesdefrance

largissement du domaine couvert par l'outil la publication d'autres vocabulaires (projet Harmonisation de la production des DOnnes Culturelles (HADOC) du Ministre de la culture et de la communication)Lharmonisation de la production des donnes culturelles sappuie sur trois leviers:lharmonisation des donnes (dfinition de modles et partage des rfrentiels),

le dveloppement de l'usage des normes et des standards,

lharmonisation des processus de production

HADOC

Rflexion en cours sur la mise en uvre dun nouvel environnement de gestion des vocabulaires scientifiques et techniquesLobjectif est de passer d'une approche o les vocabulaires contrls des diffrents mtiers restent avant tout au service de la production de ressources documentaires dans un domaine ou une application, la cration d'un Rfrentiel terminologique unifi permettant d'offrir aux usagers un accs unique et cohrent aux ressources terminologiques produites par le Ministre et d'en dmultiplier les usages (Katell Briatte)

HADOC rpond un des besoins qui est de se doter d'un outil de gestion des vocabulaires du MCC

Outil de gestion en cours de dveloppement

HADOC et l'outil de consultation

volutions de loutil de consultation Amnagement en vue de lintgration dautres vocabulaires contrls du MCC (services du patrimoine et de larchitecture)

Affichage dinformations spcifiques sur la page de prsentation de chaque rfrentiel

Affichage des concepts (proprits SKOS, langues)

Affichage des alignements avec dautres vocabulaires

Transformation des identifiants de concepts en identifiants prennes de type ARK

Ajout dune fonction de recherche simple

Rsultat d'une recherche

Consultation d'un concept

Code RDF/XML du concept

Exprimentation sur les alignements (1/3)

DBPedia est un rfrentiel qui bouge beaucoup, souvent et qui est le produit de la rflexion d'une communautPour la publication, quelques triplets concernant les concepts aligns avaient t extraits pour alimenter notre propre triple-store (les proprits: terme, description, pageWeb) permet l'indpendance et enrichit la description.

Avec le temps on observe des dcalages entre les informations extraites et celles prsentes dans DBPedia ; on peut : soit passer des interrogations dynamiques

soit mettre jour rgulirement.

Exprimentation sur les alignements (2/3)

des identifiants qui n'existent pas (ou n'existent plus)

des identifiants qui n'ont plus d'autre proprit qu'une redirection vers un autre concept (wikiPageRedirects) dont la mise en oeuvre est transparente pour l'utilisateur humain.

des proprits ambigus ou peu fiables. Concepts plusieurs termes"Avortement" et "Interruption volontaire de grossesse"

"Sicle des lumires" "Aufklrung"ou "Travail" et "Work". Dans le rdf de dbpedia les valeurs "Aufklrung " et "Work" sont indiques comme exprimes en franais.

"Cirque" et "La famille Moralls"

Exprimentation sur les alignements (3/3)

ConclusionsL'alignement demande tre rexamin rgulirement.

L'extraction d'informations est difficilement