corpus numériques et shs : infrastructures, outils, isidore
DESCRIPTION
TRANSCRIPT
Signalement, accès, et mise à disposition des données numériques de la recherche en SHS
rechercheisidore.fr
Stéphane POUYLLAU, Ingénieur de recherche au CNRSDirecteur de Corpus-IR (UMS 3534)
Responsable du projet ISIDORE - TGE AdonisTwitter @spouyllau – Email [email protected]
Adonis
- Adonis est un très grand équipement pour les sciences humaines et sociales
- Acteur de la feuille de route ESFRI (DARIAH)
- Missions 2012-2015 :
- Accès aux données et documents numérique des SHS (ISIDORE)
- Grille de services : hébergement web ; stokage de données ; Archivage à long terme (OAIS / CINES-SIAF)
- Site : www.tge-adonis.fr
- Contact : [email protected]
Corpus-IR
- Corpus-IR (très grande Infrastructure de Recherche) est un réseau d'équipes produisant des corpus numériques de sources :
- Équipes (UMR, EA, etc.)
- consortiums « disciplinaires » (mais pas que)
- 12 consortiums à 15 consortiums
- Financement de la production de corpus (numérisation ; documentation ; diffusion des données)
- Points clés : qualité des métadonnées ; diffusion obligatoire des métadonnées ; diffusion selon des formats ouverts et normalisés (ISIDORE ; Gallica ; Europeana)
Corpus-IR
- Acteur de la feuille de route ESFRI (CLARIN)
- UMS 3534 (Aix Marseille Université et CNRS)
● Paris / Marseille
- Contact : www.corpus-ir.fr
Des corpus... Isidore de Séville ? Mais de quoi parle-t-il ?
Photos : SP. 2006.
Photos : SP. 1999-2009.
Photos : SP. 2006.
Production de données « sources »
- Sources ? Données et matériaux numériques – souvent non édités/éditables (coûts, place, droits)
- Monde numérique (capteurs ; photos ; enregistrements ; GPS ; enquêtes en ligne ; numérisation de sauvegarde...)
- Utilisation et ré-utilisation ? Reconnaissance du travail de collecte et de création de « corpus »
- Valorisation des fonds documentaires
ISIDORE et les fonds d'archives
Mettre en place l'environnement pour relier données de la recherche et publications
- Faciliter l'administration de la preuve scientifique
ISIDORE est un outil pour les communautés scientifiques
ISIDORE est un outil de signalement et d'accès
- Exposition générique des données
- Importance de la qualité des métadonnées
ISIDORE est un moteur de recherche ; un site web ; un point d'accès à des métadonnnées enrichies et reliées aux publications scientifiques
ISIDORE est un site web... avec « une »
+ de 1000 sources de données moissonnées
+ de 1.300.000 ressources indexés
Quelques chiffres
Début du projet : mai 2009
Ouverture : déc. 2010
Version 1 : mars 2011
Version 1.2 : déc. 2011
Version 2 : sept. 2012
+ 1.700.000 de ressources numériques : archives et corpus, actualités scientifiques publications, etc.
+ 1600 sources de données
+ 60000 visiteurs uniques / mois
Participer à ISIDORE ?
Données
Données Données
Données
RéférentielsRéférentiels
Référentiels
Fonctionnement général (1)
Données
Collecte(crawl)
Traitements Accès(API et facettes)
Gestion, Monitoring, Statistiques
Utilisateurs
RéférentielsNormalisés (RDF/SKOS)
SPARQL endpoint pour les producteurs de données
Fonctionnement général (2) rech
erc
heis
idore
.fr
Extension de recherche sur les catalogues de bibliothèques (SRU/SRW - Z3950)
Données
Données
Données
OAI-PMH
RDFa
RSS
Enrichissement des des métadonnées
et données(format pivot RDF)
Référentiels Référentiels
ISIDORE
Pactols
Rameau Geonames(lieux)
Thésaurus W (SIAF)
Lexvo(langues)
RéférentielsHALSHS
(personnes,disciplines)
OpenEditionCalenda.org(catégories)
Isidore dans le nuage du web sémantique
Principes du projet
- Implication des opérateurs SHS produisant des données (non-éditées, sources éditées, publications)
- Utilisation de standards internationaux
- Formats ouverts (indépendance vis à vis de fournisseurs de données)
- Mise en valeur des données, métadonnées, référentiels structurés produits par les équipes.
- Développement et mode de fonctionnement itératif
Aspects documentaires
- ISIDORE collecte des métadonnées et indexe le texte intégral ou les données « embarquées » (IPTC ; XMP ; MS Word ; MS Excel ; ODT ; MPEG 7)
- métadonnées (OAI-PMH + Dces / DC Terms)
- actulités (RSS ; Atom)
- données (RDFa = RDF dans une page web)
Aspects éditoriaux (1)
- ISIDORE collecte tous les types de données (publications ; corpus ; actualités scientifiques)
- L'important dans ISIDORE : l'information
- la question du « bibliographique »
- Annuaire des sources : http://www.rechercheisidore.fr/annuaire
- Ils participent : Open Edition ; Erudit ; Cairn ; Persee ; CCSD (HAL-SHS, MédiHAL) ; plate-forme de MSH ; UQAM ; UOH ; Cerimes ; Gallica/BNF ; ABES...
Aspects éditoriaux (2)
-ISIDORE affecte aux métadonnées moissonnées des identifiants pérennes (handle) ce qui permet de citer les « notices » d'ISIDORE et donc les ressources
- Si le producteur à déjà donné un id. pérenne (DOI, ark, handle, OAI)
=> ISIDORE peut ré-exposer celui du producteur
- Dans tous les cas, les handle ISIDORE sont à votre disposition (producteurs, utilisateurs)
=> C'est un service gratuit
Alors ? Et vous ?
En tous cas, nous vous attendons dans ISIDORE...
… et merci pour votre attention !