theses.fr tutoriel
DESCRIPTION
theses.fr tutoriel. Isabelle Mauger Perez et Aurélien Charot , ABES. theses.fr : des données, une interface, des services. Une application en production depuis le 11 juillet 2011. Que trouve-t-on aujourd’hui dans theses.fr ?. Toutes les données validées dans STAR - PowerPoint PPT PresentationTRANSCRIPT
Journées ABES – 20 juin 2012
theses.frtutoriel
Isabelle Mauger Perez et Aurélien Charot, ABES
UNE APPLICATION EN PRODUCTION DEPUIS LE 11 JUILLET 2011
theses.fr : des données, une interface, des services
Que trouve-t-on aujourd’huidans theses.fr ?
• Toutes les données validées dans STAR– Description de 11 397 thèses soutenues à partir de 2006– Indexation du texte intégral– Accès au texte intégral dans 70% des cas (8 019 thèses)
• Toutes les données de STEP lorsqu’une certaine finesse de description est atteinte– Description de 64 812 thèses en préparation depuis 2002
• 131 335 personnes– Une base de données de personnes qualifiées par les thèses qui
leur sont liées– Exemple : jazz Brésil
• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,
– Les pages de personnes– Les pages d’organismes
Les pages « finales »
• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,
– Les pages de personnes– Les pages d’organismes
Les pages « finales »
http://www.theses.fr/2011REN20056
• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,
– Les pages de personnes– Les pages d’organismes
Les pages « finales »
http://www.theses.fr/2011REN20056
http://www.theses.fr/s57810
• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,
– Les pages de personnes– Les pages d’organismes
Les pages « finales »
http://www.theses.fr/2011REN20056
http://www.theses.fr/s57810
http://www.theses.fr/154887528
http://www.theses.fr/ 079486304
Les trois onglets de recherche
• Toutes les thèses– Deux restrictions possibles :
• uniquement les thèses soutenues• uniquement les thèses soutenues accessibles en ligne
• Thèses en préparation– Restriction possible : uniquement les thèses en préparation dont
la soutenance est prévue dans les 6 prochains mois
• Personnes : docteurs, directeurs de thèse, membres du jury– Restriction possible : uniquement les personnes en lien avec
une thèse soutenue ou en préparation depuis moins de 5 ans
Au choix de l’utilisateur
• Consultation par l’encart de recherche– Requête sur les métadonnées et le texte intégral
• Consultation par l’encart de recherche puis raffinement par utilisation des facettes
date de soutenance, établissementdiscipline, école doctorale,langue de la thèse, directeur de thèse,domaine
• Consultation par navigation pure via les facettes
Page d’accueil : www.theses.fr
Page de résultats obtenue après utilisation de l’encart de recherche
Page de résultats obtenue après raffinement par la facette Etablissement
Page de la thèse soutenue obtenue en cliquant sur le titre
Page d’un organisme obtenue en cliquant sur le nom de l’organisme
Page de la thèse en préparation obtenue en cliquant sur le titre
Page d’une personne obtenue en cliquant sur le nom de la personne
Les services• Rebonds vers des applications du web 2.0 via AddThis• Recommandations• – des flux ATOM par défaut
• thèses soutenues récemment,• soutenues récemment accessibles en ligne,• nouvelles thèses en préparation,• annonces de soutenance
– et des flux personnalisables : flux de recherche•
– Zotero– format txt– format csv– formats « machines »
Un service particulier :
• Rendre possible un cercle vertueux : l’utilisateur entre en contact avec le producteur pour signaler une erreur
Jul-11 Aug-11 Sep-11 Oct-11 Nov-11 Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-120
20
40
60
80
100
120
140
160
180
200
16 7 10
9576
4558 68
48 37 28
147 154
Assistance de theses.fr
signaler une erreur
ABESstp
• Depuis avril 2012
• Mail au correspondant STEP ou au correspondant STAR
Les données brutes• Ouvertes, réutilisables via une API.
– pour une liste de résultats : ajouter &format=xml ou &format=json ou &format=atom ou &format=csv ou &format=txt en paramètre de l’url de recherche
– pour une page finale : ajouter .xml (ou .rdf ) à l’url de la page
• Ce principe permet d’ajouter autant de formats que nécessaire.
• Exemple : récupérer la description de la thèse 2010MON30067– dans l’interface– en rdf/xml
• Exemple : récupérer la liste de toutes les thèses soutenues à Toulouse 2 et accessibles en ligne dans l’ED Science du langage.– dans l’interface– en xml (solr)– en json
theses.fr et Google• Description de
toutes les pages de theses.fr dans un fichier sitemap pour faciliter l’indexation des robots
• 77% du trafic provient des moteurs de recherche
Jul-11
Aug-11
Sep-11
Oct-11
Nov-11
Dec-11
Jan-12
Feb-12
Mar-12
Apr-12
May-12
0
20,000
40,000
60,000
80,000
100,000
120,00099,674
13,218
10,671
Source de trafic (nb de visites)
trafic de recherche
sites référents
accés directs
77%
14%9%
Source de trafic (% du nb de visites)juillet 2011-mai 2012
trafic de recherchesites référents
accés directs
0
20,000
40,000
60,000
80,000
100,000
120,000
12,71111,868 15,961
61,815
73,306
66,891
91,055
95,259 99,652
93,250
97,161
Visiteurs uniques
Quelques chiffres
Jul-11
Aug-11
Sep-11
Oct-11
Nov-11
Dec-11
Jan-12
Feb-12
Mar-12
Apr-12
May-12
050,000
100,000150,000200,000250,000300,000350,000400,000450,000500,000
86,81075,383116,255
402,331 399,129
349,976
427,499 440,975467,914
426,059
427,365
Pages vues
Plus de détails• Le cercle vertueux de theses.fr : mise en relation de l’utilisateur
et du producteur de données, Punktokomo, 10 avril 2012
• theses.fr : comment fonctionne l’onglet « personnes » ?, Punktokomo ,19 janvier 2012
• theses.fr : l’API XML de recherche, Punktokomo, 22 juillet 2011
• theses.fr : l’API XML des personnes, Punktokomo, 12 juillet 2011
• theses.fr : l’API XML des thèses, Punktokomo , 12 juillet 2011
• theses.fr : les technologies utilisées, Punktokomo, 12 juillet 2011
UN PROJET DOTÉ DE MOYENS SPÉCIFIQUES JUSQU’A FIN 2012
theses.fr : les prochains développements
Quelles fonctionnalités demain dans theses.fr ? (1)
• Une interface en trois langues– Français, anglais, italien
• Un module de recherche avancée– exclure la recherche dans le texte intégral– ne pas tenir compte de la pertinence définie par
défaut (pondération des index)– faciliter la recherche exacte
• Calendrier : fin septembre 2012
Quelles fonctionnalités demain dans theses.fr ? (2)
• Des services accessibles sur authentification– paniers– alerte mail– …
• Des services spécifiques pour les personnes reconnues comme étant l’auteur d’une thèse– mise en relation : être contacté via theses.fr– accès aux statistiques de sa page de thèse– …
• Impossibilité d’offrir de tels services pourles directeurs de thèse
• Calendrier : fin 2012
Que trouvera-t-on demaindans theses.fr ? (1)
• Toutes les données du Sudoc relatives aux thèses de doctorat françaises soutenues depuis 1985
• Toutes ? Non. Celles qui passent avec succès l’algorithme de chargement qui a pour but de les « FRBriser ».
• Regroupement des notices Sudoc en familles composées de :– la notice mère (la notice de la thèse originelle telle que validée par le
jury : zone 105$m)– Éventuellement, les notices enfants (les notices de reproduction : zone
105$bv)• Chaque famille aura une page propre : www.theses.fr/NNT• Conséquence pour theses.fr : recherche de l’exhaustivité
depuis 1985.• Calendrier : fin septembre 2012.
Que trouvera-t-on demaindans theses.fr ? (2)
• Toutes les données de TEL et l’indexation du texte intégral sous réserve que le lien à la thèse originelle ait été trouvé.
• Principe : chargement de toutes les données de TEL dans le Sudoc par moissonnage oai-pmh de TEL.– Création de notices probablement assez pauvres (pas de liens
IdRef) mais avec l’accès au texte intégral.• Algorithme « FRBrisateur » de chargement dans theses.fr
– Si la notice mère est trouvée, ajout dans theses.fr de l’accès au texte intégral
• Conséquence pour theses.fr : faciliter l’accès au texte intégral sur le web
• Calendrier : fin 2012
Que trouvera-t-on demaindans theses.fr ? (3)
• Des liens vers le catalogue des « thèses à la carte » de l’ANRT de Lille
• Principe : envoi régulier (mensuel ?) de la liste de NNT disponibles dans « thèses à la carte ».
• Conséquence pour theses.fr : faciliter l’accès au texte intégral avec la possibilité de commander un fac-similé de la thèse.
• Calendrier : soumis aux contraintes de l’ANRT, sans doute fin 2012.
Que trouvera-t-on demaindans theses.fr ? (4)
• Les données de Thésa pour les thèses en préparation au sein d’établissements relevant de la CGE et non utilisateurs de STEP.
• Principe : envoi régulier (mensuel ?) des données par l’INIST.
• Conséquence pour theses.fr : recenser toutes les thèses en préparation
• Calendrier : soumis aux contraintes de l’INIST, sans doute fin 2012.
Que trouvera-t-on demaindans theses.fr ? (5)
• Des liens vers les données non-documentaires issus des partenaires associatifs du projet : Intelli’Agence-ABG par exemple.– Cvthèque– Offres d’emploi– …
• Conséquence pour theses.fr : servir les docteurs et les doctorants au-delà de leur travail académique
• Calendrier : soumis aux contraintes de l’ Intelli’Agence-ABG, sans doute fin 2012.
Journées ABES – 20 juin 2012