les « bibliothèques virtuelles humanistes...expérimenté pour le site bvh depuis le 22 juillet...
TRANSCRIPT
Les « Bibliothèques Virtuelles Humanistes »
Vers un centre de ressources numériquesTextes Imprimés PatrimOniaux (TIPO)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
Textes Imprimés PatrimOniaux (TIPO)
Université d’hiver Adonis-Valpré– 6-8 décembre 2010
http://www.bvh.univ-tours.fr
Le Centre d’Études Supérieures de la Renaissance à Tours: une UMR et une UFR
• Les mots-clés des humanités numériques:• Accessibles
Les BVH: Equipe-projet et CRN « TIPo »
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Accessibles• Protégées (propriété intellectuelle)• Réutilisables, partageables, transmissibles• Archivées de façon durable
• L’organisation d’une communauté: entre incitation et sélection (soumission/ acceptation de projets)
Documents patrimoniauxDocuments patrimoniaux
Documents patrimoniauxDocuments
patrimoniaux
Imprimés/ manuscritsImprimés/ manuscrits
Bibliothèques Région CentreBibliothèques Région Centre
Autres (publiques/
privées)
Autres (publiques/
privées)Documents patrimoniauxDocuments
patrimoniaux
ArchivesArchives
PubliquesPubliques
PrivéesPrivées
Moteur XTFMoteur XTF
MétadonnéesCatalogue et TEI
MétadonnéesCatalogue et TEI
PDF, PDF/mrcPDF, PDF/mrc
SommairesSommaires
Textes en TEITextes en TEIBVH Bases d’imprimésBVH Bases d’imprimés
Textes en TEITextes en TEI
IconographieIconographie
Mots-clés IconclassMots-clés Iconclass
LettrinesOLDB
LettrinesOLDB
Base typographique
Base typographique
Le moteur de recherche XTF (eXtensible Text Framework)
- Développé par l’Université de Berkeley (California Digital Library) depuis 2005 –Expérimenté pour le site BVH depuis le 22 juillet 2009- Accessible sur sourceforge.net- Système de recherche multiformat sur les métadonnées et le plein-texte pour les documents
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
documents- Xml, xml/tei- Html- Pdf
- CrossQuery pour les requêtes, dynaXML pour la restitution selon les feuilles de style XSLT, indexeur Lucene- Opérationnel sur les sites Mark Twain, Newton, The Chicago Encyclopedia…- Permet (avec adaptation):
- l’alignement fac-similé/ texte- l’application des feuilles de style TEI Renaissance
Un modèle possible: Deustches Text Archiv (DTA)
Affichage de l’image et/ou du texte en html ou en xml
http://www.deutschestextarchiv.de
xml
Liens vers les métadonnées et le téléchargement des fichiers html et xml
• CRN émergent Adonis depuis mai 2010:« Textes Imprimés PatrimOniaux » (TIPo)
• Programme portant sur:
Un CRN émergent au sein des BVH: TIPo
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Les données (imprimés de la Renaissance, actes notariés) et les métadonnées (catalogue, headers TEI)• Les outils• Les savoir-faire (les « compétences »)• Les formations (TEI, gestion de projet)
Métadonnées
Savoir-faire Outils
Formations
BVHDonnées
Numérisation transcription
contrôle indexation
Archivage
Modèes de métadonnées
Savoir-faire
Outils: développement,
adaptation, partage
TIPoMise à
disposition des données
Formations: initiale et continue
•Traitement des textes et des images pour les imprimés patrimoniaux
• Principalement les imprimés anciens (XVe-XVIIe siècles), cœur de cible (extensible aux
Cibles des BVH
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
XVIIe siècles), cœur de cible (extensible aux ouvrages postérieurs), pôle associé BnF
• Manuscrits et archives: collaboration avec TELMA et Ecole des Chartes
• Intégration texte/ image
• Editions génériques/ génétiques
Contenu
Histoire, littérature, philosophie
Style
Communautés de chercheurs et d’usagers
Langue
linguistique
Forme
Histoire du livre
Style Histoire de
l’art
•Accès libre et gratuit à toutes les données (y compris la structure TEI – en cours)•Veille juridique et propriété intellectuelle pour:
Accessibilité et propriété
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
•Les fac-similés numériques, les images extraites•Les textes transcrits et publiés en html et xml•Les textes encodés en TEI•Les métadonnées, les bases de données•Le progiciel co-développé avec une société (Edit-tei)•Les applications en licence libre (AGORA, avec le LI de Tours)= libres de droits, avec licence CC (sauf Edit-tei)
Header affiché
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
Données
SVN Copie 1 Copie 2
Archivage local/ délocalisé
SVNExternaliséPdf, textes
Copie 1JPG
bibliothèque
Copie 2JPG
CESR
Copie 3 JPG Cines?
IN2P3?
• Un logiciel d’analyse de structuration de la page, AGORA (opérationnel), avec le Laboratoire d’Informatique de Tours (J.-Y. Ramel)
• Un logiciel d’OCR (RETRO) pour la typographie ancienne
BVH: outils pour l’image patrimoniale
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Un logiciel d’OCR (RETRO) pour la typographie ancienne (en développement), avec le Laboratoire d’Informatique de Tours (J.-Y. Ramel) et le LITIS (Rouen)
• Un comparateur et un indexeur de lettrines (fond, lettre, motif) dans la base OLDB, avec le Laboratoire d’Informatique de Tours (J.-Y. Ramel) et le consortium Navidomass (J.-M. Ogier, U. de La Rochelle) – en développement
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
AGORAAGORA• Extraction automatique des éléments figurés du livre
• Préindexation automatique des types d’éléments et pré-balisage
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• SOUS-BASES D’IMAGES
• Galerie des marques typographiques
• Galerie de portraits
• Base emblèmes (indexée par Iconclass)
• Base lettrines (indexation propre + Iconclass)
EXTRACTION GRAPHIQUE: SCENARIOS
• Délimitation des zones de texte/ image selon des scénarios
• Scénarios: type de zone d’image/ de texte (lettrine, titre, signature, réclame, corps de texte, numéro de page, titre courant, marges bruit, …)
CLASSIFICATION PAR PROXIMITÉ
Structure physique: les blocs
Eléments
graphiques
pictura/ illustration
graphiques
Bloc de texte
Lettre
ornée
Portrait
Ornement
Marque
D’imprimeur
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
ICONCLASS: MOTS-CLÉS POUR INDEXER LES IMAGES
ET LE TEXTE
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
http://www.bvh.univ-tours.fr/Iconclass_browse.asp
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
Indexation des emblèmes
•Base d’emblèmes (Iconclass)
• Collaboration avec le projet French Emblem Books (Glasgow)
• Indexation avec codification alpha-numérique
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Indexation avec codification alpha-numérique
• Entrepôt OAI Iconclass moissonné
• Encapsulation web du thésaurus multilingue
• Affichage multilingue des données d’indexation
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
Extraction des éléments graphiques: portraitshttp://www.bvh.ques niv-tours.fr/img_portrait.asp
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
Extraction et indexation des lettrines
Michel de Vascosan, 1555
Parcours d’un matériel
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
Michel de Vascosan, 1559
Hierosme de Marnef, & Guillaumme Cavellat, 1576
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
BATYR: base de typographie de la Renaissance
•Ornements gravés•Ornements de fonte•Polices de caractères
•Pré-indexation d’images d’ornements typographiques (AGORA)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
•Pré-indexation d’images d’ornements typographiques (AGORA)•Constitution automatique de spécimens de caractères (RETRO) et reconstitution des fontes
http://www.bvh.univ-tours.fr/materiel_typo.asp
Indexation des illustrations du Champfleury (G. Tory, 1529, exemplaire BM de Blois) avec Iconclass
ICONCLASS
• 31A12 figure, inscrite dans un cercle ou un carré, avec les jambes écartées et les bras étendus vers le haut ou le côté (+ variante: vu de face)
• 49D342(SQUARE) quadrilatère régulier : carrérégulier : carré
• 49D36 Cercle (planimétrie géométrie)
• 49D52 mesurer
• 49L12(O) écriture romaine; écriture
basée sur l'alphabet romain (avec
LETTRES) 49L1 Lettres, alphabet,
texte
• 49D52 Tracer des figures, mesurer,
calculer
• 49D362 Quadrature du cercle
Autres descripteurs : Leonardo da Vinci/ The Vitruvius Man/ Jean Perreal/ Jean de Paris
Encodage des lettrines avec Iconclass
Lettrine L (Champfleury): <g ref=""/>L</><hi rend=”larger”>L</hi>Es
Iconclass descriptors in <figDesc>:•49L171 Lettre initiale historiée
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
•49L171 Lettre initiale historiée•49L12 (L) Écriture basée sur l’alphabet romain (L)•48A9875(+32) Ornement – Feston, guirlande (+variante: décorations pendantes)•49M32 Livre•49D521 Instruments de mesure
<!-- … -->
</teiHeader>
<facsimile><surface>
<graphic xml:id= "16v" url="Champfleury_Blois_16v_ill.JPG" width="1300px" height="1140px"/>
<zone xml:id= "16v_1" rendition="" ulx="60" uly="50" lrx="897" lry="281" rend="visible"/>
<!-- … -->
Champfleury:
Encodage XML-TEI version bêta, à l’aide d’Image Markup Tool 1.8, par V. Le Rolle, N. Dufournaud et L. Danjean
CESR
<!-- … -->
</surface>
</facsimile>
<!-- … --> <text>
<!-- … --> <body>
<!-- … --><div>
<!-- … -->
<p n="imtImageAnnotations"><!-- … --> <figure facs="#16v"></figure>
<figure facs="#f16v_1" n="imtAnnotation" ><p>Le Flageol de Virgile <lb/>en perspective, et<lb/>moralite.</p>
</figure><!-- … -->
</p><p><g ref=""></g><hi rend="larger">P</hi>Our
myeulx encores perseverer, Je veulx cy dire & monstrer que nosdictes
<lb/>lettres Attiques ont si bien este proportionees des Anciens qu'elles ont en<!-- … -->
Indexation d’éléments graphiquesBDD = > XML-TEI (en développement)
• Des modèles d’encodage TEI pour les textes transcrits (fichiers-types, feuilles de style)
• Des modèles d’encodage TEI pour les éditions complexes (hybrides manuscrits/ imprimés, livres de comptes, liasses hétérogènes, recueils factices)
BVH: outils pour le texte imprimé patrimonial
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
factices)
• Un éditeur TEI, avec modules de régularisation graphique (détildage et dissimilation), avec la société Digiscrib
• Des thésaurus pour le français de la Renaissance
• Des dictionnaires de noms propres/ entités nommées (en projet, avec D. Maurel, LI Tours)
• Un outil de traitement de l’hétérographie et d’étiquetage morpho-syntaxique, avec le Laboratoire FORELL (M.-H. Lay, U. de Poitiers)
• Formats de téléchargement: pdf-mrc, html, tei• 2 niveaux de transcription: diplomatique/ patrimonial, 3e (modernisé) en projet• Transcription patrimoniale annotée: en projet
Données textuelles réutilisables
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Transcription patrimoniale annotée: en projet• 440 ouvrages en ligne, avec pdf/ mrc (750 numérisés)• Text/ pdf• Text/ Tei• Text/ html
Les BVH et la TEI(depuis 2004)
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
HISTORIQUE
•Avant 2007: • 1995: 8 textes de Rabelais en ligne (Nice), html/hyperbase• 1998-2007: 17 textes html en ligne (Poitiers-Tours),
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• 1998-2007: 17 textes html en ligne (Poitiers-Tours), html/ tactweb• 2004: début des cours XML (JD Fekete) et TEI (N. Dufournaud) pour le master professionnalisant du CESR
•Depuis 2007 (“TEI membership”): début de l’encodage en TEI P5 (crédits ANR “Masses de données”)•2008-2010: harmonisation des en-têtes TEI et des normes de catalogage
1. Métadonnées de catalogues pour le moteur XTF(gestion de la majeure partie du site BVH)
2. Compatibilité CCFR (comme le catalogue des
MÉTADONNÉES DE CATALOGAGE
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
2. Compatibilité CCFR (comme le catalogue desincunables – choix de MARC) et OAI-PMH pourmoissonnage par Gallica
3. Compatibilité Europeana (TEI/MARC/Dublincore)
http://contentchecker.isti.cnr.it:8080/portal/brief-doc.html?query=europeana_collectionName%3A08007&start=1&view=table&tab=
Métadonnées du document électronique : Catalogage et moissonnage
Notice XTF en ligne
Header html
Fichier source en XML-TEI
<record><dc:identifier>http://www.bvh.univ-tours.fr:8080/xtf/view?docId=tei/B372616101_3537/B372616101_3537.xml</dc:identifier><dc:title>Tiers Livre</dc:title><dc:creator>Rabelais, François</dc:creator><dc:publisher>Paris, C. Wechel</dc:publisher><dc:date>1546</dc:date><dc:type>texte imprimé</dc:type><dc:format>text/xml</dc:format> <dc:rights>BVH Epistemon</dc:rights><europeana:provider>Bibliothèques Virtuelles Humanistes</europeana:provider><europeana:type>TEXT</europeana:type><europeana:isShownAt>http://www.bvh.univ-tours.fr:8080/xtf/view?docId=tei/B372616101_3537/B372616101_3537.xml</europeana:isShownAt></record>
Moissonnage des métadonnéespour Europeana
MÉTADONNÉES DE STRUCTURE, les sommaires: migration en XML/ TEI (en cours)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
Notices des fac-similés:• Reprendre les notices bibliographiques standard• Les enrichir par la bibliographie spécifique à un
RÉUTILISATION/ ENRICHISSEMENT DES MÉTADONNÉES
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
ouvrage/ un auteur:• Nouvelle publication dans la base• Transfert des métadonnées dans:
• Le header TEI• L’entrepôt OAI/ PMH pour Gallica et Europeana
De la transcription à l’encodage
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
Acquisition numérique du texte: les OCR
• Résultats obtenus avec FineReader (ABBYY), Omnipage avec/ sans dictionnaires spécifiques; tests comparatifs
• Tests du logiciel BIT-Alpha (société Tomasi) à
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Tests du logiciel BIT-Alpha (société Tomasi) à Wolfenbüttel et à Tours. Acquisition du logiciel par le CESR (04-12-2008) – Problèmes de rentabilité (longueur et complexité de l’apprentissage)
• Développement de RETRO (U. de Tours, JY Ramel) après classement des clusters par AGORA
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
Pré-balisage avec RETRO: OCR en cours de développement (Tours)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
=> Sortie en XML/ TEI
Evaluation of an Optical Character Recognition System
� Authors
� Ait-Mohand Kamel, Laurent Heutte, Thierry Paquet
� Laboratoire LITIS, Université de Rouen
� Nicolas Ragot
� Laboratoire d’informatique, Université de Tours
44
Collaboration with the BnF
� Printed documents digitization program
� Digitization
� Transcription with OCR� Transcription with OCR
� Need to predict OCR results
� Assess data quality
� Prediction of what the OCR result can be
� Based on a benchmark for OCR
45
Adaptation results
� Adaptation with 30 line images + transcription
� Improvement, but limited impact due to:� Bad line segmentation� Bad line segmentation
� Unknown characters (ē, ā, ō ), long “S”
46
BooksOmnipage+ lexicon
OmnipageOcropus +
lexicon
Our OCRwithout lexicon
Our adapted
OCRwithout lexicon
Our OCR –”clean” lines, no lexicon
Our adapted
OCR –”clean” line no lexicon
Antiquités Gauloises 89.82% 85.93% 86.08% 88.51% 91.78% 94.98%
Expédition chrestienne 86.48% 61.25% 67.82% 75.61%
Les treselegantes annales 85.6% 73.92% 76.84% 80.7%
Les histoires de Diodore 90.19% 83.82% 83.36% 85.32%
Visualisation contextuelleVisualisation contextuelle
Coupler RETRO et OCRopus
Coupler RETRO et OCRopus
Améliorer le processus de
clustering
Améliorer le processus de
clustering
OCRRETRO + OCRopus
OCRRETRO + OCRopus
Regroupement des polices
Regroupement des polices
Expertise linguistiqueExpertise
linguistique
TEI Renaissance
•Renaissance.dtd•Renaissance.xsl•Fichier type
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
•Fichier type•header, qui contient
•Les champs des notices•La localisation des facsimilés•Les auteurs•Les crédits•Les versions
•=> affichage total ou partiel en tête du document
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
Pré-balisage TEI avec l’outil EDIT-TEI
• Co-développement et acquisition auprès de la société Digiscrib (sept. 2009)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
la société Digiscrib (sept. 2009)• Encodeur de base, en Java, avec balises préétablies pour les prestataires ou les non spécialistes• Permet une correction par dictionnaire de formes (français, latin, italien) personnalisé (accentué ou non, mots coupés ou non)
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
• Préformatage de la structure du document• Balises fondamentales lb, p, sic… par raccourcis clavier ou menus – étape opérateur• Détildage (français et latin)• Dissimilation ij/uv (français)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Dissimilation ij/uv (français)• Ajout ou validation de balises éditoriales (sic, corr, unclear, name) – étape BVH• Export vers Oxygen ou un autre éditeur xml
Le corps du texte: encodage TEI « patrimonial »
• Constituer un Corpus en français de la Renaissance (principalement), avec
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
Renaissance (principalement), avec traitement par Philologic, TXM, Analog• Objectif: 141 textes originaux en 2014 (sans restriction d’accès, à partir des graphies originales• Encodage patrimonial: sélection de balises pour traitements automatiques
• Le plus petit commun dénominateur pour les 4 communautés => une transcription générique
ENCODAGE PATRIMONIAL
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• En-tête conforme aux usages des bibliothèques
• La transcription annotée considérée comme un “livre” et comme une “oeuvre” (avec identifiant)
DIPLOMATIQUE/ PATRIMONIAL
AVENVES (diplomatique)
Feuille de style 1
> AVENUES
53
ƒi ie> si je
reuerēce> reverence
vƒurpateur> usurpateur
(patrimonial) Feuille de style 2
<fw place="top-center" type="head">LE PREMIER LIVRE.</fw><fw place="top-left" type="pageNum">FEUIL. I</fw> <div type="book" n="1">
<head rend="center">
L’ART ET SCIENCE DE LA
<lb/>DEUE ET VRAYE PROPORTION DES LETTRES ATTI-
<lb/> QUES, QU’ON DICT AUTREMENT LETTRES ANTIQUES
<lb/> ET VULGAIREMENT LETTRES ROMAINES.
</head>
<p>
<lb/> <g ref="">l</g><hi rend="larger">L</hi>E matin du jour de la
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
<lb/> <g ref="">l</g><hi rend="larger">L</hi>E matin du jour de la
feste aux Roys, apres
<lb/> avoir prins mon sommeil & repos, & que mon esto
<lb/> mac de sa legiere & joyeuse viande avoit faict
<lb/> sa facile concoction. que l’on comptoit M. D.
<lb/> XXIII. me pris a fantasier en mon lict, & mou
<lb/> voir la roue de ma memoire / pensant a mille pe
<lb/> tites fantasies, tant serieuses que joyeuses. en-
<lb/> tre lesquelles me souvint de quelque lettre An
<lb/> tique que j’avoys nagueres faicte pour la mai
L’ART ET SCIENCE DE LA
DEUE ET VRAYE PROPORTION DES LETTRES ATTI-
QUES, QU’ON DICT AUTREMENT LETTRES ANTIQUES
ET VULGAIREMENT LETTRES ROMAINES.
LE matin du jour de la feste aux Roys, apres
Feuille de style « Renaissance » = > Version html
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
LE matin du jour de la feste aux Roys, apres
avoir prins mon sommeil & repos, & que mon esto
mac de sa legiere & joyeuse viande avoit faict
sa facile concoction. que l’on comptoit M. D.
XXIII. me pris a fantasier en mon lict, & mou
voir la roue de ma memoire / pensant a mille pe
tites fantasies, tant serieuses que joyeuses. en-
tre lesquelles me souvint de quelque lettre An
TEI P5: modules utilisés
• core, header, textstructure, drama, figures, gaiji, linking
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
drama, figures, gaiji, linking msdescription, namesdates, transcr et verse • schémas xml générés avec Roma
Éléments d’édition générique(hors métadonnées)
<abbr> <expan> <add><note><graphic> <sic> <orig> <choice> <corr> <del> <gap> <unclear> <reg> <supplied> <space> <said> <stage> <speaker> <quote>
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
<said> <stage> <speaker> <quote> <foreign> <name> <persName> <placeName> <geogName> <ref><sig> <catch>
<div><head><pb> <p> <lb> <l> <lg> <fw>
Transcription en TEI Renaissance
simplifié
Transcription en TEI Renaissance
simplifié
DétildageDétildage
LE PROGICIEL EDIT-TEI (Digiscrib / BVH)
Import .doc ou transcription
Import .doc ou transcription
DissimilationDissimilation
Correction avec dictionnaire
Correction avec dictionnaire Output XMLOutput XML
PhiloLogic (Chicago, Mark Olsen) adapté
par Ecrit.com, Poitiers
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
Poitiers
Modification nécessaire du
balisagehttp://www.bvh.univ-
tours.fr/Epistemon/philologicdev.asp
• Numérisation patrimoniale, production de fac-similés numériques, archivage standard
• Découpage de structure, création de tables des matières, bases de feuilletage
• Extraction et classement automatiques des éléments illustrés et des zones de texte
• Encodage TEI pour les documents imprimés ou hybrides: principes de
BVH: savoir-faire
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Encodage TEI pour les documents imprimés ou hybrides: principes de transcriptions quasi-diplomatique/ patrimoniale
• Indexation des images avec Iconclass
• Gestion de bases de données relationnelles (fac-similés, textes, iconographie, actes notariés)
• Création d’entrepôts OAI-PMH (moissonnage par Gallica et Europeana)
• Évaluation des coûts réels (400 euros/ fac-similé, 1000 euros/ ouvrage transcrit)
Accès libre ou à la demande:• Un Manuel d’encodage TEI “Renaissance”, en ligne depuis 2008, version 3 en préparation
Référentiels et documentation
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
depuis 2008, version 3 en préparation• Manuel SVN (en préparation)• Descripteurs d’images (Iconclass, ODLB - lettrines)• Cahiers des charges (numérisation, interface web, moteur de recherche, normes de saisie)• Modèles de métadonnées (description d’imprimés, d’incunables, de manuscrits, d’archives)
Formations•Master pro, unité d’enseignement BVH depuis 2004, avec formation TEI•Stages BVH TEI pour les étudiants, et ouverts depuis janvier 2008 selon les places disponibles
Transmissibilité (I)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
janvier 2008 selon les places disponibles•Formation continue•Complémentarité avec les formations Ecole des Chartes•Interventions dans les masters pro de l’ENSSIB, Angers, Poitiers•Intervenants issus de l’ENSSIB, Poitiers, Caen, IRHT, INRIA, Laboratoires d’informatique, consortium TEI (Lou Burnard, Elena Pierazzo)
Contrat quadriennal 2012-2015 (étendu à 2017)• Intégration du master pro dans un ensemble professionnalisant “Patrimoine matériel et immatériel”• Perméabilité master pro/ recherche• Dépôt d’un projet de laboratoire d’excellence
Transmissibilité (II)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Dépôt d’un projet de laboratoire d’excellence “Patrimoine Moyen Age et Renaissance”, avec accent sur le numérique (image/ texte/ son), Tours-Orléans-Poitiers-La Rochelle• Intensification et internationalisation des stages de formation initiale et continue• Souhaitée: une formation doctorale à double compétence (humanités – nouvelles technologies)
• Amélioration des performances de l’OCR (segmentation, correction avec dictionnaires de formes, recherches sur les n-grammes)
• Solutions d’affichage et de requête avec XTF, migration des
Développements en cours
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Solutions d’affichage et de requête avec XTF, migration des données bibliographiques et sommaires en XML/ TEI
• Adaptation de PhiloLogic (U. de Chicago) pour la base textuelle
• Comparaison des modèles de métadonnées TEI pour les actes notariés
• Classement des familles de polices anciennes et des ornements typographiques (projet BATYR) avant/ pendant le traitement par OCR
• OCR: collaboration avec la BnF et le projet européen IMPACT (Improving Access to Text) pour une thèse en co-direction Tours-BnF-Rouen
• Constitution de versions sonores des textes transcrits et de textes modernisés
Développements 2011-2014
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Indexation et exploitation des données:
• Entités nommées et SIG associés
• Ontologies RDF pour la prosopographie et les mots-clés
• Recherche par facettes: nouvelle typologie des genres littéraires
• Recherche par variantes graphiques
• Tests d’autres plateformes: TXM (Lyon, ICAR), Pinakes (Pise), SADE (COST Interedition),…
Typologie -
Entités nommées
OCR Variation graphique
Prosopographie
SIG
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
BVH + TIPo2011-2014
Ontologies RDF
Typologie -facettes SIG
Versions audio
• Données:
• 150 nouveaux fac-similés en ligne (Châteauroux, Vendôme, Blois, Tours –suite de la campagne), avec leurs sommaires et extraction des éléments illustrés; voir http://www.bvh.univ-tours.fr
• Mise en ligne de 16 nouveaux textes en XML/ TEI, avec nouvelles feuilles de style (Ronsard, Rabelais, Louise Labé, Du Bellay, Garzoni,…)
Bilan: mai-novembre 2010 (I)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
de style (Ronsard, Rabelais, Louise Labé, Du Bellay, Garzoni,…)
• Encodage TEI de 15 nouveaux textes transcrits sur 41 (141 horizon 2014)
• Mise en ligne d’un millier de nouvelles minutes notariales
• Numérisation et début d’indexation de 4500 actes notariés du XVe siècle
•Mars- septembre 2010:• Nombre d'accès réussis 2 063 352 (82%)•Top download: Champfleury en pdf (avec sous-couche texte) entre fin juillet et mi-septembre (moins trois semaines de panne serveur) : 2946 téléchargements•Durée moyenne des visites 41:34 Min
• Outils:
•Fichiers-types pour l’interopérabilité des métadonnées incunables/ imprimés/ manuscrits, actes notariés
•Elaboration des modèles de rétroconversion pour les catalogues des incunables (avec le groupe de travail du Ministère de la Culture)
Bilan: mai-novembre 2010 (II)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
•Tests sur le comparateur et indexeur de lettrines
•Développement du moteur de recherche XTF (nouvelle version 2010)
•Prototype de l’éditeur TEI, des modules de détildage et de dissimilation
•Préparation de projets:
•Corpus « Montaigne à l’œuvre » (avec l’U. de Chicago) et début des travaux sur un modèle d’édition génétique (avec Lou Burnard)
•Site Garamond (avec le Ministère de la Culture et les Commémorations nationales)
• Préparation de projets (suite)
•Actes notariés avec TELMA
•Procédures de requête sur des textes en français non standard pour des corpus textuels hétérogènes
•Publications et participations aux colloques
Bilan: mai-novembre 2010 (III)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
•Publications et participations aux colloques
• Mars 2010, Tokyo, « Digital scholarship »
• Juin 2010, King’s College, DH conference (comme observateur)
• Octobre 2010, La Haye et Amsterdam, Europeana, Annual Meeting
• Novembre 2010, Strasbourg, ESF workshop sur les Digital Humanities
• Novembre 2010, Zadar (Croatie), congrès de la TEI
• Novembre 2010, Chicago, Digital Humanities and Computing Science
•Formations
•Juin 2010, TEI France (Lyon, ISH, MUTEC)
• Octobre 2010, ANGD (Aussois)
Bilan: mai-novembre 2010 (IV)
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Novembre 2010, Stage TEI formation continue, Tours, CESR
• Modules de numérisation du master pro « Patrimoine écrit et édition numérique »: traitement de l’image, initiation aux OCR
• Préparation du stage TEI du master pro, Tours, CESR (janvier 2011, augmentation de sa durée)
Master pro « patrimoine écrit et édition numérique »Master pro « patrimoine écrit et édition numérique »
UE « BVH »: OCR – XML – TEI (stage) – transcription -UE « BVH »: OCR – XML – TEI (stage) – transcription -
FORMATIONS
(stage) – transcription -(stage) – transcription -
Interventions dans d’autres masters (ENSSIB, Poitiers, Angers) Interventions dans d’autres masters (ENSSIB, Poitiers, Angers)
Stage longue durée en entreprise ou laboratoireStage longue durée en entreprise ou laboratoire
• Intégration des archives dans les BVH pour des projets spécifiques:
• Disponibilité des 10 000 transcriptions de minutes notariales transcrites par P. Aquilon, B. Chevalier
Les archives
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
notariales transcrites par P. Aquilon, B. Chevalier
• Numérisation de toutes les minutes du XVe siècle (4500), Convention avec les AD 37, publication en cours
• Fonds d’archives des artistes tourangeaux (exposition 2012), en projet
• Archives d’auteurs du XVIe siècle (Rabelais, Ronsard, Montaigne, Béroalde de Verville…), en projet
•Publication des actes notariés AD 37
• BVH-TIPo
• Transcriptions ou analyses
BVH-TIPo et TELMA
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Modèles d’encodage TEI, Traitement par XTF
• TELMA
• Expertise sur les actes médiévaux
• Formulaire de saisie pour le basculement BDD vers XML/ TEI
• Recrutement CDD en collaboration
Archives et manuscrits
Archives Autres Archives notariales 37
Minutes XVe(texte/ image)
Minutes XVIe(texte)
Autres archives
Comptes, lettres
MinutesMinutes
TELMAFormulaire
TELMAFormulaire
BVH-TIPoTEI
BVH-TIPoTEI
BVH et CNRTLBVH-TIPO et les ressources textuelles
• Éditions patrimoniales (aucune édition 18e-21e s.)• Traitement d’image, de la structure physique• Double affichage texte/ image• OCR sur les originaux uniquement
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• OCR sur les originaux uniquement• Ressources linguistiques ciblées sur la période 1470-1650: thésaurus, lemmatisation contextuelle, outils adaptés de correction et de modernisation• Français, latin, langues romanes, traductions• Tests des outils du TAL (et non production)• Aucun droit d’accès, mais protection• Données réutilisables par le CNRTL et Frantext
TEXTETEXTE
1470-1650
Graphies originalesGraphies originales3 versions3 versions
TEXTETEXTEThésaurus français,
latin, italien
Thésaurus français,
latin, italien
Libre accèsLibre accès
OCR sur originauxOCR sur originaux
Structure physique/ logique
Structure physique/ logique
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
Collaborations nationales
•Toutes les bibliothèques de la Région Centre:•Argenton-sur-Creuse, Blois, Bourges, Chartres, Châteaudun, Châteauroux, Dreux, Loches, Montargis, Nogent-le-Rotrou, Orléans, Romorantin, Tours, Vendôme
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
Vendôme•Archives municipales et départementales•Bibliothèque nationale de France (pôle associé « Renaissance »)•Poitiers BU et Médiathèque•Bibliothèque du Prytanée militaire de La Flèche•Fonds privés•Bibliothèque Mazarine, Sainte-Geneviève•Bibliothèque du Musée Condé à Chantilly•En discussion: Le Mans, Angers, Saumur…
Les Bibliothèques Virtuelles Humanistes http://www.bvh.univ-tours.fr/
Collaborations internationales
•Cambridge University Library (10 livres ayant appartenu à Montaigne, dont le Lucrèce annoté) – numérisation acquise (2010)•Université de Chicago, Montaigne project, PhiloLogic• INTÉGRATION dans le CONSORTIUM EUROPEANA (métadonées,web sémantique – ontologies/ mots-clés), en juin 2009
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
(métadonées,web sémantique – ontologies/ mots-clés), en juin 2009
•Herzog August Bibliothek, Wolfenbüttel
•Glasgow University (livres d’emblèmes)
•Bibliothèque nationale de Hongrie•University of Virginia Library•Mnemosyne (Iconclass), The Hague
•Constitution d’un réseau Humanités Numériques « Early Modern »:
• Corpus humanistes bi- ou plurilingues
BVH-TIPO: animation de réseaux
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Transmission des savoirs par les manuscrits/ imprimés
• Fédération des corpus d’auteurs
• MUTEC, ITEM…
• Les projets Molière, Stendhal, Flaubert, Descartes, Montesquieu, auteurs étrangers, etc.
• Liens avec le COST Interedition
•
RéseaufrançaisCorpus
TIPo
MUTECETC. RÉSEAU Européen
EARLY
CENTRES DARIAH,
Digital humanities
Manuscrit/ imprimé
Prosopo-graphieCorpus
auteurs
ITEMMSH CAEN
EARLY MODERN
Outils
graphie
Contemporains et classiques
Contemporains et classiques
Sources probablesSources probables
Sources avérées Sources avérées
Exemple d’un corpus d’auteur: la « librairie » de Montaigne et le projet « Montaigne à l’œuvre »
PROSOPOGRAPHIE
SIG
VERSION AUDIO
Livres de la Librairie
Livres de la Librairie
Essais1580-1595
Essais1580-1595
AUDIO
ANALYSE DE L’ÉCRITURE
ALIGNEMENT DES ÉDITIONS
EDITION GÉNÉTIQUE1588-EB
BM Bordeaux (30)BM Bordeaux (30)
Cambridge (10)Cambridge (10)
Autres (17)• Musée Condé• Libourne• Périgueux• BU Bordeaux• University of Virginia• NL of Scotland• Bloomington…
Autres (17)• Musée Condé• Libourne• Périgueux• BU Bordeaux• University of Virginia• NL of Scotland• Bloomington…
« Librairie de Montaigne »
virtuelle
« Librairie de Montaigne »
virtuelleBNF (33)BNF (33) Collection privée,
fondations (2)Collection privée,
fondations (2)
• Vers une fédération des corpus (auteurs, thèmes)
• Questionnaire (invitation large, appel ouvert)
• Etat du projet, calendrier de réalisation, budget, niveau d’information sur les projets similaires
Réseau de corpus
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
d’information sur les projets similaires
• Sélection
• Tous les projets sont à priori recevables, mais classement en:
• finançable en l’état/ vers un ANR « corpus »; modifiable; orientable vers d’autres CRN
• Partage des expériences, méthodes, outils
• Réunion annuelle
• « Early Modern » Digital Humanities:
• Sélectionner/ regrouper les projets similaires
Humanités numériques et première modernité
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Sélectionner/ regrouper les projets similaires
• Caractère innovant: manuscrits/ imprimés littéraires et scientifiques (1470-1650)
• Critères de l’ESF, DARIAH, ADH, Center-net
• Partage des expertises
• Vision internationale
• Ressources humaines :
• Organiser des sessions de formation
• Aider à la mise en route ou au suivi de projets
Services fournis par TIPo
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
• Produire des tutoriels
• Produire les Wiki, liste de diffusion, newsletter, gestion de l’annotation collaborative
• Fonctionnement :• Missions et participations aux formations, aux congrès
• Missions de conseil sur place
• Actions de valorisation, traductions
• BVH: une réunion du comité de pilotage et une AG annuelles depuis 2003
• Directeur du CESR, directeur de la MRT du Ministère de la Culture, responsables du secteur Livre, de Gallica, responsable BVH et
GOUVERNANCE
Centre d'Études Supérieures de la RenaissanceUniversité François Rabelais, Tours - UMR 6576 du CNRS – MSH de Tourshttp://www.cesr.univ-tours.fr/
responsables du secteur Livre, de Gallica, responsable BVH et responsable du catalogue des incunables
• Assemblée générale : tous les partenaires publics et privés, groupes et chercheurs intéressés. En 2010: le 15 décembre
• Gouvernance spécifique BVH-TIPO (proposition)
• Pilotage: directeur du CESR, représentant Adonis/CNRS, responsable BVH, représentant du Ministère de la Culture, représentant du PRES PUCVL
GOUVERNANCE TIPo
PILOTAGE
Directeur du CESR
Représentant Adonis/ CNRS
Responsable BVH-TIPo
Représentant PRES
PUCVL
AG Annuelle
CO-FINANCEMENTS BVH 2011
Crédits de laboratoire: 3000Services généraux
CPER PADOVAEtat: 30 000 (attendus)
Région Centre: 40 000
CNRS: 10 000(équipement)
CNRS: 10 000(équipement)
MINISTÈREDE LA CULTUREHistoire du livreaccord-cadre
20 000FEDER 2011: 30 000
(demandés)
PPF CESR 2011)PPF CESR-CESCM (2008-2011)10 000
IUF
15 000
ADONIS70 000?