mul_tachexxx_datexxx · web viewrenseigner le chercheur qui aura...

22
Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com Tâche Métadonnées Proposition initiale Version du 31 mai 2013, Thierry Chanier Pour citer ce document : Chanier, T. (2013) Proposition initiale concernant la tâche Métadonnées. Projet CoMeRe (Communication Médiée par les Réseaux), IR Corpus-écrits. [ http://corpuscomere.wordpress.com/ , comere- meta-prop0 ] Coordinateur de la tâche : Linda Hriba Participants : Thierry Chanier. - 1 -

Upload: buidien

Post on 22-Mar-2018

216 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

Tâche Métadonnées

Proposition initiale

Version du 31 mai 2013, Thierry Chanier

Pour citer ce document :

Chanier, T. (2013) Proposition initiale concernant la tâche Métadonnées. Projet CoMeRe (Communication Médiée par les Réseaux), IR Corpus-écrits. [ http://corpuscomere.wordpress.com/ , comere-meta-prop0 ]

Coordinateur de la tâche : Linda Hriba

Participants : Thierry Chanier.

- 1 -

Page 2: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

Contenu1. Objectifs et contraintes de départ.............................................................................................32. Survol de l'existant.....................................................................................................................5

2.1. Avertissement..................................................................................................................................5

2.2. Métadonnées façon OLAC dans Mulce............................................................................................52.2.1. OLAC versus Clarin....................................................................................................................................5

2.2.2. Architecture Mulce...................................................................................................................................6

2.3. Proposition 1 pour CoMéRé...........................................................................................................10

3. Procédure de traitement des métadonnées dans CoMeRe.....................................................114. Calendrier des tâches du groupe métadonnées CoMeRe........................................................13

4.1. Ensemble des descripteurs OLAC...................................................................................................134.2. Citer et référence un corpus CoMeRe............................................................................................13

4.3. Descripteurs du Header TEI............................................................................................................144.4. Ebauche d’agenda..........................................................................................................................14

5. Références...............................................................................................................................156. Annexes................................................................................................................................... 16

6.1. Fiche de métadonnées OLAC correspondant à un corpus LETEC Mulce.........................................16

- 2 -

Page 3: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

1. Objectifs et contraintes de départ

Même si c’est une évidence, rappelons l’intérêt des métadonnées. Elles ont deux objectifs essentiels :

Renseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui l’a constitué, son contexte d’utilisation (licence), le contexte entourant la collecte, la structuration, voire l’analyse des données proprement dites du corpus (par exemple qui sont les participants, interlocuteurs, quels environnements ont-ils utilisés pour communiqués – clavardage, forum, texte, etc.), les codes propres au projet utilisés dans le corpus du corpus (annotations, étiquettes, manuel de transcription), etc. Ces métadonnées doivent donc être incluses dans le corpus lui-même (en général son entête / header). Elles déclinent toutes les informations nécessaires ou pointent vers des documents complémentaires qui, tous, doivent être accessibles directement et librement en ligne.

Renseigner les moissonneurs Internet de l’existence de ce corpus. C’est l’intérêt des créateurs du corpus que l’on peut trouver leur œuvre, la citer, comme des autres chercheurs désirant disposer de ce corpus pour l’intégrer au reste de leur travaux. Dans ce cas, c’est seulement la fiche de métadonnées du corpus qui est nécessaire, est déposée sur un serveur Internet obéissant à un protocole de moissonnage (de type OAI-PMH).

Ce document est une première proposition en vue d'entamer le travail sur mes métadonnées pour les corpus CoMeRe. Il est destiné à Linda de façon à préparer une première version opérationnelle des métadonnées CoMeRe pour cet été / début septembre et auparavant un rapport et autres documents présentant les premières réponses.Rappelons les contraintes de départ :1. Chaque corpus devra disposer de métadonnées qui lui permettront d'être identifié par

les moissonneurs sur la Toile, dans Clarin, en particulier, voire dans Olac. Nos corpus seront donc connus, les chercheurs pourront y accéder, les citer, etc. grâce à la circulation de ces métadonnées.

2. Chaque fichier TEI contenant un corpus ou la fraction d'un corpus devra contenir les métadonnées correspondantes dans son "header". Mais il faudra ajouter d'autres métadonnées données dans le header TEI qui n'ont pas besoin de figurer dans le fichier général de méta du corpus.

3. Ces métadonnées doivent être détaillées, renseignées et étiquetées de façon standard (standard CLARIN ou OLAC, surchouche du Dublin Core). En plus, il faudra indiquer3.1. que nos corpus suivent la charte éthique BigData (2013) (cf. réunion corpus

référence du français en mars 2013), qui devrait être adopté pour tous les corpus déposés chez Ortolang.

3.2. indiquer la licence d'utilisation de type OpenData choisie par CoMeRe. 3.3. Indiquer la référence complète de citation de ces données, de façon à ce que

d'autres chercheurs puissent citer ces données quand ils les utilisent et que les

- 3 -

Page 4: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

créateurs de ces données puissent les lister dans leurs références de travaux et publications.

4. Ce sont les dépositeurs de corpus qui donneront toutes les informations nécessaires pour que ces métadonnées soient renseignées, lors du dépôt de leurs données sur les serveurs internes du LRL dès juillet /septembre 2013

5. Le renseignement de ces métadonnées se fera sous le contrôle des groupes qualité et coordination par l'ingénieur embauché en CDD

6. Le "groupe" CoMeRe devra donc avoir terminé son travail (ou la première version opérationnelle de son travail) et l'avoir transmis aux groupes qualité et coordination

7. Les personnes de ces groupes, tout comme l'ingénieur, devront comprendre ce qu'il y a à faire et comment cela doit être fait.

8. Il nous faudra suivre et travailler en harmonie avec le groupe européen TEI-CMC (2013) qui a un sous-projet sur les métadonnées (cf. infra) , ainsi que le consortium IRCOM, qui compte étendre la TEI, chapitre sur l’oral, en particulier pour mieux définir les participants / interlocuteurs (donc une partie métadonnées sera concernée).

- 4 -

Page 5: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

2. Survol de l'existant

Dans cette section, après un avertissement sur la façon de travailler dans la problématique métadonnées, nous décrions l’architecture Mulce-OLAC-CLARIN, puis terminerons par une première proposition pour CoMeRe.

2.1. Avertissement

Tout d'abord il va falloir éviter le défaut habituel des projets / discussions sur la question des métadonnées, à savoir : les gens commencent par insister sur la fait que de multiples choses devraient figurer, être mentionnées, chacun donnant son point de vue, réinventant la roue. Puis à la fin, les métadonnées sont inexistantes, non renseignées et/ou pas diffusées correctement.Il faut donc repartir de l'existant, bien réfléchir à ce qu'on arrivera à gérer au quotidien (c’est-à-dire sur plusieurs années) et à faire systématiquement, avoir l'indispensable.

2.2. Métadonnées façon OLAC dans Mulce

2.2.1. OLAC versus Clarin

L'intérêt de travailler pour les métadonnées générales à parti de Olac (2013) se justifie ainsi :

o Olac est une surcouche du Dublin Core qualifié. Rappelons que le Dublin Core est une norme ISO, donc plus qu’un standard. Tout ensemble de métadonnée doit donc être toujours compatible avec ce dernier.

o Il y a un ensemble de descripteurs de métadonnées bien pensées, documentées (par exemple (Olac role, 2013)

o Ce système est extensible, suivant des principes préciso Ces métadonnées ont été développées par une communauté sur de longues années,

communauté ayant travaillé sur des corpus de langue très différentso Ils ont un système éprouvé de mise en ligne de ces métadonnées sur leurs serveurs. Les

moissonneurs peuvent donc avoir des robots qui viennent régulièrement lire, utiliser ces métadonnées.

o Ils ont un système de qualité des métadonnées automatiquement vérifié avec rapport d'erreur envoyé au responsable de la banque de corpus

o Olac fourni un identifiant OAI stable pour chaque corpus (pour le fichier métadonnées de chaque corpus)

o Dans CoMeRe nous pourrons maitrise complètement et aisément directement les mises à jour de nos métadonnées que le robot OLAC viendra lire

o Le travail fait dans Olac est automatiquement utilisable par CLARIN . Rien à faire en plus

Bien sûr, il serait intéressant, à titre de culture, de connaître ce que fait précisément CLARIN en termes de métadonnées. Mais nous (LRL-Mulce) avons assisté aux formations CLARIN , essayé de comprendre leur spécificité, mais quand il a été question de passer aux choses

- 5 -

Page 6: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

concrètes et après consulté ce qui est ligne dans leur site (pas de processus qualité, disparité énorme, etc.), après discussion avec les responsables Clarin, nous avons fini par comprendre que le travail déjà réalisé dans Olac était largement suffisant et directement importable par Clarin.

2.2.2. Architecture Mulce

Fichiers de données contenant les métadonnéesLes données correspondant aux métadonnées associées à un corpus LETEC Mulce se répartissent ainsi : Le fichier principal d’un corpus LETEC (Learning and Teaching Corpus) Mulce est un

fichier XML appelé manifest, conformément au standard IMS-CP 1. Ce fichier contient plusieurs parties structurées, chacune pouvant contenir des métadonnées. Un ensemble de métadonnées figure également en début de fichier. La fiche descriptive d’un corpus affiche cet ensemble de métadonnées extrait de l’entête et des différentes sous-parties. Le reste du fichier renferme le contenu structuré du corpus proprement dit, là où sont par exemple toutes les interactions. Pour voir une fiche descriptive de corpus, voir par exemple Mulce-Simu-fiche (2009) dont un extrait est en figure 1. Pour voir son contenu XML, il suffit alors de demander à voir le code source de la page. Une recherche sur le terme metadata permettra de repérer les différentes parties.

Le fichier OLAC du corpus, qui correspond aux métadonnées d’entête du manifeste. La figure 2 en donne un extrait et l’annexe 1 le listing complet.

1 C’est l’un des éléments de l’empaquetage d’un corpus (un corpus étant composé du manifest et un ensemble qui peut être très important d’autres fichiers, notamment les ressources audio, vidéo, documents originaux). L’ensemble constituant une archive ZIP. Le tout correspond au standard IMS-CP, mis au point par un consortium international sur les TICE

- 6 -

Page 7: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

Figure 1 : extrait de fiche descriptive d’un corpus LETEC

On remarquera que le fichier XML-OLAC contient à la fois des éléments du Dublin Core, des éléments OLAC, puis des éléments propres à Mulce. L’exemple (1) montre ainsi la classification de ce corpus. 3 types proviennent de la classification OLAC et le quatrième de Mulce (learning and teaching corpus). Ce nouveau type de corpus a été défini par ailleurs suivant les recommandations de OLAC. (1)<dc:type olac:code="primary_text" xsi:type="olac:linguistic-type"/><dc:type mce:code="learning and teaching corpus" xsi:type="mce:linguistic-type2"/><dc:type olac:code="dialogue" xsi:type="olac:discourse-type"/><dc:type olac:code="narrative" xsi:type="olac:discourse-type"/>

<olac:olac xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:olac="http://www.language-archives.org/OLAC/1.1/" xmlns:mce="http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://purl.org/dc/elements/1.1/ http://www.language-archives.org/OLAC/1.1/dc.xsd http://purl.org/dc/terms/ http://www.language-archives.org/OLAC/1.1/dcterms.xsd http://www.language-archives.org/OLAC/1.1/ http://www.language-archives.org/OLAC/1.1/olac.xsd http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_letec_meta.xsd"><dc:title xml:lang="fr">Corpus d'apprentissage Simuligne</dc:title><dc:title xml:lang="en">LETEC (Learning and Teaching Corpus) Simuligne</dc:title><dc:description xml:lang="fr">Corpus d'apprentissage de la formation en ligne Simuligne (2001), dont le scénario est basée sur une simulation globale pour l'apprentissage du français langue trangère (FLE) et inclut également une étape interculturelle &quot;Interculture&quot; inspirée de Cultura. Ce corpus comprend le scénario pédagogique dans plusieurs formats, le protocole de recherche (et ses données recueillies), les interactions en ligne et les productions des apprenants structurées suivant un schéma XML, la liste des participants, les licences d'utilisation.</dc:description>

Figure 2 : extrait de fichier de métadonnées OLAC d’un corpus LETEC

- 7 -

Page 8: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

Espace de noms et site de métadonnéesOn retrouve bien dans l’entête de ce fichier OLAC (figure 2) les différentes déclarations d’espace de noms (name space) pour OLAC, Dublin Core (simple et qualifié), Mulce ainsi que les différents schémas associés, schémas qui permettent de vérifier la cohérence global du fichier XML. Pour Mulce cela correspond aux lignes en graisse de l’exemple (2). Cela veut donc dire que Mulce, tout comme CoMéRé aura à le faire, dispose d’un espace en ligne où sont en permanence accessibles ces informations. Il s’agit de Mulce-metadata (2013). On y retrouve également le vocabulaire contrôlé utilisé par Mulce (nous y reviendrons pour CoMéRé).(2)<olac:olac xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:olac="http://www.language-archives.org/OLAC/1.1/" xmlns:mce="http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://purl.org/dc/elements/1.1/ http://www.language-archives.org/OLAC/1.1/dc.xsd http://purl.org/dc/terms/ http://www.language-archives.org/OLAC/1.1/dcterms.xsd http://www.language-archives.org/OLAC/1.1/ http://www.language-archives.org/OLAC/1.1/olac.xsd http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_letec_meta.xsd">

Moissonnage OLAC et CLARINL’ensemble de ces fiches de métadonnées OLAC sont contenues dans un seul document XML (Mulce-Olac-repository, 2013), déposé dans le site des métadonnées Mulce-metadata (2013). Les robots du site OLAC (2013) parcourent quasi-quotidiennement les banques de corpus associées et les moissonnent. Donc toute modification faite dans les métadonnées de la banque Mulce apparait rapidement dans le serveur OLAC. Par ailleurs OLAC gère les identifiants OAI associé à chaque corpus. Par exemple, pour le même corpus cité précédemment, son identifiant complet est oai : mulce.org:mce.simu.all.all. Une simple recherche sur Internet permettra d’accéder à la fiche du corpus sur le site OLAC (OLAC-Simu, 2009). La figure 3 en donne un extrait.

Figure 3 : Fiche du corpus Mulce Simuligne sur Olac

- 8 -

Page 9: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

En parcourant cette fiche on retrouvera dans le descripteur identifier l’adresse de la fiche descriptive du corpus Mulce-Simu-fiche (2009), située sur le serveur Mulce Repository (2013), endroit où l’utilisateur pourra télécharger le corpus entier. Par ailleurs, le serveur OLAC étant régulièrement moissonnée par celui de CLARIN, cette fiche figure aussi dans CLARIN (CLARIN-Simu, 2009) . La figure 4 en donne un aperçu.

Figure 4 : Fiche du corpus Mulce Simuligne sur Clarin

SynoptiqueLa figure 5 donne le synoptique de toute l’architecture de métadonnées Mulce que nous venons d’évoquer.

- 9 -

Page 10: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

Figure 5 : Architecture métadonnées Mulce

2.3. Proposition 1 pour CoMéRé

Assimilons le fichier manifeste XML de Mulce au fichier TEI du corpus de CoMéRé. Pour un corpus simple, ce document TEI se confondra avec le corpus lui-même (pas d’autres ressources associées alors). La partie header du fichier TEI contiendra l’ensemble des métadonnées du corpus. Une partie d’entre elles, les plus générales correspondront au fichier OLAC du corpus, fichier au format OLAC et non TEI. L’ensemble des fiches OLAC de tous les corpus CoMeRe seront rassemblées dans le fichier CoMeRe-Olac-repository, qui sera mis en ligne dans un espace métadonnées du projet CoMeRe, dans un premier temps sur le serveur du LRL, puis sur celui de Ortolang. Nous négocierons avec Ortolang le fait que l’espace dédié à CoMeRe sur ses serveurs soit reconnu auprès de OLAC (techniquement comme un « serveur dynamique »). Nous serons alors moissonnés régulièrement par OLAC, puis de là par CLARIN.

- 10 -

fiche OLAC

Fichier repository

Mulce-OLAC

Corpus

Autres Ressources

Audio, vidéo

Métadonnées part2

Métadonnées part1

Métadonnées gen

Manifeste XML

Serveur meta Mulce

Fiches repository

Mulce-OLAC

Serveur OLAC

Fiches repository

Mulce-OLAC

Serveur CLARIN

Serveur Mulce repository

Page 11: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

3. Procédure de traitement des métadonnées dans CoMeRe

Supposons que nous ayons déterminé l’ensemble des descripteurs que devront contenir nos fiches OLAC, ainsi que ceux de l’entête de nos fichiers TEI (voir section suivante), quelle pourrait être la procédure de création des métadonnées des corpus CoMeRe ?La figure 6 en donne une vue d’ensemble. Le groupe de travail aura préparé un patron de fichier OLAC, ainsi que d’entête TEI (tous en XML valide, pas de format d’intermédiaire). Ils seront accompagnés d’un document d’explication à destination des différentes parties, à savoir l’ingénieur que nous devons recruter et les dépositeurs de corpus. Cet ensemble sera élaboré par notre groupe métadonnées. Rappelons que le dépositeur de corpus (rôle depositor dans OLAC) est celui qui est le correspondant légal du corpus. Ces dépositeurs seront les différents chercheurs de notre projet qui, possédant un corpus de type CoMeRe viendront le déposer sur le serveur du LRL (voir travaux du groupe de travail coordination). Chaque dépositeur aura un espace à lui sur notre serveur, séparé de ceux des autres corpus. Le groupe qualité, ainsi que l’ingénieur auront accès à tous ces espaces différents de corpus.

Figure 6 : vue d'ensemble sur renseignement d'un corpus

Une fois la première version du dépôt opéré, ingénieur et dépositeur travailleront de concert pour remplir ces patrons. Le dépositeur pourra soit commencer à remplir seul ces patrons et terminera avec l’ingénieur ou l’ingénieur remplira tout en dialoguant avec le dépositeur. L’ingénieur sera responsable de la complétion de la tâche et de la validité des fichiers. Il ajoutera la nouvelle fiche OLAC au fichier CoMeRe-Olac-repository (cela revient à insérer un nouveau record dans le fichier). Ce fichier global sera en permanence en ligne sur le serveur

- 11 -

Patron OLAC

Remplissage à la main

ingénieur dépositeur

fiche OLAC XSLT

Header TEI

qualité

Insertion

TEI la main

TEI du corpus

TEI complet

Fichier repository

OLAC

Patron sup

Header

Page 12: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

du LRL dans l’espace CoMeRe-metadata (qui contiendra d’autres documents généraux, comme pour (Mulce-metadata, 2013)). Tout le monde pourra donc en permanence y accéder à travers son navigateur.Sur la fiche OLAC du corpus, l’ingénieur appliquera le traitement correspondant à la feuille de style XSLT servant à convertir le format OLAC en format TEI, partie header. Cette feuille de style sera développée par le groupe métadonnées. Enfin l’ingénieur intégrera cette partie du header TEI venant d’OLAC à la partie header TEI précédemment renseigné (partie contenant des informations plus détaillées sur le corpus. L’ingénieur effectuera ensuite le traitement permettant de passer le corpus déposé au format TEI choisi par le groupe TEI, c’est alors le corpus (body) du corpus qui sera renseigné. L’ensemble constituera le corpus en version de base (avant traitement, voir groupe traitement). Le groupe qualité vérifiera l’ensemble entête et corps.

- 12 -

Page 13: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

4. Calendrier des tâches du groupe métadonnées CoMeRe

Listons d’abord différents points, complémentaires des précédents, avant de parler du calendrier proprement dit.

4.1. Ensemble des descripteurs OLAC

Après avoir pris connaissance des rubriques sur les métadonnées et le référencement du site Mulce.org (Mulce-rubrique-meta,2011 ; Mulce-rubrique-référence, 2013), des différents articles et des documents attachés, il conviendrait de repartir d’un fichier OLAC Mulce (cf. annexe 1, mais voir aussi (Mulce-Olac-repository, 2013)).A cela il conviendra de déterminer sous quel descripteur peuvent être ajoutées des informations, notamment (donc non exhaustif, y réfléchir), sur :

Les environnements technologiques de communication dans lesquels sont survenues les interactions du corpus correspondant. Pour ce faire, il faudra étendre le vocabulaire / la terminologie de Mulce (Mulce-termino-env, 2010) afin d’y ajouter des types tels que texto / SMS, etc. Dn,s les métadonnées on définira le type, puis le type précis de logiciel associé. Par exemple type général : chat/clavardage (cf. terminologie) avec logiciel Skype (ce logiciel étant une instance d’un type n’est pas défini dans la terminologie).

la charte éthique BigData (2013). Dans le fichier, on ne mettra peut-être que certains renseignements et un lien vers la charte complète (document au contenu redondant en partie avec nos métadonnées, mais sans format reconnu). Cette charte, à compléter également à la main serait alors déposée en format PDF sur le site CoMeRe-metadata.

4.2. Citer et référence un corpus CoMeRe

Il est très important que dès notre réunion du premier juillet, le groupe métadonnées soit à même de fournir des exemples de la façon dont construites les références au corpus CoMeRe. Ce sont ces références qui permettront aux chercheurs concernés de lister cet œuvre dans liste de leur publications / travaux et qui seront citer par les chercheurs utilisant ces corpus. Pour plus d’information, voir (Mulce-rubrique-référence, 2013) et particulièrement (Chanier, Reffay, & Saddour, 2013).Ce point est directement en rapport avec les descripteurs OLAC, la façon de les utiliser. Comme l’on décide avant d’écrire un article de l’ordre des auteurs, le projet CoMeRe décidera qui citer et dans quel ordre.Sans rentrer dans plus de détails, le gabarit pourrait être le suivant (exemple (3)) :

(3)DEPOSITEUR (2013). <nom du corpus>. EDITEURS (editors). Ortolang : Nancy [<ident OAI OLAC et HANDLE Ortolang du corpus]

Les éditeurs étant choisis parmi des membres du groupe qualité, coordination ??? ayant effectivement contribué à la mise en ligne du corpus.

- 13 -

Page 14: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

4.3. Descripteurs du Header TEI

Ces descripteurs auront deux sources : celle provenant d la fiche OLAC et les informations complémentaires (cf. figure 6). Pour la première source, Un travail consistera à établir une correspondance entre les descripteurs OLAC-CoMeRe et ceux du header TEI, pré-requis pour pouvoir développer la feuille de style qui convertira automatiquement la fiche OLAC en entête TEI. Pour ce travail, on s’appuiera sur les documents présentant l’entête de la TEI (TEI-Header, 2013), ainsi que sur la façon dont ont été décrits les métadonnées du projet ALIPE (Chanier, Liégeois, Chabana, & Lotin, 2013) (voir par exemple, le code source du corpus (Liegeois, L., Chanier, T. et Chabanal, D.,2012).Nous devons rester compatible (ou en situation de veille car nous avancerons quoiqu’il en soit) par rapport à ce qui se fera dans le projet TEI-CMC (voir particulièrement, paper 3 de Beißwenger & Lemnitzer, 2013) et enfin avec les travaux du consortium IRCOM.

4.4. Ebauche d’agenda

Ici il convient de faire un listing des tâches à accomplir (en les nommant et en leur donnant un identifiant dont le préfixe sera comere-meta-<lasuite> ), puis de les ordonner et les dater.Je laisse le soin à Linda de le faire.Mes propositions générales pour Linda:

- Rédaction d’un premier rapport pour fin juin qui sera mis sur le site afin d’être communiqué aux membres du projet (ce sera une première version, qui sera ensuite mise à jour)

- préparation d’un diapo en anglais pour le 27 juin à Clermont présentant à Michael les grandes lignes de ce que nous avons fait en terme de métadonnées dans Mulce et comptons faire dans CoMeRe (il ignore tout sur ces points et cela constituera une de nos contributions, li apportant sans doute pas mal de choses qu’on ignore)

- on discutera alors pour savoir si une partie de ce travail pourra alimenter le panel TEI de la conférence d’octobre du consortium TEI (le nom de Linda sera alors cité en contribution, comme le mine dans ce panel où j’irai)

- préparation d’un diapo pour le 1er juillet présentant ce que nous allons faire dès cet été en terme de métadonnées dans CoMeRe de façon à informer tous les participants CoMeRe, particulièrement les dépositeurs, ceux des groupes qualité et TEI, à décider de certains points.

Merci d’avance pour ce travail. Je me tiens à disposition de Linda pour discuter (Skype ?), répondre à toute question en rapport avec ce document.

- 14 -

Page 15: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

5. Références

Beißwenger, M. & Lemnitzer, L. (2013). Proposal for TEI paper panel: Computer-mediated communication in TEI: What lies ahead? [ http://corpuscomere.files.wordpress.com/2013/04/teicmcpanel_2013-03-30.pdf ]

Chanier, T., Liégeois, L. , Chabanal, D. & Lotin, P. (2013) . Banque de corpus du projet ALIPE (Acquisition de la Liaison et Interactions Parents-Enfant). Clermont Université. [ http://lrl-diffusion.univ-bpclermont.fr/alipe/ ]

Chanier, T., Reffay, C. & Saddour, I. (2013). Référencement et citation d’un dépôt de corpus LETEC . Mulce.org : Clermont Université. [ http://mulce-doc.univ-bpclermont.fr/IMG/pdf/Mul_reference.pdf ]

Charte éthique Big data (2013). Wiki décrivant la charte [site]. [ http://wiki.ethique-big-data.org ]

CLARIN-Simu (2009). Fiche de métadonnées du corpus Simuligne figurant dans CLARIN [document].

OLAC (2013.) Site de Open Language archive community [site] [ http://www.language-archives.org/ ]

OLAC Role (2013). Controlled vocabulary of the Role attribute.[document]. [http://www.language-archives.org/REC/role.html].

OLAC-Simu (2009). Fiche de métadonnées du corpus Simuligne figurant dans OLAC [document]. [ http://www.language-archives.org/item/oai:mulce.org:mce.simu.all.all ]

Liegeois, L., Chanier, T. et Chabanal, D. (2012). Corpus distinguable : interactions parents-enfant (Prune) daté du 2007-11-21 avec annotations sur la liaison. Clermont Université, Université Blaise Pascal, Laboratoire de Recherche sur le Langage : Clermont-Ferrand [ http://lrl-diffusion.univ-bpclermont.fr ali-prune-071121-1 ] [ http://lrl-diffusion.univ-bpclermont.fr/corpusAlipe/alipe-all-corpus/ali-prune-071121-1/contents/info.xml ]

Mulce-metadata (2013). Espace en ligne rassemblant l’ensemble des métadonnées de Mulce [site]. [ http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata ]

Mulce-Olac-repository (2013) Fichier XML contenant l’ensemble des métadonnées OLAC de Mulce . [ http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/repository/mulce-sr.xml ]

Mulce Repository (2013). Banque de corpus d’apprentissage LETEC Mulce [site] [ http://repository.mulce.org ]

Mulce-rubrique-meta (2011). Rubrique du site Mulce.org expliquant les métadonnées et la terminologie des corpus LETEC Mulce. Mulce.org : Clermont Université [ http://mulce-doc.univ-bpclermont.fr/spip.php?rubrique24 ]

Mulce-rubrique-référence (2013). Rubrique du site Mulce.org expliquant la façon de citer et référencer les corpus LETEC Mulce. Mulce.org : Clermont Université [ http://mulce-doc.univ-bpclermont.fr/spip.php?rubrique19 ]

Mulce-Simu-fiche (2009). Fiche descriptive du corpus Simuligne. In Reffay, C. Chanier, T. Lamy, M.-N. & Betbeder, M.-L. (2009). (editors). LETEC corpus Simuligne. Mulce.org : Clermont Université. [oai : mulce.org:mce.simu.all.all ; http://repository.mulce.org ]: [ http://mulce.univ-bpclermont.fr/mulcepf/MulceArchives/Simuligne/Corpus_objets/mce.simu.all.all-CP/content/documentation/index.xml ]

Mulce-termino-env (2010). Terminologie au format Vdex pour les plates-formes utilisées dans les corpus LETEC MULCE. In Mulce-metadata (2013). [ http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/vdex/mce_platform.xml ]

TEI-CMC (2013). Wiki du groupe européen travaillant sur le TEI pour le champ Computer-Mediated Communication [site] . [ https://wiki.itmc.tu-dortmund.de/cmc ]

TEI-Header (2013). The TEI Header. TEI-c.org [ http://www.tei-c.org/release/doc/tei-p5-doc/en/html/HD.html ]

- 15 -

Page 16: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

6. Annexes

6.1. Fiche de métadonnées OLAC correspondant à un corpus LETEC Mulce

Fiche OLAC du corpus global Simuligne [oai : mulce.org:mce.simu.all.all]<oai:record> <oai:header> <oai:identifier xmlns="http://www.openarchives.org/OAI/2.0/oai-identifier" xsi:schemaLocation=" http://www.openarchives.org/OAI/2.0/oai-identifier http://www.openarchives.org/OAI/2.0/oai-identifier.xsd"> oai:mulce.org:mce.simu.all.all</oai:identifier> <oai:datestamp>2012-07-17</oai:datestamp> </oai:header><oai:metadata><olac:olac xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:olac="http://www.language-archives.org/OLAC/1.1/" xmlns:mce="http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://purl.org/dc/elements/1.1/ http://www.language-archives.org/OLAC/1.1/dc.xsd http://purl.org/dc/terms/ http://www.language-archives.org/OLAC/1.1/dcterms.xsd http://www.language-archives.org/OLAC/1.1/ http://www.language-archives.org/OLAC/1.1/olac.xsd http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_letec_meta.xsd"><dc:title xml:lang="fr">Corpus d'apprentissage Simuligne</dc:title><dc:title xml:lang="en">LETEC (Learning and Teaching Corpus) Simuligne</dc:title><dc:description xml:lang="fr">Corpus d'apprentissage de la formation en ligne Simuligne (2001), dont le scénario est basée sur une simulation globale pour l'apprentissage du français langue trangère (FLE) et inclut également une étape interculturelle &quot;Interculture&quot; inspirée de Cultura. Ce corpus comprend le scénario pédagogique dans plusieurs formats, le protocole de recherche (et ses données recueillies), les interactions en ligne et les productions des apprenants structurées suivant un schéma XML, la liste des participants, les licences d'utilisation.</dc:description><dc:description xml:lang="en">This is the Learning and Teaching Corpus of the online educational experiment Simuligne (2001). Its scenario is based on a global simulation for the learning of French as a foreign language. It also includes an intercultural activity, &quot;Interculture&quot;, based on the Cultura project. The corpus includes the pedagogical scenario, described in several formats, the research protocol, participant's online interactions and productions (structured in XML), list of participants, licences of use.</dc:description><dc:description xml:lang="en">Analyses done by researchers on this LETEC corpus can be found on Mulce Website (http://mulce.org) or Mulce repository (http://repository.mulce.org) . They are contained in distinguishable corpora.</dc:description><dc:description xml:lang="en"> This corpus contains a total of 11638 acts, of which, 6790 are chat acts, 2686 forum acts, 2030 email acts and 132 production acts.</dc:description> <dc:creator olac:code="compiler" xsi:type="olac:role">Chanier, Thierry ; Lamy, Marie-Noelle ; Reffay, Christophe</dc:creator><dc:contributor>Reffay, Christophe ; Chanier, Thierry ; Betbeder, Marie-Laure</dc:contributor><dc:contributor olac:code="sponsor" xsi:type="olac:role">ANR-06-CORP-006 echange de corpus d'apprentissage multimodaux (MULCE), Programme &quot;CORPUS ET OUTILS DE LA RECHERCHE EN SCIENCES HUMAINES ET SOCIALES&quot; 2006, Agence Nationale de la Recherche, France</dc:contributor><dc:contributor olac:code="sponsor" xsi:type="olac:role">Projet de recherche Icogad, programme Cognitique 2000-2002, Ministre de la Recherche, France.</dc:contributor><dc:publisher>Mulce (MULtimodal Corpus Exchange) ; Universite Blaise Pascal ; Clermont-Ferrand:France ; http://mulce.org</dc:publisher><dcterms:created xsi:type="dcterms:W3CDTF">2009-04-20</dcterms:created><dc:language xsi:type="olac:language" olac:code="eng"/><dc:language xsi:type="olac:language" olac:code="fra"/><dc:subject xsi:type="olac:language" olac:code="fra"/><dc:subject xsi:type="dcterms:LCSH">Education</dc:subject><dc:subject xsi:type="dcterms:LCSH">Data processing</dc:subject><dc:subject xsi:type="dcterms:LCSH">Computer-assisted instruction</dc:subject><dc:subject xsi:type="dcterms:LCSH">Language and languages</dc:subject><dc:subject xsi:type="dcterms:LCSH">Study and teaching</dc:subject>

- 16 -

Page 17: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

<dc:subject olac:code="applied_linguistics" xsi:type="olac:linguistic-field"/><dc:subject olac:code="discourse_analysis" xsi:type="olac:linguistic-field"/><dc:subject olac:code="text_and_corpus_linguistics" xsi:type="olac:linguistic-field"/><dc:subject xml:lang="fr">Le corpus d'apprentissage Simuligne est un ensemble de données structurées contenant plusieurs composants décrivant respectivement : le scénario pédagogique, le protocole et les questions de recherche, les interactions des acteurs dans les environnements.</dc:subject><dc:subject xml:lang="en">The learning and teaching corpus named Simuligne is a set of structured data containing various interconnected components: learning design, research questions and protocol, actors interaction data coming from virtual environments and right informed consents.</dc:subject><dc:type xsi:type="dcterms:DCMIType">Dataset</dc:type><dc:type xsi:type="dcterms:DCMIType">Collection</dc:type><dc:type olac:code="primary_text" xsi:type="olac:linguistic-type"/><dc:type mce:code="learning and teaching corpus" xsi:type="mce:linguistic-type2"/><dc:type olac:code="dialogue" xsi:type="olac:discourse-type"/><dc:type olac:code="narrative" xsi:type="olac:discourse-type"/><dc:format xsi:type="dcterms:IMT">text/html</dc:format><dc:format xsi:type="dcterms:IMT">text/xml</dc:format><dc:format xsi:type="dcterms:IMT">text/rtf</dc:format><dc:format xsi:type="dcterms:IMT">application/pdf</dc:format><dc:format xsi:type="dcterms:IMT">application/msword</dc:format><dc:format xsi:type="dcterms:IMT">image/jpeg</dc:format><dc:format xsi:type="dcterms:IMT">image/gif</dc:format><dc:format xsi:type="dcterms:IMT">audio/x-wav</dc:format><dcterms:extent>26000 ko</dcterms:extent><dcterms:extent>11638 acts ; 345875 tokens</dcterms:extent><dcterms:temporal>name=Simuligne course ; start=2001-04-09; end=2001-07-06</dcterms:temporal><dcterms:spatial xsi:type="dcterms:ISO3166">GB</dcterms:spatial><dcterms:spatial xsi:type="dcterms:TGN">7026232</dcterms:spatial><dcterms:spatial xsi:type="dcterms:ISO3166">FR</dcterms:spatial><dcterms:spatial xsi:type="dcterms:TGN">7008356</dcterms:spatial><dcterms:conformsTo>IMS-LD for learning design and research protocol ; IMS-CP for packaging ; Mulce-struct for the SID subpart</dcterms:conformsTo><dcterms:conformsTo xsi:type="dcterms:URI" >http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce_LETECorpus-en.pdf</dcterms:conformsTo><dcterms:references>For Interculture : Cultura projet, http://web.mit.edu/french/culturaNEH/</dcterms:references><dcterms:references>For the global simulation : Yaiche, Francis (1996). Les simulations globales, mode d'emploi. Hachette FLE : Paris</dcterms:references><dcterms:hasPart xsi:type="mce:idTypeMulce">mce.simu.all.sid</dcterms:hasPart><dcterms:hasPart xsi:type="mce:idTypeMulce">mce.simu.all.ld</dcterms:hasPart><dcterms:hasPart xsi:type="mce:idTypeMulce">mce.simu.all.rp</dcterms:hasPart><dcterms:hasPart xsi:type="mce:idTypeMulce">mce.simu.all.ric</dcterms:hasPart>

<dc:identifier xsi:type="dcterms:URI" >http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Simuligne%2FCorpus_objets%2Fmce.simu.all.all-CP</dc:identifier><dc:identifier xsi:type="mce:idTypeMulce">mce.simu.all.all</dc:identifier><dcterms:bibliographicCitation>Reffay, C. Chanier, T. Lamy, M.-N. &amp; Betbeder, M.-L. (2009). (editors). LETEC corpus Simuligne. Mulce.org : Clermont Université. [oai : mulce.org:mce.simu.all.all ; http://repository.mulce.org ] </dcterms:bibliographicCitation>

<dcterms:references>Chanier, T. (2001).Créer des communautés d'apprentissage à distance. Les dossiers de l'Ingénierie Educative, 36 (2001) 56-59 ; info:oai/edutice.archives-ouvertes.fr/edutice-00000119</dcterms:references><dcterms:references>Reffay, C. , Chanier, T.: &quot;How social network analysis can help to measure cohesion in collaborative distance-learning&quot;, Proceeding of Computer Supported Collaborative Learning conference (CSCL'2003), June, Bergen, Norway. Kluwer Acedemic Publisher. pp 343-352 ; info:oai/edutice.archives-ouvertes.fr/edutice-00000422</dcterms:references><dcterms:references>Reffay, C, Chanier, T., Noras, M. and Betbeder, M.-L. (2008). Contribution à la structuration de corpus d'apprentissage pour un meilleur partage en recherche. In Basque, J. and Reffay, C. (dir.), numéro spécial EPAL (échanger pour apprendre en ligne), Sciences et Technologies de l'Information et de la Communication pour l'Education et la Formation (STICEF), 15, [http://sticef.univ-lemans.fr/num/vol2008/01-reffay/sticef_2008_reffay_01p.pdf , http://edutice.archives-ouvertes.fr/edutice-00159733 ]</dcterms:references><dcterms:references> Lamy, M-N. (2006) 'Interactive Task Design and the Whole Learner' In Garcia Mayo, P. (ed.) Investigating Tasks in Formal Language Settings, Multilingual Matters. 242-264.</dcterms:references><dcterms:references> Lamy M-N. and Hassan X.P. (2003) 'What influences reflective interaction in distance peer learning? Evidence from four long-term online learners of French', in Open Learning Journal, Vol 18, n° 1, pp 39-59</dcterms:references><dcterms:references xsi:type="dcterms:URI" >http://edutice.archives-ouvertes.fr/edutice-00000119</dcterms:references>

- 17 -

Page 18: Mul_tacheXXX_DateXXX · Web viewRenseigner le chercheur qui aura téléchargé un corpus sur les conditions dans lesquels ce corpus a été constitué, la façon de l’utiliser, qui

Projet CoMeRe (Communication Médiée par les Réseaux), IR corpus-écrits, http://corpuscomere.wordpress.com

<dcterms:references xsi:type="dcterms:URI" >http://edutice.archives-ouvertes.fr/edutice-00000422</dcterms:references><dcterms:references xsi:type="dcterms:URI" >http://edutice.archives-ouvertes.fr/edutice-00159733</dcterms:references><dc:rights xsi:type="dcterms:URI" >http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/vdex/mce_licence.xml</dc:rights><dcterms:accessRights>open access after registration</dcterms:accessRights><dc:rights>Rights holders of this corpus are: Thierry Chanier ; Marie-Noelle Lamy ; Christophe Reffay ; Marie-Laure betbeder ; Maud Ciekanski</dc:rights><dc:rights>Creative Common License: http://creativecommons.org/licenses/by-nc-sa/2.0/</dc:rights><dcterms:audience>Researcher or teachers in educational sciences or linguistics</dcterms:audience> </olac:olac> </oai:metadata></oai:record>

- 18 -