utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

18
Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents Pierre Beust & Thibault Roy GREYC CNRS UMR 6072 – ISLanD Pôle ModeSCoS (MRSH Caen) Université de Caen Basse Normandie {pierre.beust, troy}@info.unicaen.fr 13 e journées de Rochebrune, 22-27 janvier 2006 « Traces, Enigmes, Problèmes : Emergence et construction du sens »

Upload: ciara

Post on 18-Mar-2016

25 views

Category:

Documents


1 download

DESCRIPTION

13 e journées de Rochebrune, 22-27 janvier 2006 « Traces, Enigmes, Problèmes : Emergence et construction du sens ». Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents. Pierre Beust & Thibault Roy GREYC CNRS UMR 6072 – ISLanD Pôle ModeSCoS (MRSH Caen) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

Utiliser des traces de la dimension globale d’un corpus pour l’accès au

contenu des documents

Pierre Beust & Thibault Roy

GREYC CNRS UMR 6072 – ISLanDPôle ModeSCoS (MRSH Caen)

Université de Caen Basse Normandie{pierre.beust, troy}@info.unicaen.fr

13e journées de Rochebrune, 22-27 janvier 2006« Traces, Enigmes, Problèmes : Emergence et construction du sens »

Page 2: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

Trace de l’exposé …

1. Introduction– Les méthodes d’accès au contenu – Quelles traces ?

2. Ancrage épistémologique– Le local / le global

3. La cartographie de corpus– Objectifs, Outil logiciel

4. Expériences réalisées5. Perspectives6. Conclusions

13e journées de Rochebrune

Page 3: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

1. Introduction

Cadre de nos recherches :

- Informatique & Linguistique Traitement Automatique des Langues

- Sémantique des textes Linguistique de corpus

- Interactions Homme-Machines centrées utilisateur

13e journées de Rochebrune

Page 4: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

1. Introduction

• Traces en Informatique– fichiers de log, cookies, fichiers temporaires, balises XML Principalement vues sous l’angle de la génération

• Traces en Linguistique– phrases, énoncés, textes, dialogues Principalement vues sous l’angle de l’identification (surtout dans

le cas des approches endogènes)

• Traces pour la Linguistique de corpus– Annotation de corpus, visualisation, traitements statistiques, accès au

contenu Besoin des 2 angles d’approches : génération / identification

13e journées de Rochebrune

Page 5: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

1. Introduction

• Les méthodes d’accès au contenu en TAL :– Extraction d’information

Remplissage de formulaires préconstruits, de bases de données On recherche les traces d’un contenu qu’on connaît déjà

– Questions/RéponsesExtraire une zone où peut se trouver la réponse à une question On localise une trace plus ou moins proche de la question

– Résumé automatique« condensation » de textes Garder les phrases où on a des traces de ce qui semble important

– Aide à la navigation– Indexation, extraction de terminologies, visualisation Exploiter des traces pour savoir de quoi traite un ensemble de documents

13e journées de Rochebrune

Tracesrhématiques

Tracesthématiques

Page 6: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

2. Ancrage épistémologique

• Sémantique Interprétative (François Rastier)– perception sémantique individuelle– dynamique sémique (notions d’isotopies, d’afférences,

d’opérations interprétatives) – principe de la détermination du local par le global (alternative à

la compositionnalité)

13e journées de Rochebrune

Page 7: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

13e journées de Rochebrune

principe de contextualité : deux signes ou deux passages d’un même texte mis côte à côte sélectionnent réciproquement des éléments de signification (sèmes).

principe d’intertextualité : deux passages de textes différentssélectionnent réciproquement, dès qu’ils sont mis côte à côte, des élémentsde signification (sèmes).

principe d’architextualité : tout texte placé dans un corpus en reçoit desdéterminations sémantiques et modifie potentiellement le sens de chacundes textes qui le composent

Global

Local

2. Ancrage épistémologique

Page 8: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

2. Ancrage épistémologique

• Sémantique Interprétative (François Rastier)– perception sémantique– dynamique sémique (notions d’isotopies, d’afférences,

d’opérations interprétatives) – principe de la détermination du local par le global (alternative à

la compositionnalité)

• Approche interactionniste et expérimentale :– des logiciels d’étude pour expérimenter la sémantique des

langues– des interactions, des traitements et ressources avant tout

centrés sur l’utilisateur

13e journées de Rochebrune

Page 9: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

2. Ancrage épistémologique

Il en découle que :

– le sens ne peut pas être objectivé– Il est préférable de viser une instrumentation du sens plutôt que la

construction du sens– on distingue donc des interprétations humaines et des interprétations

calculatoires. Elles sont complémentaires (l’une n’est pas le pâle reflet de l’autre).

on recherche dans les interprétations calculatoires des traces pour compléter, aider, assister des interprétations humaines.

on recherche dans les rapports d’intertextualité des traces pour enrichir les interprétations calculatoires

13e journées de Rochebrune

Page 10: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

3. La cartographie de corpus

13e journées de Rochebrune

Notre objectif :Visualiser un ensemble de documents pour donner à un interprétant une vision globale de la thématique de cet ensemble

Visualisation sous forme de cartes représentations graphiques topologiques (personnelles) objets support d’interactions pour l’aide à la lecture rapide

Page 11: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

3. La cartographie de corpus

13e journées de Rochebrune

L’outil ProxiDocs : un logiciel d’étude de la dimension globale d’une collection (corpus, flux, listes d’URL)

Ressourcesterminologiquespersonnelles

(liste de graphiesoudispositifsdifférentiels)

VuesglobalesPersonnelles

(cartes de documents, cartes degroupes, …)

Page 12: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

4. Expériences réalisées

Plusieurs expérimentations avec différents types de corpus, différents types de ressources terminologiques

13e journées de Rochebrune

Corpus Ressources Observations

Exp. n°1 800 articles d’actualité 18 classes thématique généralistes

Thématiques majoritaires dans le corpus

Exp. n°2 Forum de discussion (env. 200 messages)

5 classes thématiques spécialisées

Evolution des thématiques dans le temps

Exp. n°3 articles scientifiques médicaux

Classes de termes et de méta-termes (89)

Aide à l’indexation

Exp. n°4 303 articles d’actualité boursière

3 dispositifs différentiels (64+112+111 lexies)

Caractérisation de 3 métaphores conceptuelles en synchro/diachronie

Page 13: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

Bourse,Économie,Finances,Politique,

Etc.Météo

Santé

Guerre

4. Expériences réalisées : Exp. n°4

Etude simultanée de trois métaphores conceptuelles :

• La « météorologie boursière »• La « santé financière » • La « guerre économique »

Page 14: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

4. Expériences réalisées : Exp. n°4

Analyses des cartes :

13e journées de Rochebrune

Plutôt desdépêches

Plutôt desbilans

Emplois surtout thématiques

Emplois surtout métaphoriques

Page 15: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

Cartes d’évolution : fenêtre d’un mois, déplacement d’un jour

13e journées de Rochebrune

4. Expériences réalisées : Exp. n°4

Extrait 1 Extrait 2 Extrait 3

Quelques observations : • la métaphore guerrière a été très utilisée lors du minikrach boursier fin 1987• la métaphore météorologique est plus employée lors de conditions climatiques remarquables, hiver rude, forte chaleur…

Page 16: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

5. Perspectives

• Dynamique sémique et prise en compte du global :

13e journées de Rochebrune

Extrait de l’article n°153Ce krach était dû (…) à la chute vertigineuse et incontrôlée du dollar, signe que la tempête affecte dorénavant les marchés financiers.

Isotopie 1 (générique) : bourse et économieIsotopie 2 (spécifique) : danger

Comment rendre compte de l’importance relative locale de ces isotopies ?

Pondérations des isotopies en fonction de :- nb de répétitions (trace locale)- variétés des lexies dans une même isotopie (trace locale)- rapport aux redondances principales du corpus (trace globale) - rapport aux candidats index du groupe (trace globale)- …

Page 17: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

6. Conclusions

13e journées de Rochebrune

La prise en compte de la dimension globale met en évidence :• Le besoin d’identifier des traces pour des d’analyses multi-échelles

(paragraphe, document, groupe de documents, corpus …). • L’importance des études en synchro diachronie (là aussi quelles

traces utiliser ?)

Maintenant, il faut continuer à :• Contribuer à mieux appréhender les rapports entre local et global en

linguistique de corpus• Contribuer à des approches interactionnistes où les interprétations

des utilisateurs et des machines sont complémentaires• Affirmer une scientificité des TAL, spécialement dans un rapport à la

sémiotique (et plus précisément la sémiotique des traces)

Page 18: Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents

13e journées de Rochebrune

Pour plus de traces sur ce que je viens de dire …

http://www.info.unicaen.fr/~troy/proxidocs/