corpus de français parlé et français parlé des corpus

253
Corpus 15 | 2016 Corpus de français parlé et français parlé des corpus Electronic version URL: http://journals.openedition.org/corpus/2912 ISSN: 1765-3126 Publisher Bases ; corpus et langage - UMR 6039 Printed version Date of publication: 15 October 2016 ISSN: 1638-9808 Electronic reference Corpus, 15 | 2016, « Corpus de français parlé et français parlé des corpus » [Online], Online since 15 January 2017, connection on 08 September 2020. URL : http://journals.openedition.org/corpus/2912 This text was automatically generated on 8 September 2020. © Tous droits réservés

Upload: others

Post on 16-Jul-2022

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Corpus de français parlé et français parlé des corpus

Corpus 

15 | 2016Corpus de français parlé et français parlé descorpus

Electronic versionURL: http://journals.openedition.org/corpus/2912ISSN: 1765-3126

PublisherBases ; corpus et langage - UMR 6039

Printed versionDate of publication: 15 October 2016ISSN: 1638-9808

Electronic referenceCorpus, 15 | 2016, « Corpus de français parlé et français parlé des corpus » [Online], Online since 15January 2017, connection on 08 September 2020. URL : http://journals.openedition.org/corpus/2912

This text was automatically generated on 8 September 2020.

© Tous droits réservés

Page 2: Corpus de français parlé et français parlé des corpus

TABLE OF CONTENTS

IntroductionMathieu Avanzi, Marie-José Béguelin and Federica Diémoz

Les ESLO, du portrait sonore au paysage digitalOlivier Baude and Céline Dugua

Le Corpus FRAN : réseaux et maillages en Amérique françaiseFrance Martineau and Marie-Claude Séguin

Le projet ORFÉO : un corpus d’étude pour le français contemporainChristophe Benzitoun, Jeanne-Marie Debaisieux and Henri-José Deulofeu

Le Corpus de français parlé au Québec (CFPQ) et la langue des conversations familières :Exemple de mise à profit des données à partir d’un examen lexico-sémantique de la séquenceje sais pasGaétane Dostie

Corpus international écologique de la langue française (CIEL-F) : un corpus pour larecherche comparée sur le français parléLorenza Mondada and Stefan Pfänder

CLAPI, une base de données multimodale pour la parole en interaction : apports et dilemmesH. Baldauf-Quilliatre, I. Colón de Carvajal, C. Etienne, E. Jouin-Chardon, S. Teston-Bonnard and V. Traverso

Disfluences et vieillissement langagier. De la base de données VALIBEL aux corpus outillésen français parléCatherine T. Bolly, George Christodoulides and Anne Catherine Simon

PFC, codages et représentations : la question du schwaIsabelle Racine, Jacques Durand and Helene N. Andreassen

La liaison dans un corpus d’apprenants : Le projet « Interphonologie du FrançaisContemporain » (IPFC)Isabelle Racine and Sylvain Detey

Le CFPP2000 : constitution, outils et analyses. Le cas des interrogatives indirectesSonia Branca-Rosoff and Florence Lefeuvre

Construire un corpus pour des façons de parler non standard : « Multicultural ParisFrench »Françoise Gadet and Emmanuelle Guerin

De l’archive de parole au corpus de référence : la base de données orales du français deSuisse romande (OFROM)Mathieu Avanzi, Marie-José Béguelin and Federica Diémoz

La contribution des corpus oraux à la description de phénomènes de grammaticalisation.Que nous apprend le CFPB (Corpus de français parlé à Bruxelles) sur les périphrases en aller+ infinitif ?Emmanuelle Labeau and Anne Dister

Comptes rendus

Tommaso RASO et Heliana MELLO (éd.), Spoken corpora and linguistic studies.Amsterdam : John Benjamins Publishing, 2014, 498 p.Florence Lefeuvre

Corpus, 15 | 2016

1

Page 3: Corpus de français parlé et français parlé des corpus

Henry TYNE, Virginie ANDRÉ, Christophe BENZITOUN, Alex BOULTON et Yan GREUB (éd.), Frenchthrough corpora : ecological and data-driven perspectives in French language studies. Newcastle upon Tyne UK : Cambridge Scholars Publishing, 2014, 343 p.Filip Verroens

Cécile ALDUY et Stéphane WAHNICH, Marine Le Pen prise aux mots. Décryptage dunouveau discours frontiste. Paris : Seuil, 2015, 311 p.Camille Bouzereau

Corpus, 15 | 2016

2

Page 4: Corpus de français parlé et français parlé des corpus

IntroductionMathieu Avanzi, Marie-José Béguelin et Federica Diémoz

Le présent ouvrage n’aurait pas vu le jour sans le soutien généreux du Fonds National Suisse de

la recherche scientifique, du Décanat de la Faculté des Lettres et Sciences humaines de

l’Université de Neuchâtel, de l’Association William Pierrehumbert et du projet Encyclopédie

grammaticale du français (http:// encyclogram.fr). D’autre part, François Delafontaine et

Emmanuelle Narjoux ont contribué avec efficacité à la préparation matérielle et à la correction

du manuscrit. Que tous soient ici chaleureusement remerciés.

1 Depuis un peu plus d’une décennie, on assiste dans le domaine de la francophonie à un

intérêt croissant des chercheurs pour la constitution de grands corpus de français

parlé, si bien que le retard par rapport aux autres langues comme l’anglais, l’espagnol

ou le néerlandais, que regrettaient Bilger & Blanche-Benveniste (1999), est en train de

se réduire. De nombreuses publications visant à présenter les différentes bases de

données existantes (Bruxelles, Mondada, Simon & Traverso, 2009) ou à en faire le

recensement (Cappeau & Seijido, 2005 ; Cappeau & Gadet, 2007) ont vu le jour. Un guide

des bonnes pratiques (Baude, 2005) et des consortiums1 ont été mis en place afin que les

efforts des uns et des autres soient mieux canalisés, et que les corpus soient

comparables et inter-interrogeables.

2 Vers la fin des années 90, les discussions portaient essentiellement autour des

problèmes d’édition des enregistrements de français parlé, ou visaient à démontrer

l’importance des corpus de français parlé pour la description linguistique des langues.

Claire Blanche-Benveniste et son équipe ont largement contribué à alimenter le débat

et à faire avancer les mentalités. Grâce aux chercheurs aixois, le plaidoyer en faveur de

l’utilisation de corpus oraux pour la recherche n’est plus nécessaire aujourd’hui. Grâce

à eux également, l’idée selon laquelle le français parlé doit être transcrit en

orthographe standard, avec un minimum de recours aux trucages orthographique, est

plutôt bien acceptée dans la communauté. Parallèlement, les développements de

l’informatique ont donné naissance à toute une série de logiciels qui rendent les

transcriptions plus efficaces, plus précises et plus rapides, et qui permettent une

transcription synchronisée du texte avec l’audio et la vidéo sur des couches de

transcription distinctes mais parallèles. Plus personne, aujourd’hui, n’aurait l’idée de

procéder à des transcriptions d’enregistrements dans des éditeurs de texte. Enfin, il

Corpus, 15 | 2016

3

Page 5: Corpus de français parlé et français parlé des corpus

faut souligner que le stockage numérique et le développement de l’Internet ont

considérablement facilité l’archivage pérenne et l’échange de données, de même que

l’investigation via des concordanciers.

3 Dans ce contexte, nous avons pensé que le temps était venu d’établir un bilan sur l’état

des grands corpus de français parlé. Le présent ouvrage, qui reprend et complète des

présentations faites lors d’un colloque qui s’est tenu les 8 et 9 mai 2014 à la Faculté des

lettres et sciences humaines de l’Université de Neuchâtel, vise à faire le point sur les

aspects qui caractérisent quelques-unes des grandes collectes de données actuellement

développées en France métropolitaine et dans les autres pays de la francophonie. Au

total, treize corpus sont présentés dans ce recueil.

4 Les corpus en question contiennent des données enregistrées aux quatre coins de la

francophonie (corpus PFC, I-PFC et CIEL-F), des données de français « non

hexagonales », propres à des régions ou à des territoires déterminés (la Suisse pour

OFROM, la Belgique pour VALIBEL et CFPB, l’Amérique du Nord pour CFPQ et FRAN),

des enregistrements réalisés à Paris (CFPP, MPF) et à Orléans (ESLO) ou encore des

enregistrements regroupant des locuteurs d’origines diverses (CLAPI et ORFEO). Outre

le critère géographique, ces corpus se distinguent sur plusieurs points, plus ou moins

corrélés. Le premier point concerne la diversité des situations de parole : tous les

corpus contiennent des entretiens à dominante monologique et des conversations

(CFPP, CFPB, CFPQ, MPF et OFROM), d’autres y ajoutent des enregistrements de lectures

fabriquées pour l’étude de phénomènes phonologiques précis (PFC et IPFC), d’autres

encore contiennent des interactions entre pairs recueillies dans des contextes

écologiques variés (CLAPI, ESLO, FRAN, VALIBEL). Le second point concerne les objectifs

originaux qui ont guidé la constitution de ces corpus, souvent reliés aux préoccupations

théoriques des équipes ou des laboratoires à l’origine des projets : étude de la

grammaire et de la syntaxe (CFPB, CFPQ, ORFEO), du lexique, de la syntaxe et de la

phonologie (OFROM), de phénomènes phonologiques comme le schwa et la liaison (PFC,

IPFC), des interactions (CLAPI), des phénomènes discursifs (CFPQ), ou de plusieurs de

ces domaines en même temps dans une perspective sociolinguistique (ELSO, FRAN,

MPF, VALIBEL). Ces corpus diffèrent également par les supports de transcription et de

diffusion choisis. Tous contiennent des transcriptions réalisées avec des logiciels

permettant de lire la transcription synchronisée avec le son (Praat, Transcriber) ou la

vidéo (Elan, Clan), même si certains abritent encore de la parole transcrite dans des

éditeurs de texte, et en cours de numérisation (CLAPI, ESLO, VALIBEL). Un autre point

de comparaison concerne les annotations disponibles et diffusées en plus de la

transcription. Des corpus comme PFC et IPFC proposent des codages de phénomènes

phonologiques, d’autres un codage en parties du discours (CFPP, OFROM, ORFEO,

VALIBEL) ou des annotations pour l’étude des interactions (CIEL-F, CLAPI). Enfin, il

importe de le souligner, ces corpus se distinguent par leur taille : des CLAPI, ESLO, PFC

et VALIBEL contiennent plus d’un million de mots transcrits, alors que les autres sont

de taille plus modeste, parce que plus jeunes (CFPP, CFPQ, I-PFC, MPF, ORFEO, CFPB,

FRAN, OFROM).

5 Dans un souci de comparabilité et d’homogénéité, nous avons demandé aux auteurs de

respecter dans leurs contributions le format suivant : (i) présentation succincte du

corpus (bref historique ; nature des données traitées ; description des métadonnées,

format des transcriptions et des annotations) ; (ii) exposé des résultats d’une ou de

plusieurs études menées sur la base d’une partie au moins des annotations du corpus.

Corpus, 15 | 2016

4

Page 6: Corpus de français parlé et français parlé des corpus

Nous avons regroupé les articles selon le domaine de recherche que les différents

auteurs ont choisi de focaliser. La première partie regroupe les contributions portant

sur des problèmes méthodologiques associés à la constitution et l’annotation de corpus

hétérogènes, du point de vue tant de la diversité des situations de parole que de celle de

leur provenance (corpus ESLO, FRAN et ORFEO). La seconde partie regroupe les

contributions qui présentent des phénomènes discursifs, abordés dans les

présentations de CFPQ, CIEL-F, CLAPI et VALIBEL. Les textes consacrés aux phénomènes

phonologiques (corpus PFC et I-PFC), comme le schwa et la liaison, sont regroupés dans

la partie 3. La dernière série d’articles présente quant à elle les résultats d’analyses

relevant de l’étude du lexique, de la syntaxe et/ou de la prosodie (CFPP, MPF, OFROM,

CFPB, FRAN).

BIBLIOGRAPHIE

Bilger M. & Blanche-Benveniste C. (1999). « Français parlé-oral spontané. Quelques réflexions »,

Revue française de linguistique appliquée 4 : 21-30.

Baude O. (2006). Corpus oraux. Guide des bonnes pratiques. Paris : CNRS Éditions.

Bruxelles S., Mondada L., Simon A. C. & Traverso V. (2009). Grands Corpus de français parlé : Bilan

historique et perspectives de recherche (= Cahier de linguistique de Louvain 33/2). Louvain : Presses

universitaires de Louvain.

Cappeau P. & Seijido M. (2005). « Inventaire des corpus oraux en langue française », document

téléchargeable à l’adresse www.dglflf.culture.gouv.fr.

Cappeau P. & Gadet F. (2007). « Où en sont les corpus sur les français parlés ? », Revue française de

linguistique appliquée 12 : 129-133.

Gadet F. (2013). « Des corpus pour les français hors de France. Présentation de la banque de

données DGLFLF », document téléchargeable à l’adresse https://halshs.archives-ouvertes.fr/

halshs-00875894.

NOTES

1. Cf. par exemple les projets IRCOM (http://ircom.corpus-ir.fr/site/accueil.php) et ORTOLANG

(http://www.ortolang.fr).

Corpus, 15 | 2016

5

Page 7: Corpus de français parlé et français parlé des corpus

AUTEURS

MATHIEU AVANZI

Universités de Genève et de Zurich

MARIE-JOSÉ BÉGUELIN

Université de Neuchâtel

FEDERICA DIÉMOZ

Université de Neuchâtel

Corpus, 15 | 2016

6

Page 8: Corpus de français parlé et français parlé des corpus

Les ESLO, du portrait sonore aupaysage digitalESLO: from the sound portrait to the digital landscape

Olivier Baude et Céline Dugua

1 Les Enquêtes sociolinguistiques à Orléans (dorénavant ESLO) forment un grand corpus

oral de plusieurs millions de mots. Ce corpus a été réalisé à deux époques importantes

de la linguistique contemporaine. La première enquête (ESLO1), élaborée à la fin des

années soixante, accompagne la naissance d’une sociolinguistique urbaine fondée sur

un grand corpus d’enquêtes, et la seconde (ESLO2), commencée au début des

années 2000, a profité du tournant numérique produit par les Digital Humanities en

sciences humaines et sociales. Résolument ancrées dans le courant de la

sociolinguistique et de la linguistique variationniste, les ESLO forment le socle d’études

sur le français parlé à Orléans dans une perspective qui place les données au cœur

d’études sur la nature sociale de la langue.

2 Cet article vise à décrire le travail réalisé depuis une dizaine d’années par l’équipe du

projet des ESLO en le confrontant à ses cadres théoriques et méthodologiques. Après

avoir abordé brièvement l’ancrage sociolinguistique du statut des données et le

périmètre du français parlé, nous présenterons le travail réalisé afin de faire de ces

corpus un « objet scientifique disponible » et situé.

1. Sociolinguistique et corpus

3 La notion de corpus croise différentes approches parfois relativement éloignées selon

qu’on se situe dans une perspective de linguistique de terrain ou de linguistique

informatisée. Elle prend néanmoins un sens bien plus défini dans le cadre du

programme de la sociolinguistique tel qu’il a été établi dans la seconde moitié du

vingtième siècle.

Corpus, 15 | 2016

7

Page 9: Corpus de français parlé et français parlé des corpus

1.1 Nature sociale de la langue

4 La sociolinguistique s’est fondée sur une relecture pertinente de définition même de

l’objet de la linguistique et sur la volonté de couvrir l’ensemble du domaine.

Pour Labov, la sociolinguistique n’est pas une des branches de la linguistique, et pasdavantage une discipline interdisciplinaire : c’est d’abord la linguistique, toute lalinguistique – mais la linguistique remise sur ses pieds. Elle se fonde sur l’ambitionde remplir dans sa totalité le programme que la linguistique se donne dans sadéfinition moderne – et de l’outrepasser du seul fait de ne pas réduire son objet.(Encrevé, 1976 : 9)

5 Dans cette perspective, la sociolinguistique définit la langue comme étant partie prise et

partie prenante d’un social qui ne peut se réduire à un trésor collectif. Si le social est

divisé et lieu de luttes et d’enjeux qui le structurent, la langue en porte, dans sa nature

même, les caractéristiques qui font de la variation le principe même de celle-ci :

Une partie fondamentale des variations présentées par les paroles individuelles estelle aussi « instituée socialement », et par là même gouvernée par des règles : ellefait partie du système de la langue. Elle trouve normalement sa place dans la« linguistique interne » telle que la définit le CLG : « Est interne tout ce quiconcerne le système et les règles […] est interne tout ce qui change le système à undegré quelconque ». (Encrevé, 1976 : 11-12)

6 Cette conception de la variation comme composante inhérente de la langue a une

incidence directe sur la définition de l’objet d’étude sur lequel les linguistes doivent se

pencher. Si les variations linguistiques sont à étudier au sein du domaine de la

linguistique interne, la langue est bien le lieu où productions linguistiques et marché

linguistique sont étroitement liés selon une « grammaire de la réception » qui situe la

langue, comme le faisait déjà Saussure, dans le circuit de la parole :

Ainsi la langue d’un sujet, contrairement au sujet commun, ce n’est pas la languequ’il parle, c’est la langue qu’il entend. Or que reçoit l’oreille d’un sujet parlant :très précisément ce que la sociolinguistique veut enregistrer et que la linguistiqueactuelle refuse d’écouter, les multiples paroles dont l’ensemble hétérogène arriveraà former la langue de la communauté. (Encrevé, 1976 : 7)

7 Ainsi, la communauté linguistique doit être saisie en tant qu’organisation concrète

structurée et structurante des dynamiques sociales. C’est bien au cœur de celles-ci,

plutôt que dans une recherche illusoire d’une langue stabilisée au sein d’une

communauté homogène, qu’il faut aller observer la langue afin d’obtenir l’adéquation

observationnelle première que Chomsky lui-même réclamait.

Au total, c’est dans le caractère intrinsèquement social de la langue, dans l’intimitédu lien entre langue et communauté linguistique socialement qualifiée queWeinreich, Labov et Herzog (1968) voient la source première et le moteur duchangement linguistique. La communauté linguistique, rappellent-ils, est uneorganisation sociale concrète. Elle est donc, ex definitio, profondément hétérogène,divisée, hiérarchisée, structurée par des dynamiques sociales antagoniques. Lavariation et l’hétérogénéité linguistique d’une part, la variation et l’hétérogénéitésociale de l’autre, ne sont alors que les deux aspects du même réel social. C’est ainsiparce qu’il n’existe jamais de communauté homogène parfaitement stable qu’iln’existe jamais de langue homogène parfaitement invariante et stable. (Laks,2013 : 41)

8 Là encore, la langue ne peut se définir en dehors d’un réel social qu’il convient

d’appréhender pour toute étude sur la langue. Selon Bourdieu, l’expression linguistique

résulte d’une production émanant d’un habitus linguistique confronté à un marché

Corpus, 15 | 2016

8

Page 10: Corpus de français parlé et français parlé des corpus

linguistique (Bourdieu 1984 : 121). Il en découle que l’acquisition du langage met en jeu

des intériorisations socialement réglées. Ainsi, comme le souligne Encrevé :

Aussi la grammaticalité est-elle toujours de nature sociale quant à son origineconcrète pour un sujet : elle est toujours reçue et acquise assortie de sanctionssociales, dont la nature et l’importance varient avec le marché de la langue en cause– corrections, reprises, réprimandes dans la famille ; rire, moquerie de la part deségaux pour les dialectes dominés ; sanctions du marché scolaire, du marchématrimonial, du marché du travail pour les dialectes dominants. (Encrevé,1976 : 7-8)

9 Il est alors aisé de concevoir le changement linguistique comme un processus résultant

d’une lutte au sein de l’hétérogénéité des pratiques linguistiques évaluées socialement.

La boucle est bouclée, de l’acquisition du langage au changement linguistique, la

sociolinguistique offre un cadre théorique où la nature sociale de la langue est

maintenant clairement définie. Cette définition de l’objet de la linguistique par la

sociolinguistique se concrétise en premier lieu, et de manière centrale, autour de la

question des données.

1.2 Sociolinguistique et données

10 En effet, définir la langue comme un fait social, nécessite de l’observer comme une

pratique socialement située. C’est donc au sein même de l’activité sociale qu’elle

devient appréhendable :

Partie structurée d’un tout qu’elle structure, la langue, en effet, n’est jamais« donnée ». Les « données » de la langue dans son usage quotidien, telle que veutl’étudier Labov, ne sont « produites » qu’au terme d’un long chemin d’aveuglette oùse construit pas à pas une science de l’enquête linguistique qui est la premièreconquête de la sociolinguistique. (Encrevé, 1976 : 13)

11 Pour la sociolinguistique, il ne s’agit pas d’une simple question méthodologique qui

déterminerait l’observation des données comme une étape préliminaire à l’analyse

scientifique, bien au contraire la définition même des données et des conditions de leur

production sont au cœur du travail du linguiste. La première incidence concerne le

périmètre des données linguistiques. Comme le souligne Laks (2013), on ne peut

concevoir d’analyser des données linguistiques orphelines de l’habitus du locuteur et

du marché qui structure ses productions :

Observer la variation dans sa systématicité et rendre compte de l’hétérogénéitécomme étant structurée impose évidemment d’adopter une méthodologie adéquate.On sait en effet que décontextualisée, l’observation détruit la systématicité desphénomènes variables et les fait paraitre erratiques. Observer les faits linguistiqueshors de l’écosystème social qui les conditionne détruit en effet tout ce que lapratique doit précisément à son caractère pratique. C’est la raison pour laquellel’analyse de la variation systémique commence nécessairement par une réflexioncritique sur les observables. (Laks, 2013 : 36)

12 Dans les années soixante-dix, la réflexion sur la place des données a entraîné une

véritable science de l’enquête linguistique pour laquelle les avancées de la sociologie à

la même époque, depuis Bourdieu, Chamboredon et Passeron en 1968 jusqu’à Beaud et

Weber en 1997, ont été déterminantes en ce domaine. Parallèlement et parfois

simultanément à l’apport de la sociologie de l’enquête, la naissance du domaine de

l’analyse de conversations et les études sur les données « naturelles » ou plus justement

sur les données issues de « situations non provoquées par le chercheur » sont

Corpus, 15 | 2016

9

Page 11: Corpus de français parlé et français parlé des corpus

également des éléments essentiels du développement de la science de l’enquête

linguistique.

13 Enfin, le troisième domaine constitutif de cette démarche méthodologique et théorique

provient de la linguistique de corpus dans son versant « informatique et traitement

automatique du langage ».

1.3 Données et posture du chercheur

14 Dans cette perspective, la place des données devient prédominante, et le travail du

linguiste ne peut s’affranchir d’une démarche réflexive sur la méthodologie de

constitution et d’exploitation des données. Il lui revient alors de rendre explicite ses

motivations scientifiques, sa méthodologie de collecte, la description des données et le

traitement de celles-ci (Habert, 2005). C’est alors une véritable posture qui se profile

sur la base d’une confrontation scientifique qui doit rendre possible la disponibilité des

données, y compris pour un retour évaluatif ou contrastif, leur interopérabilité et leur

description fine. En outre cette posture ne peut s’affranchir d’une réflexion éthique et

juridique (Baude, 2006) sur les données, les locuteurs et le terrain non exempts

d’enjeux sociaux.

15 Il s’agit donc de définir une conception de la sociolinguistique et par-delà de la

linguistique, à partir de la relation de cette discipline aux données, nécessairement

variationnistes et situées. Ceci nécessite que le linguiste sache ce qu’il fait (Gadet, 2007),

dans la continuité d’une évolution méthodologique et théorique d’une science de

l’enquête à une science du corpus.

16 Les Enquêtes sociolinguistiques à Orléans, qui se concrétisent par un ensemble de deux

corpus réalisés à quarante années d’intervalle, offrent l’opportunité d’évaluer, à partir

de projets concrets, le cadre de ce positionnement.

2. Le français ordinaire

2.1 La recherche du français parlé

17 ESLO1 a pour origine un projet à finalité didactique. L’équipe constituée à la fin des

années soixante autour de Michel Blanc avait comme objectif de réaliser une méthode

d’enseignement audiovisuelle du français langue seconde à partir de documents

authentiques. Celui-ci est clairement défini dans un court article paru en 1971 (Blanc &

Biggs). À « une époque où le rôle essentiel de la langue parlée dans l’enseignement

d’une langue étrangère » venait d’être acquis, il a fallu « constituer un ensemble

cohérent de matériaux vivants, rassemblés de manière systématique » valable « à la fois

pour l’application pédagogique et pour la recherche sur la langue parlée ». Partant du

constat qu’une collection ordonnée de documents de ce type n’était pas disponible,

l’équipe a entrepris de collecter un vaste corpus représentatif du français parlé à partir

d’une enquête ciblée sur une ville « moyenne » française exempte de caractéristiques

trop marquées.

18 La démarche a d’emblée été résolument ancrée dans le champ de la sociolinguistique et

la variation fut au cœur du travail de définition de la représentativité du corpus :

Selon nous une recherche sociolinguistique impliquait une étude de la langue danssa diversité plutôt que comme un tout homogène et figé. En effet, même si on étudie

Corpus, 15 | 2016

10

Page 12: Corpus de français parlé et français parlé des corpus

un état de langue à un moment précis de l’histoire, il n’empêche qu’il offre unevariété à plusieurs niveaux : différences entre les générations, différencesdialectales entre communautés, différences entre les milieux sociaux, différencesliées aux conditions de production du discours. (Blanc & Biggs, 1971 :16)

19 Cette prise en compte de la diversité n’exclut pas, bien au contraire, la recherche d’une

langue partagée par une communauté linguistique. C’est ainsi que le projet s’est orienté

vers la réalisation du portrait sonore de la ville d’Orléans. Il s’agissait d’observer et de

capter à un moment précis, dans un lieu restreint, la dynamique des pratiques

linguistiques partagées par les habitants d’une cité. Le corpus est donc constitué d’une

collection d’entretiens de locuteurs socialement situés et catégorisés, mais aussi

d’enregistrements variés donnant accès au « français parlé dans une ville moyenne par

la population de la ville à une époque précise » (Blanc & Biggs, 1971).

2.2 La découverte du français entendu

20 La grande originalité pour l’époque et le parti pris très fort choisi par l’équipe ont été

de définir les pratiques linguistiques communes non pas par les productions de

locuteurs types mais par l’hétérogénéité des pratiques linguistiques entendues dans la

ville. Comme le soulignent Blanc & Biggs, « C’est une communauté d’auditeurs qui est

construite, autant qu’une communauté de locuteurs, à notre connaissance pour la

première fois en France […] On ne cherche pas “cet individu mythique, l’Orléanais

moyen” » (Blanc & Biggs, 1971 : 23). On est ici dans la même perspective de la

sociolinguistique que celle défendue par Encrevé, quelques années plus tard, quand il

reprend l’affirmation de Saussure selon laquelle la langue comme objet de la

linguistique se situe dans le circuit de la parole, pour préciser immédiatement que

pour Saussure la langue est entièrement, et exclusivement, du côté de l’audition, dela réception : on peut la (la langue) localiser dans la partie déterminée du circuit (deparole) où une image auditive vient s’associer à un concept ; c’est par lefonctionnement des facultés réceptives et coordinatives que se forment chez lessujets parlants des empreintes qui arrivent à être sensiblement les mêmes pourtous. Ces deux points sont manifestement reliés : seule l’audition met le sujet encontact avec la masse parlante. Ainsi la langue d’un sujet, contrairement aujugement commun, ce n’est pas la langue qu’il parle, c’est la langue qu’il entend. (Encrevé, 1977 : 6)

21 Nous le verrons dans le chapitre consacré à l’architecture des corpus des ESLO, ce cadre

théorique et ses incidences méthodologiques apportent une très forte identité à

l’ensemble du projet.

2.3 La linguistique du français parlé d’ESLO1 à ESLO2

22 Entre les deux enquêtes ESLO1 et ESLO2, la linguistique française a bénéficié des très

précieux travaux de Blanche-Benveniste et de l’école du GARS sur la description du

français parlé. Ces études, principalement grammaticales, ont incontestablement

marqué le champ de la discipline. Or, comme ces travaux du GARS reposent

essentiellement sur l’analyse de corpus, on peut s’attendre à une avancée importante

sur la description du français parlé et, simultanément, sur la méthodologie de corpus

entre les années soixante et les années deux mille dix. Si l’avancée a été majeure et

déterminante pour les travaux sur la syntaxe du français, elle n’a apporté qu’une

contribution très faible à la linguistique de corpus ou plus exactement à la linguistique

Corpus, 15 | 2016

11

Page 13: Corpus de français parlé et français parlé des corpus

sur corpus. La relation relativement distante entretenue entre les travaux du GARS et la

sociolinguistique explique ce rendez-vous manqué.

23 Quatre disciplines vont avoir une incidence plus forte dans la même période sur les

corpus de français parlé. Discipline compagne, la sociologie va opérer un lourd travail

sur le recueil des données et sur la méthodologie d’entretien qui reste une part

importante des corpus oraux. Parallèlement, la linguistique de l’interaction et plus

particulièrement l’Analyse de conversations va se développer très fortement et

proposer une nouvelle approche du recueil de données « non provoquées par le

chercheur ». Ensuite, le domaine de l’acquisition du langage fournira une méthodologie

très rigoureuse de grandes bases de données partagées (volet français du programme

CHILDES, notamment pour ce qui concerne l’adoption d’un format et d’un codage

communs (MacWhinney, 2000)) de corpus de productions d’enfants. Enfin, la recherche

en technologies de la parole, de la reconnaissance à la synthèse en passant par la

traduction repose sur le traitement de données orales massives.

24 La reprise du projet ESLO1 par l’équipe du CORAL (devenue LLL), en 2004, avec comme

perspective de rendre disponible l’intégralité du corpus1 et d’en constituer un nouveau,

devait nécessairement tenir compte des avancées apportées par ces disciplines.

25 Un bref bilan de l’impact de celles-ci révèle la qualité du travail précurseur des auteurs

d’ESLO1 et facilite la reprise du projet avec une forte continuité, même si plusieurs

choix sont caractéristiques de l’évolution d’ESLO2.

26 Outre le soin apporté à la technique de conduite d’entretiens, les principales évolutions

concernent l’intérêt accru pour assurer une représentation de l’hétérogénéité du panel

de locuteurs et des situations enregistrées (cf. chapitre sur l’architecture du corpus en

infra) et pour la description des langues en contact avec le français.

2.4 Conserver et diffuser le français ordinaire

27 Le bouleversement le plus fort concerne un élément peu fréquent jusqu’à très

récemment dans les projets sur les corpus de français parlé : celui de la conservation et

de la diffusion.

28 Pourtant, sur ce point aussi, ESLO1 était totalement précurseur.

29 Alors que, dix ans auparavant, les responsables du Français fondamental effaçaient les

enregistrements réalisés dans le cadre de ce projet d’ampleur internationale (Abouda &

Baude, 2007), les auteurs d’ESLO1 décidaient d’apporter un soin particulier au

catalogage de leurs enregistrements afin d’en assurer la meilleure diffusion. Ainsi, un

des six objectifs d’ESLO1 était de :

préparer et publier un catalogue descriptif et analytique des documents sonores etécrits, afin de les rendre disponibles aux chercheurs, notamment dans les domainesde la linguistique, de la sociologie et de la pédagogie des langues. (Lonergan, Kay &Ross, 1974 : 2)

30 Cette volonté affichée dès l’origine du projet aura une forte incidence sur son

développement. Elle porte la marque d’une relation particulière aux données et au rôle

de leur exploitation partagée dans la constitution d’un savoir collectif. C’est également

une reconnaissance de la légitimité de la langue parlée comme objet scientifique et

patrimonial. L’ESLO deviendra alors une référence sous le nom du Corpus d’Orléans et

Corpus, 15 | 2016

12

Page 14: Corpus de français parlé et français parlé des corpus

voyagera de la France à l’Angleterre, des Pays-Bas à la Belgique, au gré des nombreux

travaux de chercheurs dans une discipline en plein développement.

3. Le corpus des ESLO

3.1 Un très grand corpus

31 Le corpus des ESLO2 a comme objectif d’être un très grand corpus de français parlé

constitué de plusieurs centaines d’heures d’enregistrements afin d’atteindre une masse

de 10 millions de mots.

32 Il est composé du corpus ESLO1, qui est un corpus clos, réalisé entre 1968 et 1971, et qui

comprend 470 enregistrements d’une durée totale de 318 heures, ce qui représenterait,

selon l’estimation de l’époque, 4,5 millions de mots3.

33 Le corpus ESLO2, en cours de réalisation, affiche un objectif de plus de six millions de

mots pour 450 heures d’enregistrements.

34 Réunis dans une même base de données comprenant les enregistrements, leur

transcription orthographique et les métadonnées décrivant les documents, le contexte

d’enregistrement et les locuteurs, le corpus des ESLO est actuellement le plus grand

corpus de français parlé disponible pour la recherche en linguistique.

35 L’objectif du projet n’est pas de produire un corpus représentatif, mais d’offrir un

réservoir de corpus conçu dans un souci de représentativité des pratiques linguistiques

d’une communauté d’auditeurs dans une ville donnée, à des moments distincts. La

constitution d’un sous-corpus d’études à partir de ces données reste à la charge du

chercheur dans une démarche où la sélection des données est une étape fondamentale

de l’analyse. Il revient alors aux auteurs des ESLO de rendre disponibles les données

tout en les situant à la fois dans le cadre de leur contexte de production par les

locuteurs et de celui de production par l’équipe scientifique, y compris dans ses aspects

et contraintes technologiques.

36 Il ne s’agit donc pas de produire un corpus de masse de données sans en préciser

l’architecture et les cadres théoriques qui la conditionnent.

3.2 Architecture du corpus

37 La composition du corpus a subi une évolution sensible entre ESLO1 et ESLO2.

38 Comme nous l’avons indiqué, le corpus ESLO1 correspond déjà à une prise en charge

des variations linguistiques selon différents axes. Cette recherche de la variation s’est

concrétisée par une architecture qui, en donnant une place centrale aux entretiens en

face-à-face, a néanmoins intégré sept autres modules dédiés à la diversité des situations

de production de discours :

– Interviews sur questionnaires (interviews en face-à-face sur des questionnaires

standardisés, avec un échantillon statistique aléatoire, choisi d’après la liste INSEE du

recensement de la population 1968). 157 enregistrements, 182,5 heures.

– Opérations sur le vif : contacts (prises de contact, reprises de contact, ouverture et

clôture des entretiens enregistrés à l’insu du témoin). 55 enregistrements, 12,5 heures.

Corpus, 15 | 2016

13

Page 15: Corpus de français parlé et français parlé des corpus

– Opérations sur le vif : témoins en situations sociales ou professionnelles

(enregistrements de témoins INSEE dans des situations sociales ou professionnelles,

faits en l’absence des chercheurs). 16 enregistrements, 14,5 heures.

– Communications téléphoniques. 50 enregistrements, 2,15 heures.

– Interviews sur mesure (entretiens avec des individus choisis selon leur rôle dans la

« microsociété » orléanaise). 45 enregistrements, 48,33 heures.

– Conférences-débats (conférences-débats ou discussions à plusieurs participants, les

dernières comportant souvent des témoins INSEE). 26 enregistrements, 34,15 heures.

– Enregistrements divers (enregistrements divers comportant des témoins inconnus,

visites d’atelier, marchés, magasins, etc.). 84 enregistrements, 14,33 heures.

– CMPP (interviews au Centre médico-psychopédagogique, parents d’élèves et

assistante sociale). 37 enregistrements, 10 heures.

39 L’ensemble de ces modules est décrit dans le catalogue original (Lonergan, 1974 : 1) et

présenté sur le site de diffusion du corpus ESLO4.

40 L’architecture va considérablement évoluer dans le cadre du corpus ESLO25 afin de

prendre en compte l’avancée méthodologique et théorique réalisée entre 1968 et 2008.

Par exemple, l’évolution technologique a une forte incidence sur la collecte des corpus

oraux. Si les auteurs d’ESLO1 se félicitaient de disposer de matériel d’enregistrement

peu volumineux (de la taille d’une petite valise), et léger (à peine 7 kg), l’équipe d’ESLO2

dispose d’un matériel numérique offrant les possibilités d’équiper des locuteurs de

micro-cravates HF pour une qualité d’enregistrement de tout premier ordre. Ainsi,

pour l’un des modules qui consiste à enregistrer l’intégralité de ce qu’une personne

entend pendant 24 heures, les locuteurs sont équipés d’un micro les accompagnant

dans toutes les activités de la vie quotidienne, de la toilette à la soirée entre amis en

passant par l’activité professionnelle et les conversations familiales.

41 Cette évolution technologique s’accompagne d’un engouement fort pour la captation

d’enregistrements les plus diversifiés dans des situations non provoquées par le

chercheur selon les objectifs de l’Analyse de conversations.

42 L’objectif de dresser un portrait sonore ne peut donc se résumer à la collecte

d’entretiens selon un échantillonnage sociologique. Il convient également d’élaborer

une architecture de corpus qui permet de rendre compte de la diversité des situations

de production et d’audition. Force est de constater qu’ESLO1 était balbutiant sur cet

aspect. Si les entretiens ont été réalisés avec beaucoup de rigueur, les autres types

d’enregistrements sont très souvent de très mauvaise qualité et correspondent à des

objectifs peu maîtrisés. La tentative d’enregistrer la même personne dans diverses

situations s’est réduite à de simples tests sur quelques locuteurs. ESLO2 a donc comme

ambition de présenter une forte évolution de la méthodologie de collecte de situations

variées et représentatives des pratiques d’une communauté.

43 C’est toute l’architecture du corpus qui doit être modifiée afin de prendre en compte

une grande diversité de situations de productions linguistiques tout en les situant au

sein d’un marché linguistique plus général.

44 Le premier effet de ce changement est de pondérer la place des entretiens par rapport à

d’autres types d’enregistrements. Les graphiques suivants qui expriment en nombre

d’heures et en pourcentage la place de chacun des modules pour les deux corpus,

rendent compte de ce changement.

Corpus, 15 | 2016

14

Page 16: Corpus de français parlé et français parlé des corpus

Figure 1. ESLO1

Figure 2. ESLO2

3.3 Catégorisation des modules

45 L’architecture d’un corpus ne peut se résumer au pourcentage des genres, styles ou

situations représentées. Elle nécessite également une réflexion sur la pertinence de ces

catégories au sein d’une structure globale.

46 Ainsi, assurer la collecte de la diversité des pratiques linguistiques répond à un objectif

d’enquête sociolinguistique et de description linguistique. Le conditionnement en

corpus numérique du résultat de cette collecte nécessite un travail de catégorisation

Corpus, 15 | 2016

15

Page 17: Corpus de français parlé et français parlé des corpus

des modules constituant l’architecture du corpus. Cette catégorisation se doit d’être

explicite et disponible à des fins de traitement des données. La classification habituelle

dans les corpus de français parlé repose sur une opposition simpliste entre discours

public et discours privé décrivant le niveau de formalité des énoncés.

47 Ainsi, le Corpus de référence du français parlé , réalisé par Claire Blanche Benveniste et

l’équipe DELIC à partir de 1998, repose sur une structure en trois modules : parole

privée, parole professionnelle et parole publique. Cette distinction est assez

rudimentaire si on se réfère aux travaux de l’analyse de conversations ou même à la

description des registres de langue (Koch & Oesterreicher, 2001).

48 Le corpus ESLO2 est l’occasion de tenter une description des registres, styles ou types

de situation en partant des caractéristiques a priori et, a posteriori, des différents

modules.

49 Chaque module est décrit a priori, c’est-à-dire avant la collecte et non sur la base d’une

analyse du contenu, selon les critères suivants :

– Degré de planification du discours (en opposant le registre « spontané » de la

conversation ordinaire à celui de conférences où le discours est écrit),

– Degré d’interactivité (du monologue au dialogue et autres conversations relevant

d’un travail conséquent d’interaction),

– Degré de distance sociale entre les interactants (à partir des critères traditionnels de

la sociologie : âge, sexe, niveau d’études, profession),

– Degré de convergence (de la polémique au consensus),

– Degré de formalité du cadre (au sens de Goffman, chaque situation pouvant se définir

selon un cadre social impliquant des statuts, rôles et comportements langagiers).

50 Chacun de ces critères est évalué sur une échelle de 0 à 10, et le module peut être

visualisé selon la forme obtenue par un graphique en radar :

Figure 3. Les différents modules constitutifs de l’architecture ESLO2

Corpus, 15 | 2016

16

Page 18: Corpus de français parlé et français parlé des corpus

51 Cette démarche permet de décrire l’architecture du corpus en affinant une prise en

compte des axes traditionnels qui situent un contexte de production de discours selon

le degré de formalisme de la situation sociale d’une part et le degré de planification de

l’énoncé d’autre part.

Figrue 4. Les différents discours selon les axes classiques

52 Cette représentation de l’architecture du corpus répond à deux objectifs.

Premièrement, il s’agit de définir avec précisions les différents modules qui composent

le corpus complet en situant les situations enregistrées selon les critères de la

sociologie et de la pragmatique. Cela répond à une conception des pratiques

linguistiques comme relevant systématiquement d’un contexte, qui n’est autre qu’un

marché linguistique au sein duquel les locuteurs mobilisent des comportements

langagiers dans un but d’interaction.

53 Deuxièmement, l’évaluation des modules selon différents critères permet un travail

réflexif sur une définition a priori et un constat a posteriori à partir des données précises

de la situation enregistrée. Ainsi, si le module « entretien » répond globalement à une

définition selon les critères présentés, celle-ci va être pondérée pour chaque entretien.

L’évaluation de la distance sociale et du degré d’interactivité peut par exemple être très

différente d’un entretien à l’autre et déboucher sur une représentation proche d’une

conversation ordinaire dans un cas ou d’un discours public ou médiatique dans un

autre.

54 In fine, cette réflexion sur l’architecture du corpus permet de concevoir ESLO2 comme

un corpus ouvert sans pour autant le réduire à un empilement, opportuniste et sans fin,

d’enregistrements variés.

Corpus, 15 | 2016

17

Page 19: Corpus de français parlé et français parlé des corpus

3.4 État du corpus

55 L’ensemble des enregistrements est maintenant numérique. L’intégralité des

enregistrements ESLO1 a été numérisée dans le cadre du dépôt du fonds à la

Bibliothèque nationale de France. ESLO2 est nativement collecté en numérique à l’aide

de différents matériels selon les contraintes des modules6. Si ESLO1 est un corpus clos,

la collecte d’ESLO2 continue à la date de la rédaction de cet article.

56 Tous les enregistrements sont catalogués et indexés (cf. chapitre suivant), et la

transcription de l’intégralité des corpus est en cours.

57 Les opérations de formatage, catalogage et transcription sont excessivement lourdes, ce

qui explique le peu de corpus d’envergure disponibles. Face à cette difficulté, les

chercheurs se replient souvent vers un usage du corpus restreint à leur recherche. La

particularité forte du projet des ESLO est au contraire de maintenir un objectif

scientifique clairement identifié tout en attribuant au corpus une valeur patrimoniale

et scientifique qui dépasse le cadre du projet initial. Il en résulte un vaste chantier de

traitement du corpus qui sera détaillé dans la dernière partie de cet article. Nous

pouvons néanmoins faire état de l’avancement de ces opérations. Ainsi, au 1er mai 2015,

le corpus des ESLO est composé de :

Figure 5. Composition d’ESLO

Enregistrements Transcrits

Nb. Heures Nb. Heures

ESLO1 468 318 336 274

ESLO2 590 266 583 259

TOTAL 1 058 584 919 533

4. Un corpus pour les humanités numériques

4.1 Le temps des humanités numériques

58 Le projet de diffusion des ESLO au début des années 2000 est contemporain de la

mutation des sciences humaines et sociales dans ce qu’on appelle dorénavant le

tournant des Digitals Humanities ou humanités numériques, voire humanités digitales (Le

Deuff, 2014)7. Les discussions sur ce que sont les humanités numériques sont vives, et la

définition reste très ouverte. Il ne s’agit pas d’entrer ici dans une vaste discussion sur la

pertinence d’une approche en termes de naissance d’une discipline, d’une trans-

discipline ou d’une appropriation d’outils numériques par des disciplines

traditionnelles, nous nous contenterons de constater que la linguistique est en

première ligne d’un questionnement sur les conditions de constitution, de diffusion et

de partage d’un savoir transformé par le croisement de l’informatique, du numérique

et des arts et lettres, au sein des sciences humaines et sociales. Ces grands principes ont

été définis dans le Manifeste des Digital Humanities8.

Corpus, 15 | 2016

18

Page 20: Corpus de français parlé et français parlé des corpus

59 D’une manière plus concrète encore, nous présentons ici les principales

caractéristiques qui inscrivent le projet des ESLO dans cette approche des corpus en

sciences humaines et sociales. Le soin apporté à la diffusion d’ESLO1, en 1974, en

réalisant un « catalogue descriptif et analytique des documents sonores et écrits, afin

de les rendre disponibles aux chercheurs (Lonergan, 1974 : 2) » peut être interprété

comme la première pierre posée dans l’édifice d’un corpus qui dépasse les enjeux de

l’étude des auteurs. La seconde pierre viendra de l’équipe de Piet Mertens et du projet

ELICOP, quelque trente ans plus tard, en rendant accessible une partie du corpus après

un lourd travail de normalisation des conventions de transcription et même

d’annotations morphosyntaxiques contenues dans des balises au format SGML. Ce

travail s’appuie sur les perspectives dressées par la linguistique de corpus telle qu’elle

est définie par Habert, Nazarenko & Salem en 1997, mais n’est pas encore directement

orienté vers un traitement d’ensemble.

60 C’est à partir de 2004, avec la numérisation d’ESLO1 et le souhait de rendre le corpus

intégralement disponible pour des usages scientifiques mais aussi culturels, que

l’édifice s’ancrera définitivement dans les humanités numériques.

4.2 L’interopérabilité et l’archivage

61 La question de la réutilisation d’un corpus n’est pas anodine et ne va pas de soi. Il ne

s’agit pas ici d’affirmer que toute recherche linguistique doit s’appuyer sur un corpus et

que tout corpus peut être réutilisé pour d’autres recherches. Rien n’est moins sûr, mais,

dans le cas des ESLO, c’est un parti pris affirmé par les différents auteurs du projet. Le

périmètre du projet est de fait vaste, il s’agit de produire le portrait sonore d’une ville

en faisant l’hypothèse que le corpus produit peut être utile à diverses recherches en

linguistique, sociologie, histoire, didactique, et acquiert ainsi une dimension

patrimoniale qui a également pour effet de légitimer le français tel qu’il est parlé dans

sa très grande diversité.

62 L’objectif affirmé est donc de disposer de données répondant à un critère

d’interopérabilité. Celui-ci se concrétise à différents niveaux.

63 Premièrement, les enregistrements sont conservés dans un format numérique selon les

recommandations d’une structure internationale, l’International Association of Sound and

Audiovisual Archive9.

64 Deuxièmement, les documents sont systématiquement accompagnés de métadonnées

descriptives. Le choix retenu est celui du format DUBLIN-CORE Open Language Archives

Community10. Il s’agit d’un choix minimal qui a été repris dans le cas de diffusions liées à

d’autres objectifs. Ainsi, le format CMDI11 est celui utilisé dans la perspective

européenne CLARIN, le format EAD12 par la BNF pour l’intégration à son catalogue

Archives et Manuscrits, et l’EDM dans le cadre de la bibliothèque européenne Europeana13.

65 Troisièmement, les enregistrements sont transcrits et synchronisés avec le signal

sonore selon des conventions minimales14 répondant à un format interopérable. Le

format choisi est un format XML qui est ensuite repris pour un enrichissement en TEI

(TEIML15). Les transcriptions sont segmentées en unités prosodiquement,

syntaxiquement et sémantiquement cohérentes afin d’assurer une synchronisation à

l’aide de jalons temporels fréquents. La transcription proposée repose sur des

conventions minimales. À ce stade, il s’agit de répondre à un simple objectif de

Corpus, 15 | 2016

19

Page 21: Corpus de français parlé et français parlé des corpus

navigation dans le corpus. Pour toute analyse ultérieure, une reprise de la transcription

avec des conventions répondant aux cadres théoriques du chercheur est indispensable.

66 L’ensemble de ces choix permet l’utilisation d’un service d’archivage. Expérimenté dans

le cadre du projet pilote sur l’archivage de l’oral par le TGE ADONIS puis poursuivi par

la TGIR HUM-NUM, les données (enregistrements, transcriptions et métadonnées) sont

confiées à la plateforme Cocoon16, qui en assure le stockage sécurisé sur la grille Huma-

Num hébergée au centre de calcul de l’IN2P3. Pendant cette phase, Cocoon assure des

services de contrôle de la qualité des données puis verse les données au Centre

informatique national de l’enseignement supérieur pour une conservation

intermédiaire, avant de rejoindre les Archives nationales pour un archivage définitif.

Parallèlement, les bandes magnétiques originales ont été confiées au service sonore du

département de l’audiovisuel de la BNF.

67 Les opérations d’archivage sont également l’occasion d’attribuer un identifiant unique

et pérenne à tous les documents constitutifs du corpus.

4.3 Les aspects juridiques

68 La diffusion du corpus est bien évidemment liée à des aspects juridiques. Sur ce point,

le projet a bénéficié du travail diffusé par le Guide des bonnes pratiques 200617.

69 Le choix de l’équipe a été d’apporter beaucoup d’attention à une démarche éthique en

recueillant le consentement éclairé de toutes les personnes enregistrées18. Les

enregistrements et les transcriptions sont également anonymisés et les données

personnelles conservées dans une base de données séparée.

70 Les données sont diffusées sous licence Creatives Commons19 (BY NC SA : Attribution,

pas d’utilisation commerciale et partage dans les mêmes conditions) : le titulaire des

droits autorise l’exploitation de l’œuvre originale à des fins non commerciales, ainsi

que la création d’œuvres dérivées, à condition qu’elles soient distribuées sous une

licence identique à celle qui régit l’œuvre originale.

4.4 Le signalement et la diffusion

71 La conservation des données étant assurée à différents niveaux (stockage sécurisé,

conservation intermédiaire et archivage pérenne), et les aspects juridiques ouverts à

une large diffusion, il faut en assurer l’accès pour différents usages.

72 Sur ce point, le soin apporté à l’interopérabilité devient crucial.

73 Les données ESLO sont accessibles sur un site dédié au projet20, géré par l’équipe du

Laboratoire ligérien de linguistique et hébergé sur la grille Huma-Num.

74 Le site, réalisé à l’aide du CMS Joomla et intégrant une application, a été conçu en trois

parties :

– Une interface « back office » qui permet la gestion du corpus. Cette interface permet,

à l’aide de formulaires, de renseigner les métadonnées et dispose de fonctionnalités

pour attribuer aléatoirement les identifiants anonymes, transférer les fichiers sonores

et les transcriptions sur la plateforme Cocoon et pour accéder à une base de données

mysql qui contient les transcriptions et les métadonnées.

– Une interface d’accès aux corpus avec des outils spécifiques. L’accès aux corpus se fait

par une recherche des documents dans leur intégralité, sous la forme d’un catalogue ou

Corpus, 15 | 2016

20

Page 22: Corpus de français parlé et français parlé des corpus

par la recherche d’une chaîne de caractères au sein des transcriptions. Un outil de

requête permet de croiser les critères de recherche sur les transcriptions avec les

informations sur les documents et les locuteurs.

75 Un second outil offre la possibilité d’écouter l’enregistrement synchronisé sur le signal.

76 Enfin, l’ensemble des documents est téléchargeable directement soit pour tout

utilisateur du site soit pour un utilisateur ayant signé une convention lorsqu’il y a des

restrictions juridiques.

– La dernière fonctionnalité du site est d’offrir un contenu éditorial principalement

orienté vers les documents méthodologiques : conventions et guides de transcriptions,

documents techniques et juridiques, documents scientifiques.

77 Cette diffusion du corpus par un site spécifique répond principalement aux objectifs du

Laboratoire ligérien de linguistique. La gestion des données, selon de bonnes pratiques

d’interopérabilité et d’archivage, permet un signalement et une diffusion beaucoup

plus large.

78 Ainsi, la plateforme Cocoon propose un entrepôt exposant les métadonnées en Open

Archive Initiative. Le corpus des ESLO est donc signalé par tout instrument reposant

sur un moissonnage en OAI. C’est notamment le cas de la plateforme ISIDORE21, qui

permet la recherche et l’accès aux données numériques en sciences humaines et

sociales. Au 1er mai 2015, une recherche sur ESLO dans le moteur d’ISIDORE apporte

2 001 réponses, soit l’ensemble des documents disponibles à ce moment-là dans la

collection ESLO de l’entrepôt Cocoon.

79 Comme ESLO existe également sous la forme de bandes magnétiques originales

conservées et décrites par la BNF, le corpus est également signalé dans ses catalogues.

80 Enfin, le corpus des ESLO a été naturellement intégré à l’EQUIPEX ORTOLANG22 dont

l’objectif est de gérer une « infrastructure en réseau offrant un réservoir de données

(corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement

clairement disponibles et documentés ».

4.5 Le web de données

81 Les réflexions sur la structuration des données et des métadonnées et la gestion de la

diffusion du corpus des ESLO permettent un travail exploratoire dans le cadre du web

de données (ou web sémantique). Cette étape concrétise la volonté de construire un

corpus réutilisable pour une grande variété d’usages. Le web de données vise à publier

des données structurées sur le web, afin de les relier entre elles et donc d’enrichir un

réseau d’informations. Elle nécessite l’utilisation, dans un format spécifique, de

vocabulaires, référentiels et ontologies facilitant le liage des données.

82 Nous pouvons citer quelques exemples d’expérimentations en cours auxquelles

participe ESLO :

– la plateforme ISIDORE, qui repose sur les principes du web de données,

– data.bnf.fr, le projet qui donne accès aux données contenues dans ses catalogues et

dans Gallica,

– le programme Sémantisation du Corpus de la parole du ministère de la Culture,

– le projet « Cabinet de curiosités des langues de France », réalisé dans le cadre de

l’appel à propositions « services culturels innovants du ministère de la Culture ».

Corpus, 15 | 2016

21

Page 23: Corpus de français parlé et français parlé des corpus

83 Ces différents projets sont trop récents pour en tirer un premier bilan. Un seul exemple

peut néanmoins démontrer l’intérêt de rendre un corpus disponible selon les pratiques

en vigueur dans le domaine du web de données. Une recherche sur le terme

« abattoirs » permet, par l’outil data.bnf.fr, de signaler, d’écouter et de télécharger

l’enregistrement d’ESLO consacré à l’entretien d’un boucher d’Orléans, et la même

requête sur ISIDORE permet de trouver une correspondance entre cet enregistrement

et un entretien sur le même thème réalisé par des sociologues à Toulouse, dans les

années 1960.

5. Conclusion

84 Le corpus des ESLO a été réalisé par des linguistes et il a donné lieu à de très nombreux

travaux en linguistique. Après les différentes recherches en phonologie, syntaxe,

prosodie, lexique, et autres domaines engendrés par ESLO1, l’équipe d’ESLO2 réalise

différentes études directement issues d’une analyse du corpus ou fondées sur une

comparaison avec d’autres corpus23. À partir d’ESLO1, une méthode d’apprentissage des

langues particulièrement innovante24 a été réalisée et des travaux sont en cours de

réflexion dans le cadre d’un usage didactique du corpus ESLO2.

85 On peut donc considérer que l’objectif d’obtenir un portrait sonore d’une communauté

d’auditeurs d’une même ville est une source importante d’études linguistiques et

d’applications liées.

86 Il convient néanmoins d’être prudent, ce portrait sonore ne peut se résumer à des

enregistrements divers et variés sans un cadre théorique qui fait de la linguistique de

corpus une discipline qui doit entendre autant si ce n’est plus, la sociolinguistique que

la linguistique outillée par l’informatique.

87 Le tournant des humanités numériques est l’occasion de repenser cette définition de la

linguistique sur corpus afin de définir une véritable science des données linguistiques.

Face à ce défi, le linguiste doit maîtriser l’ensemble de la chaîne qui le conduit à

travailler, exploiter et diffuser ces données collectées qui ne lui sont jamais

« données ». Il est aussi important qu’il prenne conscience que cette science relève d’un

domaine au sein duquel il n’est pas le seul acteur.

BIBLIOGRAPHIE

Site ESLO : http://eslo.huma-num.fr

Abouda L. & Baude O. (2009). « Du français fondamental aux ESLO », in Bruxelles, Mondada,

Simon, Traverso (éd.) Grand corpus de français parlé, Bilan historique et perspectives de recherche.

Cahiers de linguistique, Revue de sociolinguistique et de sociologie de la langue française 33/2,

Louvain : EME, 131-146.

Abouda L. & Baude O. (2007). « Constituer et exploiter un grand corpus oral, choix et enjeux

théoriques : le cas des ESLO », in actes du colloque Corpus en lettres et sciences sociales, Des

Corpus, 15 | 2016

22

Page 24: Corpus de français parlé et français parlé des corpus

documents numériques à l’interprétation. Colloque d’Albi, Langages et signification, juin 2006,

Presses universitaires de Toulouse : 161-168.

Baude O. & Bergounioux G. (à paraître). « L’ESLO : une enquête en son temps », in Linguistique de

corpus : une étude de cas, La recette de l’omelette, dans l’enquête socio-linguistique à Orléans (ESLO).

Paris : Champion.

Baude O. & Lacheret A. (à paraître). « The collection of data for the Rhapsodie Treebank :

typological criteria and ethical issues », in A. Lacheret, S. Kahane & P. Pietrandrea (éd.) Rhapsodie :

a Prosodic and Syntactic Treebank for Spoken French, coll. Studies in Corpus Linguistics. Amsterdam :

Benjamins.

Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf,

linguiste ? », Corpus 10 : 99-118.

Baude O. & Dugua C. (2015). « Usage de la liaison dans le corpus des ESLOs : vers de nouveaux (z)

ouvrages de référence ? », in Dostie & Hedermann (éd.) La dia-variation en français actuel. Bern :

Peter Lang, 349-371.

Baude O. (coord.) (2006). Corpus oraux, guide des bonnes pratiques. Paris et Orléans : Éditions du

CNRS et Presses universitaires d’Orléans.

Beaud S. & Weber F. (1997). Guide de l’enquête de terrain : produire et analyser des données

ethnographiques. Paris : La Découverte.

Bergounioux G., Baraduc J. & Dumont C. (1992). « L’étude sociolinguistique sur Orléans

(1966-1991) : 25 ans d’histoire d’un corpus », Langue française 93 : 74-93.

Biggs P. & Dalwood M. (1976). Les Orléanais ont la parole : Teaching Guide and Tapescript. Londres :

Longman (Livre du maître).

Biggs P. & Dalwood M. (1976). Les Orléanais ont la parole. Londres : Longman (Livre de l’élève).

Blanc M. & Biggs P. (1971). « L’enquête sociolinguistique sur le français parlé à Orléans », Le

français dans le monde 85 : 16-25.

Blanche-Benveniste C. et al. (1990). Français parlé. Études grammaticales. Paris : CNRS.

Bourdieu P., Chamboredon J.-C. & Passeron J.-C. (1968). Le Métier de sociologue. Paris : Mouton de

Gruyter/Bordas.

Bourdieu P. (1984). « Le marché linguistique », Questions de sociologie. Paris : Editions de Minuit.

De Jong D. (1988). Sociolinguistic aspects of French Liaison, Academisch proefschrift. Amsterdam : Vrije

Universiteit Amsterdam.

Équipe DELIC (2004). Autour du Corpus de référence du français parlé (= Recherches sur le français

parlé n° 18). Aix-Marseille : Publications de l’université de Provence.

Encrevé P. (1976). « Présentation », in W. Labov, Sociolinguistique. Paris : Éditions de Minuit.

Encrevé P. (1977). Linguistique et sociolinguistique. Langue française 34.

Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). « Un grand corpus

oral “disponible” : le corpus d’Orléans 1968-2012 », Ressources linguistiques libres, Traitement

automatique des langues 52/3 : 17-46.

Gadet F. (2007). La variation sociale en français. 2e édition. Paris : Ophrys.

Habert B., Nazarenko A. & Salem A. (1997). Les Linguistiques de corpus. Paris : Armand Colin.

Habert B. (2005). Instruments et ressources électroniques pour le français. Gap, Paris : Ophrys.

Corpus, 15 | 2016

23

Page 25: Corpus de français parlé et français parlé des corpus

Jacobson M. & Baude O. (2012). « Corpus de la parole : collecte, catalogage, conservation et

diffusion des ressources orales sur le français et les langues de France », Ressources linguistiques

libres, Traitement automatique des langues 52/3 : 47-69.

Koch P. & Oesterreicher W. (2001). « Langage oral et langage écrit », in Lexicon der Romanistischen

Linguistik, tome 1-2. Tubingen : Max Niemeyer, 584-627.

Laks B. (2013). « Why is there variation instead of nothing », Language Sciences 39 : 31-53.

Labov W. (1976). Sociolinguistique. Paris : Éditions de Minuit.

Le Deuff O. (dir.) (2014). Le Temps des humanités digitales. Limoges : FYP éditions.

Lonergan J., Kay J. & Ross J. (1974). Étude sociolinguistique sur Orléans, catalogue des enregistrements.

Colchester : Multigraphié.

MacWhinney B. (2000). The CHILDES Project : Tools for Analyzing Talk. 3rd Edition. Mahwah, NJ :

Lawrence Erlbaum Associates.

Mertens P. (2002). « Les corpus de français parlé ELICOP : consultation et exploitation », in

J. Binon et al. (éd.) Tableaux vivants. Opstellen over taal-en-onderwijs aangeboden aan Mark

Debrock. Leuven : Universitaire Pers.

Mullineaux A. & Blanc M. (1982). « The problems of classifying the population sample in the

socio-linguistic survey of Orléans (1969) in terms of socio-economic, social and educational

categories », Review of Applied Linguistics 55 : 3-37.

NOTES

1. Un travail remarquable avait déjà été réalisé dans le cadre du projet ELILAP-ELICOP : ELILAP

1980-1983, puis LANCOM 1993-2001 (voir Mertens, 2002).

2. Cf. Baude & Dugua, 2011.

3. Environ 70 % du corpus présente une qualité acoustique suffisante pour une transcription.

4. http://eslo.huma-num.fr/

5. http://eslo.huma-num.fr/index.php/pagecorpus/pagepresentationcorpus

6. Principalement : enregistreurs Marantz PMD 661 MKII + micro-cravates AKG C417L, TASCAM

DR100, Edirol R09 : http://eslo.huma-num.fr/ index.php/pagemethodologie?id=70.

7. Le Deuff, O. (dir.) (2014). Le temps des humanités digitales, la mutation des sciences humaines et

sociales.

8. http://tcp.hypotheses.org/318

9. http://www.iasa-web.org/ : Wave, stéréo, 16 bits, 44100 Hz.

10. http://www.language-archives.org/OLAC/metadata.html

11. http://www.clarin.eu/content/component-metadata

12. http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html

13. http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation

14. http://eslo.huma-num.fr/index.php/pagemethodologie?id=71

15. Norme ISO/CD 24624 en cours d’élaboration.

16. http://cocoon.huma-num.fr/exist/crdo/

17. Baude et al., 2006.

18. http://eslo.huma-num.fr/index.php/pagemethodologie?id=69

19. http://creativecommons.fr/licences/les-6-licences/

20. http://eslo.huma-num.fr/

21. http://www.rechercheisidore.fr/

Corpus, 15 | 2016

24

Page 26: Corpus de français parlé et français parlé des corpus

22. https://www.ortolang.fr/

23. Comme, par exemple, les travaux sur la liaison dans ESLO, PFC et d’autres corpus (Baude et

Dugua, 2015).

24. Biggs & Dalwood (1976).

RÉSUMÉS

Cet article souhaite porter un regard réflexif sur le projet scientifique de constitution et

d’exploitation d’un grand corpus de français parlé, les Enquêtes sociolinguistiques à Orléans, né à

l’aube de la sociolinguistique et qui se développe au tournant méthodologique et épistémologique

des digital humanities. Quels objectifs ? Quelles données ? Quels traitements ? Ce sont les questions

qui guident la réflexion proposée ici afin d’apporter une contribution à l’élaboration de nouvelles

pratiques scientifiques dans une perspective variationniste contemporaine.

This article is an analysis of the constitution and the exploitation of a large corpus of spoken

French: Les Enquêtes sociolinguistiques à Orléans (ESLO). This corpus has been created from the

beginnings of sociolinguistics and now it evolves with digital humanities, methodological and

epistemological specificities. Which objectives? Which data? Which analysis? These are the

questions that guide our thinking in order to contribute to the elaboration of new scientific

practices in a variationnist perspective.

INDEX

Mots-clés : sociolinguistique, corpus, linguistique variationniste, digital humanities

Keywords : sociolinguistic, corpora, variationnist linguistic, digital humanities

AUTEURS

OLIVIER BAUDE

Laboratoire Ligérien de Linguistique, UMR 7270

CÉLINE DUGUA

Laboratoire Ligérien de Linguistique, UMR 7270

Corpus, 15 | 2016

25

Page 27: Corpus de français parlé et français parlé des corpus

Le Corpus FRAN : réseaux etmaillages en Amérique françaiseConnecting networks of North American French

France Martineau et Marie-Claude Séguin

NOTE DE L'AUTEUR

Cet article a reçu l’appui du projet Le français à la mesure d’un continent : un patrimoine en

partage (dir. F. Martineau, CRSH/GTRC). Nous remercions Jérémie Beauchamp, Mélissa

Chiasson et Jade Dumouchel-Trudeau, assistants au projet à l’Université d’Ottawa, pour

l’aide au repérage des données sur des variables.

1 Notre objectif est d’exposer dans cet article les principes qui ont prévalu à l’élaboration

du corpus FRAN (Français d’Amérique du Nord) développé dans le cadre du projet Le

français à la mesure d’un continent : un patrimoine en partage, basé à l’Université d’Ottawa.

Dans un premier temps, nous présentons le projet Le français à la mesure d’un continent,

l’équipe de nature interdisciplinaire, ses objectifs et ses questions de recherche, en

particulier en ce qui a trait au développement des communautés francophones nord-

américaines. Puis nous présentons le Corpus FRAN, premier corpus panfrancophone en

ligne portant sur l’Amérique française, son architecture et les protocoles de

transcription de données. Enfin, nous illustrons les types de recherches qui peuvent

être menées, en montrant comment une perspective par réseaux et maillages permet

un regard novateur sur les usages, d’abord à partir d’une étude de variable, stratifiée

socialement (la première personne du singulier du verbe aller, comme auxiliaire du

futur périphrastique) sur le terrain montréalais d’Hochelaga-Maisonneuve puis à partir

d’un survol d’une deuxième variable, la conséquence (so, donc, alors, (ça) fait que),

révélatrice de comportements linguistiques différents dans des communautés en

contexte minoritaire et en contexte majoritaire.

Corpus, 15 | 2016

26

Page 28: Corpus de français parlé et français parlé des corpus

1. Le projet Le français à la mesure d’un continent

2 Le projet Le français à la mesure d’un continent : un patrimoine en partage1 est un projet

international, subventionné, en 2011, pour une durée de sept ans par le Conseil de

recherche en sciences humaines du Canada, dans le cadre du programme des Grands

travaux de recherche concertée. Il est constitué de deux grands axes de recherche qui

se répondent et s’entrecroisent.

Axe 1 – Histoire sociale et Identités des communautésfrancophones : les idéologies linguistiques

3 Déterminer comment les idéologies, les représentations et les pratiques autour de la

langue ont structuré et structurent encore les rapports à l’intérieur des groupes

francophones, et entre groupes francophones, anglophones et allophones.

Axe 2 – Le français en Amérique du Nord : variétés du français encontexte majoritaire et minoritaire

4 Par l’entremise d’une comparaison panlectale et diachronique, déterminer ce qui

caractérise les usages linguistiques des francophones en Amérique du Nord ; évaluer les

effets linguistiques du contact ; déterminer quelles sont les modalités d’appropriation

du français par les non-francophones.

5 L’équipe réunit des chercheurs de plusieurs disciplines (linguistique, histoire,

sociologie, anthropologie, ethnologie, géographie, littérature et archivistique),

provenant de 44 universités. Le cœur de l’équipe scientifique réunit 13 chercheurs,

provenant de France (Françoise Gadet, Université Paris Ouest Nanterre La Défense ;

André Thibault, Paris Sorbonne), des États-Unis (Hélène Blondeau, University of

Florida ; Sylvie Dubois, Louisiana State University) et du Canada (Mourad Ali-Khodja &

Annette Boudreau, Université de Moncton ; Mireille Tremblay, Université de Montéal ;

Jean-Pierre Le Glaunec & Wim Remysen, Université de Sherbrooke ; Paul Cohen,

University of Toronto ; Raymond Mougeon, York University ; Yves Frenette, Université

de Saint-Boniface ; & France Martineau, Université d’Ottawa, directrice), auxquels se

joint une coordonnatrice de recherche, Marie-Claude Séguin, de l’Université d’Ottawa.

6 Du point de vue des idéologies et représentations, notre démarche consiste à croiser

différents terrains d’observation en Amérique du Nord et différentes périodes, de façon

à permettre de saisir les éléments que partagent les diverses communautés quant à

leurs rapports aux idéologies et aux représentations linguistiques, ainsi que ce qui les

distingue en fonction des événements politiques, sociaux, juridiques, économiques,

religieux et culturels propres à chacun des contextes. Ainsi, en Amérique du Nord, les

discours sur la langue ont fortement contribué à construire chez les locuteurs des

représentations ambivalentes à l’égard du français parlé. Les archaïsmes, associés par

l’élite à l’authenticité du vernaculaire franco-canadien, ont été reconnus comme

légitimes en raison de leur filiation avec le français parlé en France, alors que les

anglicismes ont été rejetés, parce qu’ils symbolisaient l’assimilation à la culture

dominante (Bouchard, 2002 ; Boudreau, 2009 ; Boudreau & Ali-Khodja, 2009 ; Remysen,

2010). À un niveau macro-sociétal, ces représentations sont par ailleurs liées à

Corpus, 15 | 2016

27

Page 29: Corpus de français parlé et français parlé des corpus

l’idéologie de l’État-nation (Gellner, 1989 ; Hobsbawm, 1992 ; Anderson, 1996). En effet,

en tant que formes politico-culturelles et souvent dans une grande proximité au

discours religieux, les États-nations ont mobilisé au cours de leur construction à la fois

un « travail des langues » et un « travail sur les langues », l’un comme l’autre

impliquant qu’à un territoire donné soit associée une langue particulière.

7 Du point de vue des usages, le projet s’intéresse à la rencontre de groupes francophones

avec d’autres groupes francophones (laurentien, acadien, européen) ou groupes

linguistiques (anglophones, amérindiens, notamment) à divers moments et à

différentes périodes en Amérique du Nord. Même si tous les linguistes admettent que le

contact linguistique joue un rôle dans la variation et le changement linguistique, le

poids relatif des facteurs externes et internes reste à être vérifié. Un même phénomène

linguistique peut être compris comme provoqué/ facilité par le contact entre groupes

linguistiques, ou bien découler de l’effet d’une dynamique interne (Mougeon & Beniak,

1991 ; Mougeon, Nadasdi & Rehner, 2005 ; Poplack & Levey, 2011). Les faits de variation

sont partie prenante de variétés, même si la fluidité de la langue et du changement qui

lui est associé correspondent moins à des communautés définies par des frontières

géopolitiques qu’à des réseaux sociaux (en particulier familiaux) à l’intérieur desquels

la langue ou les langues du locuteur sont transmises. Notre approche se distingue

d’approches plus traditionnelles de la variation en dégageant, dans nos études de

terrains, à la fois les réseaux sociaux qui définissent des communautés au sens large et

des variables sensibles à la mixité sociale et culturelle qui permettent de mesurer le

degré de cohésion sociolinguistique d’une communauté et les changements qui la

traversent (Gadet & Martineau, 2012).

2. Le Corpus FRAN

2.1 Structure du Corpus FRAN

8 Le Corpus FRAN assure un ancrage empirique commun aux deux axes, favorisant ainsi

le dialogue interdisciplinaire et une approche globale de la variation linguistique ainsi

que des représentations sur la langue. Le corpus est établi de façon à permettre une

comparaison panlectale des variétés de français d’Amérique du Nord dans une

perspective à la fois diachronique et synchronique. L’objectif est de comprendre

l’évolution de communautés, des réseaux qui se sont tissés et des effets sur la langue et

les représentations linguistiques générées. En ce sens, il était important de baser le

Corpus FRAN sur un nombre de communautés choisies selon leur ancrage historique et

les contacts avec d’autres groupes francophones, anglophones et allophones ; ont été

choisies, en Acadie, Moncton et Baie Sainte-Marie ; au Québec, Montréal et en

particulier deux quartiers pour les enquêtes modernes, soit Hochelaga-Maisonneuve et

Saint-Michel/Montréal-Nord, ainsi que Chicoutimi et Gatineau ; en Ontario, Welland,

Windsor et Hearst ; dans l’Ouest canadien, Saint-Boniface au Manitoba ; aux États-Unis,

Gardner et Waterville en Nouvelle-Angleterre et en Louisiane, la Nouvelle-Orléans et

Lafourche ; en France, Paris et Rouen. À ces terrains se greffe, pour l’éclairage apporté

sur les origines du français colonial, le français des Antilles. Trois grands ensembles

forment ce corpus et permettent de créer des ponts entre les deux axes du projet, et

entre les perspectives diachronique et synchronique.

Corpus, 15 | 2016

28

Page 30: Corpus de français parlé et français parlé des corpus

2.1.1 Corpus historiques

9 Les corpus historiques sont constitués de correspondance privée (lettres, journaux

personnels) qui permettent de retracer des marques de la langue parlée chez des

scripteurs malhabiles (Schneider, 2002 ; Martineau, 2007 ; Ernst, 2010 ; van der Wal,

Rutten & Simons, 2012) et qui font ainsi le pont avec des corpus oraux modernes pour

l’étude de la variation linguistique. Nous avons aussi examiné la correspondance du

clergé et de la presse de façon à cerner les idéologies linguistiques qui s’y déploient ; ce

corpus répond ainsi à ceux constitués par les entrevues modernes des personnalités

(voir en 2.1.3). À ces corpus nous avons ajouté des enquêtes de nature dialectologique et

sociolinguistique sur les langues créoles et le français des Antilles qui constituent un

apport précieux à la connaissance du français parlé au début de la colonisation, dans la

suite de travaux de ce type (Poirier, 1979 ; Chaudenson, Mougeon & Béniak 1993 ;

Thibault, 2008).

2.1.2 Corpus patrimoniaux

10 L’établissement d’ententes avec des chercheurs a permis l’apport de corpus

patrimoniaux recueillis dans le dernier quart du XXe siècle (corpus Lefebvre-

Drapeau sur le quartier Centre-Sud à Montréal ; corpus Fox-Smith sur la Nouvelle-

Angleterre ; corpus S. Dubois sur la Louisiane ; corpus Boudreau-Dubois & Marie-

Marthe Roy sur Moncton ; corpus Mougeon sur Welland 1975). Cette avancée unique

dans le partage de corpus a enrichi le corpus FRAN et permet la préservation de ces

corpus et leur diffusion plus large au sein de la communauté scientifique. Ces corpus

permettent des comparaisons en temps réel avec nos corpus modernes sur plusieurs

décennies (1970-2014) pour suivre l’évolution de la langue.

2.1.3 Corpus modernes

11 Pour sonder l’ensemble des pratiques linguistiques, les nouveaux corpus sont de trois

types. Tout d’abord, des entrevues auprès de personnalités (des leaders dans la

communauté) ont été effectuées dans des communautés en contexte minoritaire, là où

l’insécurité linguistique est souvent aiguë (Francard, 1994). Ces entrevues nous

permettent de cerner les représentations et les pratiques linguistiques. Ensuite, des

entrevues de nature variationniste ont aussi été effectuées de façon à cartographier les

usages linguistiques selon des paramètres sociolinguistiques (âge, classe sociale,

éducation, etc.). Le corpus recueilli dans la métropole montréalaise permet une

comparaison avec la situation linguistique à Paris, autre métropole francophone. Le

choix de Welland et de Montréal nous permet également de jeter les bases d’une

comparaison en temps réel avec nos corpus patrimoniaux des années 1970 versés au

Corpus FRAN. Enfin, nous avons aussi effectué des entrevues de nature écologique,

c’est-à-dire des enregistrements recueillis dans des situations naturelles, sans la

présence d’un enquêteur (p. ex. autour d’un repas de famille ou entre amis), de façon à

examiner toute la palette variationnelle de locuteurs pour qui le français alterne

souvent avec d’autres langues (anglais surtout, et aussi langues de migration) (Gadet,

2013).

12 Le choix de mener des entrevues auprès de membres des élites (« personnalités »)

œuvrant dans plusieurs sphères d’activité et d’intégrer dans nos questionnaires

Corpus, 15 | 2016

29

Page 31: Corpus de français parlé et français parlé des corpus

d’enquêtes variationnistes un module sur les attitudes linguistiques a permis de cerner

au présent l’état de ces représentations linguistiques, tout en reconstituant les parcours

sociobiographiques de ces personnes, leurs conditions de socialisation, leurs rapports

au français et à l’anglais, ainsi que leurs pratiques dans leur domaine d’activités

respectif. Ces entrevues sont riches d’enseignement ; on constate ainsi, en comparant

des entrevues de personnalités de Welland 1975 à celles effectuées en 2013, que la

communauté n’est plus divisée sur la question de la scolarisation des enfants en

français et de la scolarisation dans les deux langues. Le principe de l’instruction

totalement en français, qui n’était soutenu que par une minorité en 1975 (minorité

issue principalement de l’élite), est maintenant accepté par l’ensemble des parents

(Mougeon, 2012).

13 Le Corpus FRAN est le premier corpus librement accessible en ligne documentant le

français sur plusieurs terrains en Amérique du Nord, à partir de ressources orales et

textuelles et un profil sociohistorique. C’est aussi un outil précieux pour la

francophonie en dehors de l’Amérique du Nord par les réponses qu’il permet

d’apporter sur des enjeux partagés, comme le contact de langues, la palette

variationnelle des locuteurs et la mobilité sociale et géographique. Au Corpus FRAN

s’ajoutent le corpus MCVF (Martineau, 2010), qui porte sur la période médiévale au

français classique, également accessible en ligne, et le Corpus LFFA (Martineau, 2005-),

qui porte sur la correspondance familiale de scripteurs lettrés et peu lettrés du français

classique au début du XXe siècle, ainsi que sur des entrevues de nature ethnologique

effectuées en Amérique du Nord, corpus en cours de mise en ligne ; ces trois corpus

réunis permettent une interrogation depuis l’ancien français jusqu'à la période

contemporaine, avec stratification sociale et régionale.

2.2 Transcription, alignement texte/son et protocole

14 Les entrevues de personnalités et les entrevues patrimoniales sont transcrites avec MS

Word, mais nous avons opté, pour les nouvelles entrevues variationnistes et les

entrevues écologiques, pour un système de transcription d’alignement texte/son avec

Praat (Boersma & Weenink, 2001-) et ELAN (Wittenburg, Brugman, Russel, Klassmann &

Sloeutjes, 2006), en harmonie avec les développements récents en sciences du langage.

2.2.1 Les avantages de l’alignement texte/son

15 L’alignement texte/son à l’aide de Praat ou ELAN2 présente plusieurs avantages par

rapport à la simple transcription séquentielle dans un programme de traitement de

texte, surtout en ce qui a trait à l’efficacité de la production des transcriptions, à

l’analyse ultérieure des textes et aux liens directs que l’on peut établir entre le sonore

et l’écrit.

16 En effet, l’alignement texte/son favorise la production rapide et efficace de la

transcription d’enregistrements, en permettant la segmentation en intervalles de

quelques énoncés tout au plus, sans que cela affecte pour autant la piste sonore

originale. Le travail du transcripteur/vérificateur est facilité du fait qu’il peut

réécouter un intervalle en boucle, tout en se concentrant sur une quantité de texte très

restreinte. L’annotation à niveaux multiples (multi-tier annotation), c’est-à-dire la

fonction permettant la superposition de plusieurs niveaux de texte, accélère davantage

le processus de transcription en ce qu’elle permet d’utiliser une seule piste de texte par

Corpus, 15 | 2016

30

Page 32: Corpus de français parlé et français parlé des corpus

participant, ce qui est particulièrement utile dans le cas d’entrevues écologiques où il y

a présence de multiples participants. De plus, l’annotation à niveaux multiples peut

être mise à contribution afin de promouvoir la communication entre les différents

acteurs intervenant dans la création d’une transcription. Par exemple, un transcripteur

qui aurait confirmé l’orthographe particulière d’un nom propre peut indiquer, sur une

piste dédiée à cet effet, la source d’information qu’il a utilisée. Finalement, la contiguïté

de l’affichage visuel de la piste sonore avec sa transcription peut éventuellement

contribuer à désambiguïser un son ou des paroles, quand le transcripteur possède des

aptitudes lui permettant d’analyser les oscillogrammes et les spectrogrammes.

17 En sus de l’exécution expédiente des transcriptions, l’annotation à niveaux multiples

permet de préparer le document pour les analyses linguistiques. Notamment, les

niveaux d’annotation peuvent être employés pour le repérage de variables ou d’unités

linguistiques (par exemple, des anglicismes, des formes verbales ou des phénomènes,

comme la liaison) ou encore pour préparer le texte à l’indexation morphosyntaxique ou

lexicale.

18 Finalement, l’alignement du texte et du son permet d’établir des marqueurs temporels

dans la transcription, ce qui peut servir, d’une part, à documenter les phénomènes

extralinguistiques ayant une portée sur l’enregistrement ou la transcription et, d’autre

part, à l’ajout éventuel d’un lecteur audio intégré à une page web qui permettrait

d’entendre des sections d’enregistrement.

2.2.2 Les protocoles de transcription : pour qui et pour quoi ?

2.2.2.1 Le protocole de transcription des enregistrements

19 À l’instar des protocoles de transcription du VALIBEL3 (Dister, Francard, Feron, Giroul,

Hambye, Simon & Wilmet, 2006) et du PFC (Durand, Laks & Lyche, 2009), le protocole

élaboré par le projet (Martineau, 2011-) adopte une orthographe traditionnelle, sans

« aménagement graphique »4 qui ferait de la transcription qu’elle ne tiendrait « ni tout

à fait de l’oral, ni tout à fait de l’écrit » (Dister & Simon, 2007).

20 Le protocole du projet a été conçu de façon à promouvoir une interrogation rapide et

ergonomique du corpus. Il a comme visée de répondre aux besoins d’utilisateurs

intéressés à la morphosyntaxe, au lexique et, de façon plus générale, aux variétés de

français nord-américaines. Les seuls éléments phonétiques pris en considération lors de

la transcription sont les liaisons non standard (p. ex. : Je suis Tun homme riche) et la

prononciation des consonnes finales (p. ex. : bouT, faiT, genS), que nous considérons

comme des phénomènes morphophonétiques lexicaux. Autrement, la représentativité

morphosyntaxique est respectée dans son intégralité, dans le sens où les paroles des

locuteurs sont reproduites fidèlement et ce, indépendamment de leur impropriété

perçue par les prescriptivistes. À titre d’exemple, les formes verbales non standard

comme « ils jousaient » (‘ils jouaient’) et « ils sontaient » (‘ils étaient’) sont transcrites

telles quelles ; l’omission de « ne » et de « que » est respectée ; des lexèmes récurrents

dans certaines variétés sont transcrits sans normalisation, par exemple, « astheure » en

français laurentien (et non ‘à cette heure’), « marabouse » (féminin de ‘marabout’, qui

est invariable) en français acadien, « ployer » (pour ‘plier’) en français cajun.

21 Les protocoles de transcription énumérés en début de section et celui du projet Le

français à la mesure d’un continent ont également ceci en commun qu’ils incluent des

mesures pour noter les amorces, les répétitions, les pauses, et les chevauchements,

Corpus, 15 | 2016

31

Page 33: Corpus de français parlé et français parlé des corpus

quoique la notation soit différente. Ils divergent cependant en ce qui a trait à la

démarcation des énoncés pour former ce qu’on appelle, à défaut d’un terme plus

approprié, une « phrase ». Nous avons opté pour accepter une certaine délimitation

sommaire des éléments phrastiques, mais avons toutefois limité les éléments de

ponctuation au point et au point d’interrogation.

22 Étant donné qu’un des axes de recherche du projet porte sur les variétés de français en

contexte majoritaire/minoritaire et les effets linguistiques du contact entre les

communautés, certains éléments susceptibles d’intéresser les usagers du Corpus FRAN

ont été étiquetés directement dans le texte. C’est le cas des mots anglais et des

anglicismes (ceints de guillemets français), des calques et des extensions sémantiques

(ceints de chevrons) et des mots étrangers (ceints d’accolades). Il est à noter que ce

repérage initial ne remplace pas la recherche exhaustive que doit effectuer le

chercheur chevronné ; son utilité consiste à attirer l’attention sur ces phénomènes

ainsi qu’à permettre à notre moteur de recherche, PhiloLogic, de dégager une liste de

toutes ces occurrences en entrant l’un ou l’autre de ces codes dans le champ de

recherche des mots.

2.2.2.2 Le protocole de retranscription de manuscrits

23 La retranscription des manuscrits (lettres, journaux) s’effectue selon un protocole dont

la directive première est de retranscrire le texte exactement tel qu’il apparaît. Ainsi,

l’orthographe, même si elle dévie des normes modernes ou de l’époque, la grammaire,

la ponctuation, les coquilles, l’agglutination des mots et autres phénomènes propres à

l’écriture sont-ils inchangés par rapport à l’original. Ceci inclut l’utilisation du

caractère < ſ > (s long) et des majuscules considérées « inopportunes » selon les

standards actuels. Les caractères raturés, soulignés ou supérieurs sont également

représentés tels quels sur l’écran.

24 Quant aux éléments hors teneur de la lettre, dont sa mise en page, ils ne sont pas

représentés à l’écran par PhiloLogic. Les alinéas, les marques de sceau, l’écriture

perpendiculaire dans la marge et autres éléments similaires sont toutefois attestés par

le biais d’une note du transcripteur placée entre crochets.

2.3 L’interface PhiloLogic

25 Afin de rendre accessible le corpus FRAN à la communauté internationale, nous avons

implanté sur notre serveur le logiciel PhiloLogic et développé une interface qui tient

compte de paramètres sociohistoriques5. Les corpus ont été anonymisés et sont

accessibles par mode d’interrogation de type concordance ; les corpus des personnalités

ne sont pas accessibles en ligne pour des raisons éthiques, l’anonymat des locuteurs

étant difficile à préserver en raison de la nature des entrevues, mais peuvent être

consultés au laboratoire Polyphonies du français (directrice F. Martineau), à l’Université

d’Ottawa. Des corpus patrimoniaux, notamment ceux pour lesquels nous n’avons pas

l’autorisation de mettre en ligne, et des bases de données sont aussi accessibles au

laboratoire.

Corpus, 15 | 2016

32

Page 34: Corpus de français parlé et français parlé des corpus

2.3.1 Liste des textes disponibles et accès au Corpus FRAN

26 Une liste de tous les documents disponibles pour interrogation est disponible sur le site

web. Elle inclut le titre du document et sa forme (type entrevue, lettre, etc.), ainsi que

le lieu et la date de sa création. L’internaute désirant avoir accès à ces documents doit

faire une demande d’accès au Corpus FRAN et s’engager à respecter les conditions

d’utilisation.

2.3.2 PhiloLogic et son interface

27 PhiloLogic est un moteur de recherche développé à l’Université de Chicago, dans le

cadre du projet ARTFL6 (American Research on the Treasury of French Language) et du

DLDC7 (Digital Library Development Center). Le projet Le français à la mesure d’un

continent a reçu une subvention de la Fondation canadienne pour l’innovation (FCI)

destinée à adapter le gratuiciel et son interface aux spécifications particulières que

requiert l’interrogation de notre corpus.

28 L’interface du moteur de recherche PhiloLogic permet la recherche de mots ou

d’expressions. Il est possible de raffiner la recherche en choisissant des filtres qui

s’appliquent soit au document, soit à l’individu qui est à la source du document. Les

critères de recherche relatifs aux documents sont par exemple ceux du sous-corpus

(voir Figure 1) auquel il appartient, de son type (voir Figure 2) et de son origine géo-

temporelle (voir Figure 3).

Figure 1. Filtres de recherche pour les documents : critère sous-corpus

Figure 2. Filtres de recherche pour les documents : critère type de document

Corpus, 15 | 2016

33

Page 35: Corpus de français parlé et français parlé des corpus

Figure 3. Filtres de recherche pour les documents : critère province de création

29 Les critères de recherche relatifs aux locuteurs et aux scripteurs, quant à eux, sont de

nature socio-économique et permettent, en sus des critères biographiques de base

comme le sexe et le lieu et la date de naissance, l’ajout de filtres comme l’occupation,

les langues parlées, lues et écrites, ainsi que le niveau d’éducation le plus élevé. Il est

possible de jumeler certains critères, par exemple l’occupation et le niveau d’éducation,

afin de situer socialement les documents issus des locuteurs/ scripteurs que l’on veut

interroger.

2.3.3 La recherche avec le moteur PhiloLogic

30 Il est possible d’effectuer la recherche d’un mot ou d’une expression avec ou sans filtre.

La fonction recherche de mots similaires permet de repérer à la fois les formes standards

des mots et celles dont l’orthographe n’est pas moderne (p. ex. : « françois » pour

‘français’) ou non régulière (p. ex. dans le cas des écrits des peu lettrés) (voir Figures 4

et 5).

Figure 4. Recherche de(s) mot(s) : Recherche de mots similaires

Corpus, 15 | 2016

34

Page 36: Corpus de français parlé et français parlé des corpus

Figure 5. Recherche de mots similaires à « françois » : résultats

31 De plus, différents opérateurs de recherche sont disponibles afin d’élargir le champ de

recherche ou de le restreindre. Par exemple, si on cherche toutes les déclinaisons d’un

verbe, comme le verbe « aimer », on écrira « aim* » dans le champ de recherche pour

obtenir « aime, aimes, aimons, aimez, aiment, etc. » (voir Figure 6). Cette recherche ne

remplace pas une réelle lemmatisation (qui permettrait par exemple de trouver toutes

les formes irrégulières du verbe « aller ») mais permet néanmoins de ratisser assez

large.

Figure 6. Trois premiers résultats de la recherche avec l’opérateur * (aim*)

32 Une liste de ces opérateurs (caractères wildcard) se trouve en fenêtre contextuelle dans

l’interface. Il existe également une fenêtre contextuelle pour afficher une version

abrégée du protocole de transcription.

2.3.4 Les résultats de recherche

33 L’interface de recherche permet l’affichage des résultats de deux manières. Par défaut,

on obtient l’occurrence recherchée en concordance, c’est-à-dire accompagnée des

lignes de textes immédiatement adjacentes. PhiloLogic fournit aussi la référence du

texte et, au bas de la page, la bibliographie (voir Figure 7).

Corpus, 15 | 2016

35

Page 37: Corpus de français parlé et français parlé des corpus

Figure 7. Affichage des résultats en mode concordance

34 Il est aussi possible de faire une requête pour les résultats en affichage KWIC (Key Word

in Context), comme démontré plus haut dans la Figure 6.

3. Variation et changement : deux études de cas

3.1 La variable du futur périphrastique à Hochelaga-Maisonneuve,Montréal8

35 Les locuteurs francophones de l’est de Montréal, majoritaires depuis l’urbanisation du

territoire à la fin du XIXe siècle (Linteau, 2012), ont créé un milieu qui s’est transformé

au fil du temps en une zone de mixité sociale où les pratiques culturelles et langagières

s’entremêlent, et les contacts avec les locuteurs anglophones ne sont pas absents. Nous

présentons les premiers résultats d’une étude qui s’est intéressée aux trajectoires

géographiques, familiales et sociales d’un groupe de douze locuteurs âgés de

Hochelaga-Maisonneuve (HOMA), quartier ouvrier de l’est de Montréal, qui a connu

dans la dernière décennie une gentrification (Martineau, Blondeau & Frenette, 2014 ;

Gadet & Martineau, 2014). La variable de la 1re personne de l’auxiliaire aller employé

comme auxiliaire du futur périphrastique (je vais/ je vas/m’as partir) est un bon

analyseur sociolinguistique de la variation diastratique et diatopique (voir entre autres

Martineau & Mougeon, 2005 ; Martineau, 2009, 2012). En français canadien, trois

variantes coexistent pour marquer la première personne du futur périphrastique : je

vais, associé au français soutenu (1a), je vas, associé à un emploi familier et même

neutre (1b), et m’as, associé au français populaire (1c). En français continental, la

variante m’as est pour ainsi dire inexistante, ce qui a pour effet que la variante je vas est

généralement associée à un français familier ou populaire/régional9.

(1) a. Je vais partir. b. Je vas partir. c. M’as partir.

36 À partir de l’analyse de cette variable, en particulier de l’emploi de m’as, nous montrons

comment les réseaux qu’ont tissés les locuteurs permettent de comprendre les

continuités/ ruptures linguistiques et les alliances communicationnelles entre

locuteurs dans un quartier dit culturellement homogène.

Corpus, 15 | 2016

36

Page 38: Corpus de français parlé et français parlé des corpus

37 La Figure 8 montre la fréquence d’emploi des trois variantes chez les locuteurs âgés

interrogés.

Figure 8. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller,auxiliaire du futur périphrastique chez douze locuteurs âgés d’Hochelaga-Maisonneuve à Montréal

Je vais Je vas M’as Total

18,8 %

(39/207)

70 %

(145/207)

11,2 %

(23/207)

100 %

(207/207)

38 Comme le montre la Figure 8, les locuteurs âgés que nous avons interrogés affichent

une fréquence élevée de l’emploi de la variable je vas (70 %) ; rien d’étonnant donc

puisqu’au Québec – et plus généralement dans le parler laurentien – c’est la variante

par défaut à l’oral. La variante m’as est la moins fréquente, et ce, même dans un

quartier populaire. Ces données, lorsqu’on les compare à des locuteurs nés à la fin du

XIXe siècle, montrent que la variante m’as a subi un déclin progressif (je vais 0,3 % ; je vas

60,1 % ; m’as 39,6 %, Martineau, 2014). Cette tendance vers une régression de l’emploi de

la variante la plus associée au parler populaire est confirmée par l’étude de Sankoff &

Thibault (2011), qui comparent le corpus de Montréal 1971 à celui de 1984. Dans le

premier, le pourcentage d’emploi de m’as est de 30,7 % (177/576), alors que dans le

second, il n’est plus que de 15,9 % (217/1368). Dans leur corpus recueilli en Estrie à

Stanstead en 2001, les auteures montrent que le pourcentage est encore plus bas (12,2 %

19/156), résultat qui se rapproche des chiffres révélés par la Figure 8. Lorsqu’on ne

considère que le groupe des jeunes, comme l’ont fait Martineau, Blondeau & Frenette

(2014) à partir du corpus d’Hochelaga-Maisonneuve, l’emploi de m’as est encore plus

bas, soit à peine 1 % des occurrences, sans doute en partie en raison d’un effet de la

gentrification du quartier (voir aussi, pour des résultats similaires chez les jeunes,

Martineau & Dumouchel-Trudeau, 2013, pour la ville de Gatineau, située au Québec à la

frontière avec Ottawa, en Ontario). Ces résultats doivent évidemment tenir compte

d’autres facteurs, comme la classe sociale ou le sexe, mais il n’empêche que cette

variante m’as semble avoir connu une régression depuis le début du XXe siècle, et ce,

même dans des quartiers à caractère ouvrier comme Hochelaga-Maisonneuve, comme

le démontrent nos résultats à la Figure 8. Mais ce tableau cache une grande

hétérogénéité entre locuteurs qui ne peut se comprendre que par une étude du

parcours sociobiographique des locuteurs et de leur position dans le réseau social de

leur communauté. Nous nous arrêterons sur trois locuteurs, habitant à quelques rues

les uns des autres, mais dont les réseaux, les parcours et les aspirations sont bien

différents.

39 Le premier locuteur, Gérard, est retraité et a été contremaître dans une usine située

dans le quartier. Il a vécu sa jeunesse dans un quartier ouvrier en périphérie de

Montréal, puis a déménagé dans le quartier Hochelaga-Maisonneuve lorsqu’il s’est

marié. En cela, il correspond au profil ouvrier de Hochelaga-Maisonneuve, bien que le

poste qu’il a occupé ait impliqué des responsabilités importantes. La Figure 9 montre

les résultats pour la variable à l’étude.

Corpus, 15 | 2016

37

Page 39: Corpus de français parlé et français parlé des corpus

Figure 9. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller,auxiliaire du futur périphrastique chez le locuteur Gérard, d’Hochelaga-Maisonneuve

Je vais Je vas M’as Total

7,4 %

(2/27)

77,7 %

(21/27)

14,9 %

(4/27)

100 %

(27/27)

40 Les usages linguistiques de Gérard montrent un emploi fréquent de la variante neutre je

vas, en accord avec les fréquences moyennes du quartier. Ce serait donc le locuteur

type du quartier, ce qui est appuyé par le fait qu’il est d’ailleurs très bien réseauté dans

le quartier et membre de plusieurs organismes bénévoles. En accord avec ce milieu

ouvrier qui connaît des racines militantes à la cause souverainiste et à la protection du

français dans la sphère publique, Gérard est sensible au statut du français au Québec. Il

dira ainsi : « On appelle ça une shop en anglais, mais c’est modèlerie en français ».

41 Le second locuteur, Jacques, connaît Gérard et habite à quelques rues de chez lui. Mais,

contrairement à Gérard, pour Jacques, son usage le plus fréquent est je vais, en rupture

avec les ‘normes’ de son quartier, comme le montre la Figure 10.

Figure 10. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller,auxiliaire du futur périphrastique chez le locuteur Jacques, d’Hochelaga-Maisonneuve

Je vais Je vas M’as Total

53,3 %

(8/15)

46,7 %

(7/15)

0 %

(0/15)

100 %

(15/15)

42 La position sociale de Jacques est assez semblable à celle de Gérard, en ce sens qu’il a

occupé au cours de sa vie un poste à responsabilité, celui de commis pharmacien. Il

n’appartient toutefois pas au même monde ouvrier que Gérard. Même s’il a vécu, à

partir de sa prime enfance, dans le quartier de Hochelaga-Maisonneuve, contrairement

à Gérard, qui s’identifie à l’élément ouvrier et œuvre dans des groupes

communautaires, Jacques est très conscient de sa position sociale. Il se dit pharmacien

alors que, même s’il a sans doute travaillé très fort à la pharmacie, il n’en a pas le titre

et a été commis à la pharmacie. Il a le sentiment d’être le gardien du passé glorieux du

quartier et réagit fortement lorsqu’il y a migration de quartiers plus pauvres vers son

quartier.

(2) Pis d’autant plus on euh je me souviens parce qu’à partir des années soixante etdix euh moi j’avais pas vu ça dans le quartier ici en pharmacie des poux. <I1 : Ahoui.> Mais c’est drôle quand même c’était une coïncidence peut-être mais on a vuune épidémie de poux arriver en même temps que ces euh (phrase non terminée)<I1 : Oui oui oui.> Ça c’est une affaire qui m’avait marqué à l’époque on en parlaitsouvent. L’épidémie de poux là quand ça a commencé dans ces <I1 : Oui oui oui.> onappelait ça euh oui ça a changé de façon radicale le quartier.

43 On ne peut pas associer Jacques à la nouvelle gentrification du quartier. C’est

essentiellement un petit ouvrier dont les aspirations sont à la fois celles de son

quartier, auquel il est très attaché, mais qu’il idéalise. Comme Gérard, il présente une

très grande sensibilité au statut du français dans la métropole montréalaise et il exige

de se faire servir en français, partout où il va.

Corpus, 15 | 2016

38

Page 40: Corpus de français parlé et français parlé des corpus

44 Contrairement à Gérard et à Jacques, le troisième locuteur, Lucien, n’a pas de racines

aussi profondes dans le quartier. C’est un enfant de migrant. Son père est né en France,

à Carnières, département du Nord de la France et arrive à Montréal à l’âge adulte au

début du XXe siècle, peut-être en rupture sociale avec une famille de notaires bien

établie dont il était issu. Sa mère est de Québec. Lucien a habité Montréal toute sa vie,

surtout dans l’est ouvrier, mais il n’a pas vécu toute sa vie dans Hochelaga-

Maisonneuve. Il représente le groupe d’invasion d’habitants des quartiers pauvres vers

Hochelaga-Maisonneuve qu’a décrit Jacques.

45 Dans son entrevue, Lucien marque clairement sa rupture avec le passé français de son

père, comme l’illustre le passage suivant :

(3) Pis euh les « chum »s à mon père ils venaient chez nous pis ils me disaient« Comment ça fait tu parles pas français ? » J’ai dit « Moi si je parle français icittem’as me faire tuer. » Parce que les/ les/ les gars je me tiens avec là c’est pas des/c’est pas des gars qui/ c’est des gars qui sacraient pis des gars qui parlaient mal pisen tout cas. Pis si je parle français ils vont prend/ me prendre pour une tapette.

46 Lucien ne participe pas activement aux activités du quartier. C’est un marginal,

côtoyant parfois la violence. Son emploi de la variante m’as, comme le montre la

Figure 11, beaucoup plus élevé que dans le quartier Hochelaga-Maisonneuve, ou qu’au

Québec, reflète cette marginalité, sa rupture avec le passé français de son père, mais

aussi sa rupture avec le quartier Hochelaga-Maisonneuve.

Figure 11. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller,auxiliaire du futur périphrastique chez le locuteur Lucien, d’Hochelaga-Maisonneuve

Je vais Je vas M’as Total

0 %

(0/13)

15,3 %

(2/13)

84,7 %

(11/13)

100 %

(13/13)

47 Cette étude de la variable de la première personne du singulier du futur périphrastique,

en particulier de m’as, montre qu’en dehors des questions de classes sociales ou de

territoires (que ce soit quartier, ville ou région), il est nécessaire de tenir compte des

réseaux, auxquels se sentent liés ou pas les individus. Dans Hochelaga-Maisonneuve,

l’emploi de m’as correspond à ce que l’on trouve généralement ailleurs dans les parlers

laurentiens, mais lorsqu’on examine de plus près les données, il devient évident que des

locuteurs habitant la même rue, qui ont le même âge, qui sont issus de mêmes

conditions sociales, et qui se côtoient sans doute dans les dépanneurs du coin, peuvent

avoir des usages très différents selon leur parcours de vie et leurs réseaux sociaux. De

même, les jeunes, qu’ils soient de Montréal ou de Gatineau, ont plus en commun du fait

d’appartenir à la même génération, ouverte à une certaine mondialisation et à la

standardisation du français, ce qui explique à la fois leur fréquence très basse d’un trait

comme m’as, non seulement associé au parler populaire mais aussi au parler laurentien,

et leur intégration de termes anglais, même lorsqu’ils vivent dans des contextes où le

français est majoritaire et a un statut officiel, comme c’est le cas au Québec.

Corpus, 15 | 2016

39

Page 41: Corpus de français parlé et français parlé des corpus

3.2 La variable de conséquence (so, ça fait que, donc, alors) :français en contexte minoritaire et majoritaire

48 Le Corpus FRAN, en plus de permettre des études sur des facteurs externes comme le

sexe, l’âge, la classe professionnelle, l’éducation, permet également de comparer des

communautés en contexte minoritaire et majoritaire, dans des situations linguistiques

à différents pôles de la restriction linguistique. Par exemple, à Welland et à Moncton, le

français est en contexte minoritaire. Mais tandis qu’à Moncton il se trouve dans une

province officiellement bilingue (le Nouveau-Brunswick), ce n’est pas le cas de Welland,

qui se trouve dans une province officiellement unilingue anglophone (l’Ontario). Dans

une métropole comme Montréal, le français est en contexte majoritaire, autant dans

des quartiers à forte densité francophone comme Hochelaga-Maisonneuve que dans des

quartiers multiculturels comme Montréal-Nord, où il coexiste avec des langues issues

de l’immigration ; à Gatineau (Québec), ville frontalière avec Ottawa, en Ontario, le

français est en contact étroit avec l’anglais. Aux États-Unis, comme en Louisiane ou en

Nouvelle-Angleterre, il est en étiolement, et parlé presque exclusivement par la

génération la plus âgée.

49 On peut faire l’hypothèse que ces contextes variés auront une influence sur les usages,

qu’ils soient associés au français canadien traditionnel, ou au contact étroit avec

l’anglais. La variable de la conséquence, en emploi interphrastique, est

particulièrement intéressante, car elle permet de tester notamment la présence

d’innovations comme so (4a), dans des communautés en contact étroit avec l’anglais,

innovations qui pourraient être absentes en français québécois, ainsi que la présence de

variantes vernaculaires comme (ça) fait que (4b) ou de variantes plus formelles attestées

en québécois (donc et alors, 4c, d) (les exemples sont tirés de Mougeon, Nadasdi &

Rehner, 2009).

(4) a. je suis pas une jaseuse so c’est un peu difficile b. je trouve ça pas mal théorique à Ottawa (ça) fait que j’irais plutôt faire mon bac enpsychologiec. je suis pas une personne gênée alors j’y réponds t’saisd. elle a trois mois de convalescence donc j’ai eu beaucoup d’ouvrage

50 Les études de Dessureault-Dober (1974) et Thibault & Daveluy (1989) sur le français

montréalais montrent a) l’absence de la variante so dans cette variété de français

b) l’emploi plus marqué de (ça) fait que dans la classe ouvrière et dans un registre

informel c) l’emploi d’alors par les classes socialement plus élevées d) le caractère très

marginal de donc, renvoyé au style hyperformel (voir Mougeon, Nadasdi & Rehner,

2009). La comparaison de ces résultats en contexte majoritaire avec différentes études

de Mougeon (Mougeon & Béniak, 1991, Mougeon, 2006) en contexte franco-ontarien,

montre que a) (ça) fait que demeure associé à la classe ouvrière et est un trait de

locuteurs pour qui le français est d’usage courant (les locuteurs non restreints)

(Mougeon & Béniak, 1991, Mougeon, 2006) b) alors que so est absent des études de

Dessureault-Dober et de Thibault & Daveluy sur le français québécois, cette variante est

surtout présente chez les locuteurs franco-ontariens de la classe ouvrière (Mougeon &

Beniak, 1991 ; Golembeski, 1998 ; Mougeon, 2006) et chez les locuteurs semi-restreints,

c’est-à-dire ceux qui font un emploi presque égal du français et de l’anglais, et les

locuteurs restreints, c’est-à-dire ceux qui sont anglo-dominants (Mougeon & Beniak,

1991 ; Golembeski, 1998 ; Mougeon, 2006) c) alors et donc sont employés par les

locuteurs socialement plus élevés (Mougeon & Beniak, 1991 ; Mougeon, 2006) mais aussi

Corpus, 15 | 2016

40

Page 42: Corpus de français parlé et français parlé des corpus

par des locuteurs restreints (Mougeon, 2006). Dans ce dernier cas, l’emploi de variantes

formelles s’explique par le fait que les locuteurs s’expriment généralement en français

dans un contexte scolaire. Comme le notent Mougeon et collaborateurs (2009),

« l’emploi de so par les adolescents franco-ontariens, et en particulier par les locuteurs

semi-restreints et restreints, symboliserait leur identité bilingue et l’importance de

l’anglais dans leur vie quotidienne. » L’étude de Mougeon et collaborateurs (2009) sur le

parler d’adolescents de la communauté francophone dominante, comme Hawkesbury,

montre toutefois une progression de la variante so et une raréfaction de la variante

alors, deux aspects qui distinguent les usages des jeunes franco-ontariens de cette

communauté de Québécois, si on s’en tient aux études faites sur les corpus montréalais

de 1971 et 1984. La variable de la conséquence a également été examinée dans la variété

acadienne par Wiesmath (2006), qui montre que les variantes (ça) fait que, so et alors

sont utilisées tandis que donc est rare. Toutefois, dans le corpus de chiac, « so y est

généralisé et n’alterne avec aucun des équivalents français » (p. 100).

51 L’intérêt d’examiner cette variable de façon panlectale dans des corpus francophones

nord-américains est multiple ; a) à la fois pour situer la variante so, associée aux

contextes où le français est minoritaire, et pour vérifier si cette variante, qui semble

jouir d’un prestige voilé chez les francophones en milieu minoritaire, a progressé en

contexte majoritaire, dans un contexte où la mondialisation et les échanges sont plus

importants ; b) pour mesurer la compétition entre alors et donc, la seconde variante

étant très formelle, et vérifier si, en contexte de standardisation, non seulement en

milieu minoritaire où cet effet est lié à des locuteurs restreints ou non restreints

parlant le français à l’école, mais aussi en contexte majoritaire où le français se

standardise, la variante alors régresse au profit de donc ; c) mesurer l’emploi de (ça) fait

que, lié au milieu ouvrier, et sa diffusion dans les communautés en milieu minoritaire et

majoritaire.

52 Nous avons donc relevé la variable de conséquence en contexte interphrastique dans

différents sous-corpus du Corpus FRAN, à la fois en contexte majoritaire et minoritaire,

de façon à dégager certaines tendances. La recherche est à l’étape exploratoire étant

donné que le Corpus FRAN est encore en cours de construction et que toutes les

entrevues ne sont pas recueillies ou transcrites. Les différents emplois de cette variable

sont un indice de la vitalité du français vernaculaire ((ça) fait que), des emprunts

intersystémiques et de la perception qui peuvent y être associées (comme so), ainsi que

de tendances vers la standardisation (alors, donc). Les résultats sont présentés dans la

Figure 12.

Figure 12. Fréquence d’emploi de quatre variantes de la conséquence dans différentescommunautés nord-américaines dans le corpus FRAN10

TerrainÇa fait que/fait

que (%)So (%) Donc (%)

Alors

(%)

Total

(%)

Minoritaire

16,06

(333/

2074)

51,93

(1077/

2074)

1,30

(27/

2074)

30,71

(637/

2074)

100

(2074)

Corpus, 15 | 2016

41

Page 43: Corpus de français parlé et français parlé des corpus

Gardner, Massachusetts

(22 locuteurs)

1,62

(11/679)

77,91

(529/

679)

0,29

(2/679)

20,18

(137/

679)

100

(679)

Lafourche, Louisiane

(9 locuteurs)

9,89

(26/263)

73,76

(194/

263)

2,28 %

(6/263)

14,07

(37/

263)

100

(263)

Moncton, Nouveau-Brunswick

(6 locuteurs)

2,41

(2/83)

97,59

(81/83)

0,00

(0/83)

0,00

(0/83)

100

(83)

Welland, Ontario

(23 locuteurs)

28,03

(294/1049)

26,02

(273/

1049)

1,81

(19/

1049)

44,14

(463/

1049)

100

(1049)

Majoritaire

67,72

(1114/

1645)

0,12

(2/

1645)

16,47

(271/

1645)

15,68

(258/

1645)

100

(1645)

Hochelaga-Maisonneuve, Montréal,

Québec

(22 locuteurs)

62,04

(773/1246)

0,08

(1/

1246)

19,58

(244/

1246)

18,30

(228/

1246)

100

(1246)

Montréal, Québec

(4 locuteurs)

98,58

(139/141)

0,00

(0/141)

1,42

(2/141)

0,00

(0/141)

100

(141)

Montréal-Nord, Québec

(2 locuteurs)

94,81

(146/154)

0,65

(1/154)

2,60

(4/154)

1,95

(3/154)

100

(154)

Gatineau, Québec

(10 locuteurs)

53,85

(56/104)

0,00

(0/104)

20,19

(21/

104)

25,96

(27/

104)

100

(104)

53 On peut, à partir de la Figure 12, faire une première distinction entre les milieux où le

français est minoritaire (hors Québec) et où il est en contexte majoritaire (au Québec) ;

à Montréal et à Gatineau, situés au Québec, il y a quasi-absence d’emploi de so dans les

entrevues et la variante ça fait que/fait que est la plus courante ; nos locuteurs sont de

tous groupes d’âge, et la présence de ça fait que est ainsi répartie dans tous les groupes

d’âge. C’est donc dire que les locuteurs de notre corpus de Gatineau, même s’ils

habitent à la frontière avec Ottawa, en Ontario, où le français est en contexte

minoritaire, se comportent comme des locuteurs en contexte majoritaire ;

géographiquement, ils sont plus près d’Ottawa, mais linguistiquement, ils

appartiennent au couloir Gatineau-Montréal. On remarque aussi un emploi

relativement important de la variante alors dans certaines communautés minoritaires

et majoritaires (Gardner, Lafourche, Welland, Gatineau, Montréal à Hochelaga-

Maisonneuve) tandis que la variante donc semble plutôt limitée aux communautés

majoritaires. Ce résultat est à contraster avec ceux obtenus par Mougeon et

Corpus, 15 | 2016

42

Page 44: Corpus de français parlé et français parlé des corpus

collaborateurs (2009) qui montrent que dans le parler d’adolescents franco-ontariens,

là où le français est majoritaire, comme à Hawkesbury, donc est une variante

relativement peu employée (14 % en 1975 ; 8 % en 2005) tandis que alors est pour ainsi

dire inexistant (p. 157 ; p. 162-163), données qui vont dans le même sens que les nôtres

auprès de communautés majoritaires adultes. Par contre, en milieu minoritaire, donc

serait moins bien installé que alors, comme nos données révèlent pour Gardner,

Lafourche et Welland ; Mougeon et ses collaborateurs (2009) montrent toutefois à

Pembroke, dans leur corpus adolescents de 2005, une remontée de donc, peut-être due à

l’effet de l’école chez de jeunes adolescents pour qui il s’agit du principal lieu de

socialisation en français.

54 Ce que nos résultats montrent également, c’est la différence entre les milieux en

contexte minoritaire. Dans deux milieux où le français est en étiolement et parlé par

des locuteurs âgés, à Garner et à Lafourche, c’est la variante anglaise so qui domine,

suivie de la variante alors associée à la formalité ou au code écrit. La variante la plus

courante du français laurentien, ça fait que/fait que, est peu utilisée, bien qu’elle se

maintienne à Lafourche. Ces résultats vont dans le sens des résultats des études de

Mougeon et ses collaborateurs (2009), qui ont montré que ça fait que est un trait des

locuteurs pour qui le français est d’usage courant, ce qui n’est le cas ni en Louisiane ni

en Nouvelle-Angleterre. En ce sens, Moncton se distingue de la Nouvelle-Angleterre et

de la Louisiane, puisque l’emploi de so est presque catégorique, avec un emploi

marginal de ça fait que mais aussi un emploi inexistant de alors ou de donc,

contrairement à Gardner, Welland et Lafourche, qui présentent encore un emploi

variable de ces variantes. En ce sens, nos données de Moncton ressemblent à celles de

Wiesmath (2006) pour le chiac où la variante so a supplanté toutes les autres. Welland

se détache des autres communautés minoritaires examinées. En effet, contrairement à

ces dernières, so est en forte compétition avec la variante traditionnelle (ça) fait que à

Welland, qui est presque autant utilisée ; les deux variantes vernaculaires se font

compétition, avec un pourcentage plus important d’emploi de so chez les plus jeunes

(47,1 % vs 22,3 % chez les plus âgés) et de (ça) fait que chez les plus âgés (32,3 % chez les

plus âgés vs 3,2 % chez les plus jeunes). Cette tendance selon laquelle l’emploi de so

serait en progression chez les locuteurs les plus jeunes va dans le sens des données

relevées pour Hawkesbury, selon les études de Mougeon et ses collaborateurs (2009). La

variante alors est la variante la plus utilisée, contrairement aux autres communautés

minoritaires où so domine. On peut s’interroger sur cette robustesse de alors à Welland

tandis que cette variante est en régression dans les milieux majoritaires, mais aussi,

comme l’ont montré Mougeon et ses collaborateurs (2009) pour Pembroke, dans

certains milieux minoritaires ; ces résultats devraient être explorés en examinant

notamment des facteurs de formalité et de statut des locuteurs en fonction de leur

restriction linguistique. Il y aurait donc des configurations linguistiques différentes du

français en milieu minoritaire, notamment entre des milieux comme Moncton et

Welland, cette dernière communauté présentant encore une robustesse de la variante

traditionnelle.

55 Un dernier commentaire sur le quartier multiculturel de Montréal-Nord. Les résultats

laissent entrevoir la richesse des corpus provenant de locuteurs issus de l’immigration,

dans les grandes métropoles francophones comme Montréal ou Paris. Les locuteurs

interrogés, tous deux jeunes, présentent des traits semblables à ceux des jeunes

Québécois, c’est-à-dire avec une nette préférence pour l’emploi de la variante (ça) fait

Corpus, 15 | 2016

43

Page 45: Corpus de français parlé et français parlé des corpus

que/fait que. Il faut dire que l’un des deux jeunes est une locutrice née à Montréal d’un

père d’origine libanaise avec qui les liens n’ont pas été étroits alors que sa mère est

d’origine québécoise. Le deuxième locuteur est sans doute plus typique du milieu

multiculturel ; d’origine haïtienne, il présente vraiment un réseau d’amis québécois et

haïtiens. On sait que la communauté haïtienne est très vivante à Montréal et bien

intégrée à la communauté francophone montréalaise ; la fréquence élevée d’un trait

associé au français laurentien comme la variante (ça) fait que signale cette intégration

linguistique.

4. Conclusion

56 L’avancée des technologies numériques permet de croiser des données sur de grands

ensembles linguistiques, de façon à faire émerger les convergences et les divergences

entre les communautés et à mettre en évidence la variation linguistique. L’Amérique

française est un véritable laboratoire linguistique par sa longue histoire (plus de quatre

siècles), par l’étendue de son territoire dont les frontières ont été remodelées au fil du

temps, par le statut du français qui y est différent selon les pays, les provinces et les

communautés. Le Corpus FRAN est le premier corpus en ligne à englober le fait français

nord-américain de façon aussi vaste, à la fois de façon synchronique et diachronique,

en s’intéressant à la fois aux usages et aux représentations de la langue. Les résultats

préliminaires présentés ici montrent comment ce corpus permet des études sur les

réseaux et les communautés et dégage des pistes de réflexion sur ce qui définit une

variété linguistique, au-delà des étiquettes commodes de variété acadienne ou

laurentienne, de variété en contexte minoritaire ou majoritaire.

BIBLIOGRAPHIE

Anderson B. (1996). L’Imaginaire national. Réflexions sur l’origine et l’essor du nationalisme. Traduction

de l’anglais par Pierre Emmanuel Dauzat. Paris : La Découverte.

Boersma P. & Weenink D. (2001-). Praat : doing phonetics by computer [Programme d’ordinateur].

Dernière mise à jour : 7 septembre 2015. http://www.praat.org/.

Bouchard Ch. (2002). La Langue et le nombril : histoire d’une obsession québécoise. Montréal : Fides,

coll. « Nouvelles études québécoises ».

Boudreau A. (2009). « La construction des représentations linguistiques : le cas de l’Acadie », in

F. Martineau, R. Mougeon, T. Nadasdi & M. Tremblay (éd.) Revue canadienne de linguistique 54, 3 :

439-459.

Boudreau A. & Ali-Khodja M. (éd.) (2009). « Le français en milieu minoritaire », Langage et société

129 : 3.

Chaudenson R., Mougeon R. & Beniak E. (1993). Vers une approche panlectale de la variation du

français. Paris : Didier Érudition.

Corpus, 15 | 2016

44

Page 46: Corpus de français parlé et français parlé des corpus

Dessureault-Dober. D. (1974). Étude sociolinguistique de (ça) fait que : « coordonnant logique » et

« marqueur d’interaction », Thèse de doctorat, Université du Québec à Montréal.

Dister A. & Simon A. C. (2007). « La transcription synchronisée des corpus oraux. Un aller-retour

entre théorie, méthodologie et traitement informatisé », Arena Romanistica 1, 2 : 54-79.

Dister A., Francard M., Geron G., Giroul V., Hambye Ph., Simon A. C. & Wilmet R. (2006).

« Conventions de transcription régissant les corpus de la banque de données VALIBEL », http://

valibel.fltr.ucl.ac.be.

Durand J., Laks B. & Lyche Ch. (2009). « Le projet PFC : une source de données primaires

structurées », in J. Durand, B. Laks et Ch. Lyche (éd.) Phonologie, variation et accents du français.

Paris : Hermès, 19-61.

Ernst G. (2010). « ‘qu’il n’y a orthographe ny virgule encorre moins devoielle deconsol et pleinne

delacunne’: la norme des personnes peu lettrées (XVIIe et XVIIIe siècles) », in M. Iliescu, H. Siller-

Runggaldier & P. Danler (éd.) Actes du XXVe Congrès international de linguistique et de philologie

romanes, Innsbruck 2007, vol. 3. Berlin : De Gruyter, 543-551.

Francard, M. (éd.) (1994). L’Insécurité linguistique dans les communautés francophones périphériques,

avec la collaboration de Geneviève Géron et Régine Wilmet, vol. 1, Cahiers de l’Institut de

linguistique de Louvain 19, 3-4, 1993 [paru en 1994] ; vol. 2, Cahiers de l’Institut de linguistique de

Louvain 20, 1-2.

Gadet F. (2013). « Les lieux du style en français oral contemporain », in Sld M.-G. Boutier,

P. Hadermann & M. Van Acker Helsinki (éd.), La Variation et le changement en langue (langues

romanes), Helsinki : Société Néophilologique, 7-20.

Gadet F. (2003). La Variation sociale en français. Paris : Ophrys.

Gadet F. & Martineau F. (2014). « Le maillage du français en Amérique du Nord, dans un cadre de

francophonie », in 10e Colloque international « Français du Canada – Français de France » L’Amérique

francophone – Carrefour culturel et linguistique, Trêves, 19-22 juin 2014.

Gadet F. & Martineau F. (2012). « Le français panfrancophone saisi à travers un maillage de

réseaux », Cahiers de linguistique, Construction des connaissances sociolinguistiques. Du terrain au

positionnement théorique 38, 2 : 63-88.

Gellner E. (1989). Nations et nationalisme. Traduction de l’anglais par Bénédicte Pineau, Paris :

Payot.

Golembeski D. (1998). French Language Maintenance in Ontario, Canada : A sociolinguistic portrait of the

community of Hearst. Thèse de doctorat, Indiana University.

Hobsbawm E. (1992). Nations et nationalisme depuis 1780. Traduction de l’anglais par Dominique

Peters. Paris : Gallimard.

Linteau P.-A. (2012). « The francophone reconquest of Montreal : the early years », atelier Urban

Francophone Language Practices in North America : A Comparative Perspective, Sociolinguistics

Symposium 19, Berlin, août.

Martineau F. (2014) « Le français des pionniers de la Saskatchewan : quelques pistes de

réflexion », in S. Hallion & R. Papen (éd.) À l’ouest des Grands Lacs : communautés francophones et

variétés de français dans les Prairies et en Colombie-Britannique. Québec : Les Presses de l’Université

Laval, coll. « Voies du français », 155-188.

Corpus, 15 | 2016

45

Page 47: Corpus de français parlé et français parlé des corpus

Martineau F. (2012). « Les voix silencieuses de la sociolinguistique historique », Cahiers de

linguistique. Construction des connaissances sociolinguistiques. Variation et contexte social, 38,

1 : 111-135.

Martineau F. (dir.) (2011-). Corpus FRAN Corpus du français d’Amérique du Nord, élaboré dans le

cadre du projet Le français à la mesure d’un continent : un patrimoine en partage.

www.continent.uottawa.ca.

Martineau F. (dir.) (2010). Le Corpus MCVF (Modéliser le changement : les voies du français).

www.voies.uottawa.ca.

Martineau F. (2009). « Vers l’Ouest : les variétés laurentiennes », in L. Baronian & F. Martineau

(éd.) Le français, d’un continent à l’autre. Québec : Presses de l’Université Laval, coll. « Voies du

français », 291-325.

Martineau F. (2007). « Variation in Canadian French Usage from the 18th to the 19th Century »,

Multilingua 26, 2-3 : 203-227.

Martineau F. (dir.) (2005-). Le Corpus LFFA (laboratoire de français familier ancien).

www.polyphonies.uottawa.ca.

Martineau F., Blondeau H. & Frenette Y. (2014). « Francophonie montréalaise : évolution des

pratiques linguistiques en contexte », Les Métropoles francophones en temps de globalisation, 5-7 juin

2014.

Martineau F. (dir.) (2014) en collaboration avec M.-Cl. Séguin, A. Bertrand, J. Dumouchel-Trudeau,

R. Mougeon & D. Thomas. « Protocole de transcription du projet GTRC Le français à la mesure d’un

continent : un patrimoine en partage », version 3.0.

Martineau F. & Dumouchel-Trudeau J. (2013). « Enquête écologique à Gatineau, le français autour

de la table », Panel Pratiques et idéologies linguistiques en Amérique du Nord : Des réalités en tension ?,

ACFAS, Québec, 7-8 mai 2013.

Martineau F. & Mougeon R. (2005). « Vais, vas, m’as in spoken French : a diachronic and dialectal

perspective », Linguistic Symposium on Romance Languages, Austin, février 2005.

Mougeon R. (2012). « La communauté francophone de Welland durant les années 1970 : le début

de l’érosion linguistique et culturelle ? », Communication au Centre de recherches en civilisation

canadienne-française, Université d’Ottawa, 27 mars.

Mougeon R. (2006). « Diversification du parler des adolescents franco-ontariens : le cas des

conjonctions et locutions de conséquence », Cahiers de la Société Charlevoix 7 : 231-276.

Mougeon R., Nadasdi T. & Rehner K. (2009). « Les conjonctions et locutions de conséquence dans

le parler des adolescents franco-ontariens de Hawkesbury : variation sociostylistique et

changement linguistique (1978-2005) », in F. Martineau, R. Mougeon, T. Nadasdi &

M. Tremblay (éd.) Le français d’ici : études linguistiques et sociolinguistiques sur la variation du français

au Québec et en Ontario. Toronto : GREF, 145-184.

Mougeon R., Nadasdi T. & Rehner K. (2005). « Contact-induced linguistic innovations on the

continuum of language use : The case of French in Ontario », Bilingualism : Language and Cognition

8, 2 : 99-115.

Mougeon R. & Beniak É. (1991). Linguistic Consequences of language contact and restriction : The case of

French in Ontario, Canada. Oxford : Oxford University Press.

Corpus, 15 | 2016

46

Page 48: Corpus de français parlé et français parlé des corpus

Poplack Sh. & Levey S. (2011). « Variabilité et changement dans les grammaires en contact », in

F. Martineau & T. Nadasdi (éd.) Le français en contact. Québec : Presses de l’Université Laval, coll.

« Voies du français », 247-280.

Remysen W. (2010). « L’évaluation des emplois canadiens à l’aune de leurs origines françaises : le

point de vue des chroniqueurs de langage », in C. LeBlanc, F. Martineau & Y. Frenette (éd.) Vues

sur les français du Canada. Québec : Presses de l’Université Laval, coll. « Voies du français »,

241-266.

Poirier Cl. (1979). « Créoles à base française, français régionaux et français québécois : éclairages

réciproques », Revue de linguistique romane 43 : 400-425.

Sankoff G. & Thibault P. (2011). « Sur les traces de m’as en français québécois de 1971 à 2001 », in

F. Martineau & T. Nadasdi (dir.) Le français en contact : Hommages à Raymond Mougeon. Québec :

Presses de l’Université Laval, coll. « Voies du français », 351-354.

Schneider E. (2002). « Investigating variation and change in written documents », in J. Chambers,

P. Trudgill & N. Schilling-Estes (éd.) The Handbook of Language Variation and Change. Oxford/

Cambridge : Blackwell, 67-96.

Thibault A. (2008). « Français des Antilles et français d’Amérique : les diatopismes de Joseph

Zobel, auteur martiniquais », Revue de linguistique romane 72 : 115-156.

Thibault P. & Daveluy M. (1989). « Quelques traces du passage du temps dans le parler des

Montréalais, 1971-1984 », Language Variation and Change 1, 1 : 19-45.

Van der Wal M., Rutten G. & Simons T. (2012). « Letters as loot : Confiscated letters filling major

gaps in the history of Dutch », in M. Dossena & G. Del Lungo Camiciotti (éd.) Letter Writing in Late

Modern Europe. Amsterdam : John Benjamins, 139-161.

Wiesmath R. (2006). Le français acadien. Analyse syntaxique d’un corpus oral recueilli au Nouveau-

Brunswick/ Canada. Paris : L’Harmattan.

Wittenburg P., Brugman H., Russel A., Klassmann A. & Sloeutjes H. (2006). ELAN : a Professional

Framework for Multimodality Research, Max Planck Institute for Psycholinguistics, The Language

Archive, Nijmegen. [programme d’ordinateur]. Dernière mise à jour : version 4.7.3. http://

tla.mpi.nl/tools/tla-tools/elan/.

NOTES

1. www.continent.uottawa.ca

2. Le choix du logiciel est laissé au responsable de terrain d’enquête, puisque ELAN permet la

conversion des formats de transcription depuis ou vers Praat.

3. Variétés linguistiques du français en Belgique.

4. Terme utilisé par Gadet (2003) et qui désigne les mécanismes servant à représenter certains

aspects phonétiques de la parole dans l’écrit, p. ex. une apostrophe correspondant à la syncope

d’un schwa.

5. http://continent.uottawa.ca/fr/corpus-et-ressources-electroniques/corpus/

6. https://artfl-project.uchicago.edu/ Nous tenons à remercier Mark Olsen pour son appui dans

le développement de PhiloLogic pour les besoins du projet.

7. http://dldc.lib.uchicago.edu/

8. Cette section provient en partie de deux communications, l’une présentée à Paris au colloque

Les métropoles francophones en temps de globalisation (Martineau, Blondeau & Frenette, 2014) et

Corpus, 15 | 2016

47

Page 49: Corpus de français parlé et français parlé des corpus

l’autre à Trêves au colloque international « Français du Canada – Français de France »

L’Amérique francophone – Carrefour culturel et linguistique, (Gadet & Martineau, 2014).

9. Nous avons exclu de notre étude la variable de aller, verbe de mouvement (je vas/je vais), qui

ne fait pas intervenir la variante m’as.

10. Les corpus font tous partie du Corpus FRAN (dir. F. Martineau). Ils sont constitués des sous-

corpus suivants : Gardner : Corpus Jane Smith-Cynthia Fox 2005 enrichi (Fox, Smith & Martineau,

2013) ; Lafourche : Corpus Sylvie Dubois de la paroisse Lafourche 1997 enrichi (Dubois & Martineau,

2013) ; Moncton : Corpus Marie-Marthe Roy 1976 enrichi (Roy & Martineau, 2012) ; Welland : Corpus

Welland France Martineau-Raymond Mougeon, 2011 ; Hochelaga-Maisonneuve : Corpus Hochelaga-

Maisonneuve Hélène Blondeau-France Martineau-Mireille Tremblay, 2012 ; Montréal : Corpus France

Martineau, 2012 CIEL-Québec, corpus CIEL international sous la conduite de Françoise Gadet ;

Montréal-Nord : Corpus MOMU Hélène Blondeau-Mireille Tremblay 2013 ; Gatineau : Corpus Martineau,

2012, CIEL-Québec, corpus CIEL international sous la conduite de Françoise Gadet. Nos résultats

sont présentés à titre indicatif ; le dépouillement présente un nombre important d’occurrences,

qui permettent de brosser un premier tableau de pourcentages. Une étude de nature statistique

pourrait venir valider les différences significatives entre communautés.

RÉSUMÉS

Cet article présente le Corpus FRAN, premier corpus panfrancophone en ligne sur les variétés de

français nord-américaines, élaboré dans le cadre du projet international Le français à la mesure

d’un continent (dir. F. Martineau). Il présente d’abord les grandes questions théoriques qui sous-

tendent le projet et l’élaboration du Corpus FRAN, puis discute de l’architecture du Corpus FRAN

ainsi que de l’interface élaborée pour son interrogation et du protocole de transcription. La

configuration du Corpus FRAN, couvrant plusieurs siècles et plusieurs communautés, permet des

recherches croisées qui sont susceptibles de mettre en évidence les convergences et divergences

entre ces communautés et d’examiner le parcours particulier des locuteurs et scripteurs. Nous

illustrons les perspectives qu’ouvre le Corpus FRAN sur la variation et le changement

linguistiques par l’étude de deux traits typiques du français nord-américain : la variante m’as (et

les variantes associées je vas et je vais) et les variantes de la conséquence ça fait que et so (et les

variantes associées alors et donc).

This article aims to introduce Corpus FRAN, the first online pan-francophone corpus pertaining

to North American varieties of French, developed as part of the international project Le français à

la mesure d’un continent (F. Martineau, dir.). We begin by stating the general theoretical questions

underlying the project as a whole, and the development of Corpus FRAN in particular. We

continue with a discussion of the architecture of the corpus, its transcription protocols, and the

user interface. Corpus FRAN was designed so as to cover several centuries and different

communities. It features a mode of crossed interrogation allowing the study of converging and

diverging trends within and between communities, as well as insights into the life paths of

speakers and writers. We illustrate some of the research possibilities afforded by the corpus with

the study of two variants that are typical of North American French: m’as (and the related

variants je vas and je vais) and the variants of consequence ça fait que and so (and the related alors

and donc).

Corpus, 15 | 2016

48

Page 50: Corpus de français parlé et français parlé des corpus

INDEX

Keywords : corpus linguistics, digital humanities, varieties of French, sociolinguistic variation,

consequence discourse markers, semi-modal “aller”

Mots-clés : linguistique de corpus, humanités numériques, variétés de français, variation

sociolinguistique, la variable de conséquence, « aller » semi-auxiliaire

AUTEURS

FRANCE MARTINEAU

Université d’Ottawa

MARIE-CLAUDE SÉGUIN

Université d’Ottawa

Corpus, 15 | 2016

49

Page 51: Corpus de français parlé et français parlé des corpus

Le projet ORFÉO : un corpus d’étudepour le français contemporainThe ORFEO project: a study corpus for contemporary French

Christophe Benzitoun, Jeanne-Marie Debaisieux et Henri-José Deulofeu

1. Introduction

1 Le projet ORFÉO (Outils et recherches sur le français écrit et oral) est un projet financé

par l’Agence nationale de la recherche (ANR 12-CORP-0005) et qui a été retenu dans le

cadre de la campagne Corpus, données et outils de la recherche en sciences humaines

et sociales 2011. Le projet a démarré en février 2013. Dans cet article, nous

présenterons les objectifs généraux du projet, le traitement en cours des données

orales (collecte, harmonisation, métadonnées), l’état du travail sur l’enrichissement des

données par des annotations syntaxiques et la plate-forme d’interrogation. Dans le

texte ci-dessous, nous abordons uniquement la composante orale du projet ORFÉO.

2. Les objectifs généraux du projet

2 ORFÉO a pour objectif de mener différentes études comparatives sur des données de

genres variés (notamment écrit vs oral) sur un corpus préalablement outillé. La

constitution du corpus, et notamment des données secondaires, est la tâche la plus

importante. Les corpus que nous rassemblons sont des corpus existants libres de droits

ou mis à disposition par les ayants droit. Les données secondaires sont de nature

diverse : métadonnées, transcriptions harmonisées, alignement texte et son,

annotations morphosyntaxiques (PoS), syntaxiques, sémantiques, conversationnelles,

prosodiques, segmentations en unités « élémentaires » de texte (macro-syntaxe).

Corpus et données seront accessibles au travers d’une plate-forme d’interrogation

permettant une sélection par les métadonnées et des recherches à l’aide de requêtes

simples (chaîne de caractères ou expressions régulières) ou complexes (requêtes sur les

différents niveaux d’annotation). Les utilisateurs seront guidés dans la sélection et

Corpus, 15 | 2016

50

Page 52: Corpus de français parlé et français parlé des corpus

l’utilisation des outils par l’accès à des analyses pilotes relevant de différents domaines

de la linguistique : morphosyntaxe, sémantique, analyse du discours et des interactions.

La plate-forme permettra ainsi un accès unique à un corpus d’étude comportant

plusieurs millions de mots (3M à l’oral et 6M à l’écrit).

3 L’enrichissement des données proposées par des annotations morphosyntaxiques et en

dépendances permettra d’interroger sur des structures complexes qu’un accès par

concordancier basique ou par expressions régulières simples ne permet pas d’atteindre

de façon satisfaisante. Un travail de thèse (Bérard, 2012) portant sur les structures dites

« de contrôles à distance » telles que :

(1) qu’est-ce que vous voulez que j’y fasse(2) l’hypothèse que je crois qu’on peut avancer(3) c’est où qu’il faut qu’elle se présente

4 a montré que les résultats pertinents d’interrogation d’un corpus de 2M de mots sont

multipliés par six grâce au recours à des données annotées. Au-delà des progrès

envisagés dans l’analyse, le projet relève d’un enjeu politique majeur pour la

linguistique de corpus. Il s’agit, d’une part, de mutualiser les résultats de recherches

antérieures, conçus dans le cadre des ANR Rhapsodie, Annodis et Decoda et, d’autre

part, de donner à la linguistique de corpus un outil de travail conforme aux standards

internationaux.

3. Les partenaires du projet

5 Le projet est rendu possible par la collaboration de 7 laboratoires français : LATTICE (U.

Paris 3/Ens.-UMR 8094), MoDyCo (Université Paris Ouest Nanterre La Défense - UMR

7114), ATILF (U. de Lorraine-UMR 7118), LORIA (CNRS -UMR 750), LIF (Université Aix-

Marseille-UMR 7279), ICAR (U. Lyon 2-UMR5191), CLLE-ERSS (U. Toulouse-UMR 5263) et

de chercheurs étrangers (Suisse, Belgique, Japon). La complémentarité des recherches

impliquant des linguistes et des informaticiens aboutit à une répartition des tâches

fonctionnelle au regard de la chaîne de traitement des données :

– La mise en forme des ressources s’effectue au sein de l’ATILF (sous la responsabilité de

C. Benzitoun et d’E. Jacquey, avec la collaboration de L. Bérard), qui est chargé de

l’unification des formats (données + métadonnées), de l’uniformisation des conventions

de transcription et de leur correction.

– L’alignement automatique au phonème des données orales relève du Loria (resp.

C. Cerisara) et permettra des analyses prosodiques fines. Deux outils ont été

développés : le LASTAS (Loria Automatic Speech-Text Alignment Software) dédié au

traitement de précision de courts segments et JTrans dédié au traitement de longs

fichiers de parole.

– Les corpus oraux n’étant pas ponctués, un premier logiciel de calcul de frontières

d’énoncé a été développé au sein de Modyco (Wang, 2013, Wang et al., 2014), dans le

cadre d’un stage de travail de master. Mais, compte tenu de la grande diversité des

types de texte (cf. infra), l’équipe a dû revenir à un système de segmentation manuelle.

Cette segmentation est nécessaire au parseur syntaxique qui ne peut calculer de

dépendances qu’au sein de segments clairement délimités.

– Les annotations morphosyntaxiques (PoS) et les annotations en dépendances,

inspirées en partie de l’annotation en dépendance développée dans le cadre du projet

Rhapsodie (ANR Rhapsodie, 2008-2012, sous la direction d’A. Lacheret) sont le résultat

Corpus, 15 | 2016

51

Page 53: Corpus de français parlé et français parlé des corpus

d’une étroite collaboration entre les linguistes et les informaticiens de l’équipe TALEP

(F. Bechet, A. Nasr, Carlos Ramisch, J. Deulofeu, et A. Valli), au sein du LIF.

6 L’ensemble de ces outils devraient être testés dans le cadre d’études pilotes

développées au sein des laboratoires CLAPI et CLLE-ERSS, portant sur des phénomènes

linguistiques sensibles aux effets de genre : les formes non canoniques de « noyaux

macrosyntaxiques », la famille des constructions « modales » et les marqueurs

d’attitude, la famille des constructions avec réalisations de place syntaxique par listes

(p. ex. : j’ai vu un oiseau une sorte de pélican) ou avec « effet deux points » (p. ex. : il y a un

truc chez Marie elle est renversante) et les structures de clause linking. Dans ce cadre,

certaines sous-parties du corpus doivent être enrichies d’annotations

macrosyntaxiques (F. Sabio), d’annotations en relations de discours (M. Ho-dac), en

références et coréférences (F. Landragin) et d’annotations « interactionnelles »

(V. Traverso).

4. Le traitement des données orales

7 La partie orale de la base ORFÉO provient de la mutualisation d’un ensemble de corpus,

déjà diffusés pour certains. La totalité des transcriptions était donc existante avant le

lancement du projet, mais devait être harmonisée et complétée. Le résultat constitue

une large couverture en termes de situations de parole : réunions de travail, entretiens,

interviews, réunions publiques, contes, récits, conversations téléphoniques, etc. Au

total, plus de 2 000 locuteurs sont représentés dans les enregistrements, provenant de

trois pays francophones : Belgique, France et Suisse. Différentes étapes ont été suivies

entre la réception des données et leur future diffusion.

8 Le premier problème auquel l’équipe a été confrontée réside dans l’hétérogénéité des

formats des données collectées (txt, doc, xml, etc.) qui ont dû être transformés en un

format unique : Transcriber (.trs). Certains formats ont été par ailleurs conservés pour

l’alignement automatique (voir infra). Les conventions de transcription étaient

également fort hétérogènes. Les transcriptions ont dû être uniformisées afin de

permettre l’interrogation de l’ensemble. La convention retenue est celle de

l’orthographe standard, qui facilite la lecture et les annotations automatiques. La

plupart des systèmes produisent en effet de meilleurs résultats sur des données

linguistiques respectant les conventions orthographiques standard. Un système de

balise a permis de séparer texte et commentaires (événements extralinguistiques, rires,

commentaires, pauses, etc.).

9 Le travail le plus important a été celui de correction des transcriptions qui a porté sur

une grande partie de la base. Un grand nombre de transcriptions ont été revues par

deux personnes différentes. Ce travail est extrêmement chronophage (plus d’une heure

pour vingt-cinq minutes de transcription). Il ne garantit pas l’absence d’erreur mais le

haut niveau de qualité des transcriptions proposées. Parallèlement à la phase de

correction, une partie manuelle du travail d’homogénéisation a été menée. Une partie

des corpus a également fait l’objet d’un alignement manuel texte/son afin de faciliter

l’alignement ultérieur. La tâche de correction a été couplée au repérage des segments à

anonymiser et à l’enrichissement des métadonnées par la rédaction d’un bref résumé

du contenu. L’ensemble des transcriptions a été hébergé sur un système de versionnage

et mis à jour au fur et à mesure de l’avancement du travail.

Corpus, 15 | 2016

52

Page 54: Corpus de français parlé et français parlé des corpus

10 L’équipe a également développé un outil permettant de soustraire automatiquement

des fichiers sonores les passages non transcrits qui peuvent se situer en début, en fin,

mais aussi au cours de l’enregistrement. Après avoir repéré les sections non transcrites

(marquées préalablement par des sections « nontrans » dans le logiciel Transcriber),

l’outil supprime les passages en question du fichier son, insère une balise

correspondant à la durée retranchée et recalcule automatiquement l’alignement texte/

son pour la suite de la transcription. Au final, les fichiers sons correspondent

exactement aux passages transcrits. La démarche évite le risque de diffusion de

données sensibles non anonymisées.

11 Après correction, le LORIA a procédé à l’alignement texte/son automatique à l’aide des

outils LASTAS et JTrans1. Le logiciel JTrans prend en entrée des fichiers au format trs ou

TextGrid (Praat, Boersma & Weenink 2015). Les fichiers peuvent comporter un

alignement sommaire préalable, mais ils peuvent également ne pas être alignés du tout

avant traitement. L’alignement automatique se fait au mot et au phonème. Les

principales difficultés d’alignement se situent au niveau des chevauchements de parole.

En sortie, le logiciel génère plusieurs fichiers TextGrid, dont l’un est utilisé pour l’étape

ultérieure, à savoir celle de l’anonymisation.

12 L’anonymisation des fichiers son s’est faite à partir de l’alignement automatique. Un

fichier au format TextGrid a été généré comportant deux tiers (tierces ?) : un tiers (une

tierce ?) comportant exclusivement le mot-clef « buzz », en lieu et place de chaque

portion à anonymiser, et un second tiers comportant les parties à anonymiser lisibles

(afin de faciliter la phase de vérification de l’alignement). Une réécoute systématique a

permis de vérifier que les parties discursives en question correspondaient bien au

signal sonore. Dans le cas contraire, un réalignement manuel a été effectué. Les fichiers

vérifiés ont été ensuite traités par le script d’anonymisation élaboré par D. Hirst sous le

logiciel Praat.

13 Les transcriptions au format TextGrid alignées texte/ son et anonymisées sont mises

ensuite dans un format TEI en vue de la réalisation des annotations automatiques

ultérieures, de la génération des divers formats de diffusion et de l’exploitation à l’aide

de la plate-forme d’interrogation.

14 Les métadonnées comme les transcriptions étaient très hétérogènes tant au niveau des

formats que du contenu. Afin de conserver l’intégralité des informations fournies tout

en rendant possible les interrogations sur l’ensemble de la base, deux niveaux ont été

distingués. Le premier, purement informatif, représente la transposition des

métadonnées initiales, propres à chaque corpus. Elles seront mises à disposition des

utilisateurs mais ne permettront pas de construire des requêtes pour constituer des

sous-corpus. Le second niveau, propre à ORFÉO, est homogène et commun à l’ensemble

de la base et servira à la création de requêtes. L’homogénéisation des métadonnées a

nécessité un travail de saisie manuelle, seul garant de la cohérence des dénominations.

Cette saisie a été faite à partir de fichiers xml générés automatiquement. Les

métadonnées communes ont été corrigées et complétées dans l’éditeur Oxygen, à l’aide

d’un schéma de document contraignant la saisie afin de limiter les erreurs.

15 Les principales métadonnées communes que nous avons retenues sont les suivantes :

identifiant du corpus, type (oral/écrit), langue, identifiant du fichier, responsable(s),

nature (entretien, réunion, transaction, etc.), milieu (professionnel, privé), médium

(face-à-face, téléphone, radio, etc.), résumé, date, durée, qualité du son, lieu, nombre de

locuteurs, degré de planification (non-planifié, semi-planifié, planifié), conditions

Corpus, 15 | 2016

53

Page 55: Corpus de français parlé et français parlé des corpus

d’utilisation, nombre de mots, identifiant du locuteur, âge, sexe, statut de la langue

française, profession, niveau d’études, lieu de naissance. Ces métadonnées seront

ensuite validées par les producteurs des ressources puis projetées dans des en-têtes TEI.

16 Ce travail a été possible grâce à l’intervention d’un grand nombre de personnes. En

premier lieu, les producteurs des corpus mais aussi les étudiants, qui ont été rémunérés

pour réaliser les tâches de corrections, de saisie et d’anonymisation, des membres du

laboratoire ATILF (B. Husson, B. Gaiffe, J. Perignon) qui sont intervenus à divers stades

et ont assuré, notamment, les aspects informatiques, L. Bérard qui a suivi de près

l’ensemble des étapes et a assuré de nombreuses vérifications automatiques et

manuelles, des membres du LORIA (C. Cerisara, D. Fohr, O. Mella, D. Jouvet) pour

l’alignement automatique, L. Lampen pour la mise en place du système de versionnage

et C. Étienne pour le travail de réflexion sur les métadonnées. C. Benzitoun a assuré la

coordination de l’ensemble.

17 Nous avons également bénéficié des discussions et des avancées du consortium corpus

oraux (IRCOM, France) et du groupe ISO (Europe) pour la TEI. Une table ronde sur les

formats de transcription et les métadonnées a été organisée, en juin 2014, par

C. Benzitoun, O. Baude, C. Étienne et C. Parisse. Un atelier sur les métadonnées dans les

corpus oraux a été présenté dans le cadre de la journée de bilan IRCOM, en septembre

2014, par C. Benzitoun et C. Étienne.

18 Le tableau ci-dessous synthétise les données qui ont été traitées et seront mises à

disposition sur la plate-forme Ortolang. Un tableau détaillé sera mis à disposition sur le

site du projet2. Il s’agit pour l’instant d’une approximation, les données qui seront

diffusées pouvant être légèrement différentes de ce qui est mentionné.

Figure 1. Corpus oraux mis à disposition en fin de projet

Identifiant du corpusNb. de

fichiersTaille (mots) Durée

Corpus d’entretiens 10 13 000 1h

Corpus de référence du

français parlé134 440 000 37h

Corpus de français parlé parisien 34 500 000 40h

C-ORAL-ROM 175 300 000 25h

Corpus d’entretiens

(Y. Kawaguchi)77 728 000 45h

Corpus d’entretiens 37 62 000 5h

Corpus Clapi 14 210 000 16h

Corpus domaine

académique (Fleuron)51 40 000 3h

Corpus réunions 29 200 000 24h

Corpus, 15 | 2016

54

Page 56: Corpus de français parlé et français parlé des corpus

Corpus contes (French Oral Narrative) 87 140 000 16h

Corpus VALIBEL 74 450 000 40h

Corpus TCOF 98 400 000 35h

Corpus OFROM 122 330 000 28h

TOTAL 942 3 813 000 315h

5. Le système d’annotation morphosyntaxique ORFÉO

19 Le système d’annotation syntaxique doit permettre de faire des requêtes sur les textes

du corpus enrichis d’analyses en parties de discours et en relations de dépendances. La

ressource majeure pour l’entraînement des outils est le French Treebank (Abeillé et al.,

2003), conçu à partir de textes écrits. Il n’existe pas de corpus de taille suffisante pour

le français oral. Le corpus annoté Rhapsodie (Lacheret-Dujour, Kahane & Pietrandrea, à

paraître) ne comporte que 30 000 mots. Le corpus DECODA, que nous utilisons comme

ressource auxiliaire, comporte certes 800 000 mots partiellement annotés à la main,

mais le caractère particulier de son origine (conversations téléphoniques) ne permet

pas de garantir les performances de l’analyseur sur d’autres types de corpus (en

particulier de longs monologues). Pour la partie écrite, les performances de notre

analyseur sont comparables à celles des autres ressources : 86 % d’analyses correctes en

moyenne. Des aménagements ont été nécessaires pour obtenir des résultats

comparables sur l’oral. Il reste qu’il convient d’améliorer cette performance, si l’on

veut que la ressource serve d’outil à des analyses linguistiques. Une des retombées du

projet pourrait être d’ailleurs d’évaluer quel est le niveau de performance des

annotations automatiques qui est requis pour rassembler des données fiables en vue

d’une analyse linguistique. Les études pilotes prévues dans le projet nous permettront

d’évaluer notre outil dans ce sens. Le système d’annotation prévu cherche avant tout à

être fiable. Cette recherche de fiabilité peut amener à des analyses qui ne sont pas

immédiatement utilisables pour des recherches linguistiques. Cet inconvénient sera en

partie supprimé grâce aux corrections automatiques des sorties de l’analyseur pour

rapprocher l’annotation des standards de l’analyse linguistique. Il faut enfin signaler

que la précision de l’annotation automatique ou semi-automatique n’est qu’un élément

de l’efficacité d’un corpus outillé. L’autre est la performance et la facilité d’utilisation

du langage de requêtes qui permet de rassembler toutes les configurations répondant à

un certain schéma d’annotation. Le projet ORFÉO comporte la construction d’un tel

langage. Bien qu’interdépendants dans la pratique, ces deux outils ne relèvent pas des

mêmes compétences informatiques. En tout état de cause, si de nombreux corpus oraux

ont été automatiquement annotés en parties du discours (PoS), l’annotation

automatique en relations de dépendance conçue par le LIF peut être considérée comme

pionnière pour le domaine français.

20 Nous commencerons par recenser les difficultés particulières posées à l’annotation

automatique par la spécificité des corpus oraux, en indiquant les stratégies mises en

Corpus, 15 | 2016

55

Page 57: Corpus de français parlé et français parlé des corpus

œuvre pour les surmonter. Dans une deuxième partie, nous exposerons les grandes

lignes des outils en construction pour l’outillage ORFÉO.

5.1 Les difficultés rencontrées dans l’annotation morphosyntaxiquede l’oral spontané

5.1.1 La segmentation

21 Les corpus oraux que nous rassemblons ne comportent pas les marques de ponctuation

qui servent de balises pour fixer le domaine d’action des analyseurs à l’écrit.

L’analyseur ne peut fonctionner efficacement que sur des segments de taille limitée.

Pour le corpus DECODA, constitué de demandes de renseignement téléphoniques, la

segmentation en tours de parole suffisait, mais il a fallu créer des balises pour les autres

corpus et donc réviser la segmentation de DECODA. Nos tentatives de créer un système

de segmentation automatique en unités de texte correspondant aux phrases de l’écrit

n’ayant, pour l’instant, pas débouché sur la détermination de balises fiables, nous avons

décidé de segmenter à la main 1 000 000 de mots du corpus oral pour tester les outils le

plus vite possible. Un guide de segmentation a été écrit pour assurer le maximum de

convergence entre les annotateurs. Mais il faut accepter un certain degré de variation.

Variation que l’on observe d’ailleurs dans la ponctuation des corpus écrits, et qui ne

sera pas normalisée, par exemple dans l’utilisation du point, balise utilisée par les

parseurs disponibles (Deulofeu, 2011).

5.1.2 La tokenisation

22 Une source d’erreurs importante tient au regroupement d’ordinaire effectué dès le

dictionnaire de plusieurs mots en un seul composé. On relève ainsi dans le dictionnaire

LEFFF, qui avait été utilisé tel quel pour le traitement du corpus DECODA, la conjonction

composée bien#que. Cette prise de position a priori interdit, de fait, une analyse

correcte des séquences où les deux termes du composé doivent être dissociés : par

exemple dans je sais bien que tu voulais venir. Pour pallier cette difficulté, nous avons

décidé d’organiser de façon originale la chaîne de traitement : il s’agit de retarder la

détermination des composés de ce type le plus possible, c’est-à-dire au moment du

passage de l’analyseur syntaxique. La composition est considérée comme une relation

syntaxique spécifique (dépendance MORPH) que l’analyseur doit apprendre à placer.

Les premiers essais dans ce domaine sur diverses conjonctions au départ composées

dans le dictionnaire donnent de bons résultats. La démarche sera donc étendue à

d’autres cas (déterminants, adverbes).

5.1.3 Analyse syntaxique

23 Il faut distinguer la question des constructions caractéristiques de l’oral spontané et les

obstacles que la « performance » met à la bonne reconnaissance des constructions

quelles qu’elles soient. Comme exemple du premier cas, on peut prendre la question

des périphériques.

Corpus, 15 | 2016

56

Page 58: Corpus de français parlé et français parlé des corpus

5.1.3.1 Traitement des périphériques

24 Dans l’exemple qui suit, on a un groupe nominal, les chaussures, qui ne peut être analysé

de façon satisfaisante par aucune des relations existantes dans le jeu des relations

syntaxiques standard.

(4) toi les chaussures tu aurais jamais dû essayer de faire des économies

25 Nous allons mettre au point une procédure d’évaluation pour choisir entre deux

traitements possibles de cette structure :

– affecter le ‘hanging topic’ les chaussures de la même relation de dépendance (ajout)

que les cas canoniques d’ajout non prépositionnel : la semaine dernière ;

– introduire un nouveau lien PERIPH pour les cas de ‘hanging topic’.

26 On rencontre un problème voisin avec des périphériques phrastiques. Ainsi, dans

l’exemple suivant, prononcé par un agriculteur qui insiste sur le travail préparatoire à

sa participation au Salon de l’agriculture,

(5) on part pas à Paris on prend la vache et on y va //

27 on aimerait analyser la séquence comme une parataxe à l’intérieur d’une seule unité de

segmentation. Ce qui permettrait d’obtenir directement la bonne interprétation : « on

part pas à Paris en se contentant de prendre la vache et d’y aller ». Cette interprétation

est impossible si l’on segmente on part pas à Paris comme une unité indépendante.

L’analyse syntaxique souhaitable impliquerait donc qu’on établisse une relation de

dépendance (PARAtaxe) entre les deux verbes, ce qui n’est pas canonique mais qui

permettrait d’analyser la séquence en une seule unité. L’analyse pourrait être étendue

aux exemples :

(6) il y a trois semaines il est venu(7) elle s’est mariée elle avait trois ans(8) il y a des gens ils n’ont pas de quoi vivre

28 Mais là encore le choix d’une solution implique de tester la capacité pour le programme

de reconnaître avec fiabilité les liens modélisant la parataxe. En cas d’échec, on

adoptera une analyse sous-spécifiée.

5.1.3.2 Les obstacles aux bons rattachements dans les constructions canoniques

29 Il s’agit de phénomènes liés aux modes de production des énoncés propres à l’oral

spontané. Leur point commun est d’introduire des discontinuités dans la régularité des

séquences syntaxiques canoniques, soit en créant des séquences agrammaticales

(disfluences), soit en éloignant le dépendant de son gouverneur.

5.1.3.2.1 Disfluences

30 Sous ce terme classique, on regroupe des phénomènes qui ne sont pas sans intérêt pour

l’analyse linguistique, notamment pour mieux comprendre les conditions d’insertion

lexicale dans les positions syntaxiques. Il ne s’agit donc pas d’en perdre la trace. Pour ce

faire, nous avons choisi de laisser le programme d’analyse syntaxique décider lui-même

du statut de disfluence. La stratégie consiste à rattacher dans le corpus d’apprentissage

la partie disfluente à la séquence régulière par un lien arbitraire DISLINK. Comme on le

voit dans la figure 5 (ci-dessous) où l’amorce dans le de « enregistré dans le dans le métro »

est rattachée à enregistré sans que cela perturbe le bon rattachement du dépendant non

disfluent. L’analyseur syntaxique apprend donc à placer le lien DISLINK. Le dispositif

Corpus, 15 | 2016

57

Page 59: Corpus de français parlé et français parlé des corpus

fonctionne bien pour des répétitions de segments courts, qui peuvent être repérés

automatiquement. Nous cherchons à l’étendre à d’autres cas, ainsi qu’à donner une

représentation moins arbitraire des disfluences. Par exemple en établissant une

relation de type coordination entre séquence disfluente et séquence régulière.

5.1.3.2.2 Parenthèses

31 Après une parenthèse, on constate souvent qu’un constituant soit n’est pas rattaché du

tout, soit est rattaché à un mauvais gouverneur interne à la parenthèse. Ainsi dans

l’exemple suivant qu’ gouverné par a (conscience) est rattaché à tort à ressens :

(9) et là on a conscience depuis quelques mois (enfin c’est ce que je ressens) qu’ilfaudra encore peut-être bien une génération

32 Pour pallier cette difficulté, l’équipe a décidé d’annoter les parenthèses dans le corpus

d’entraînement (CE). Leur contenu sera ignoré au cours de l’analyse syntaxique. La

solution peut être étendue aux incises (je crois, dit-il) et de façon générale à tous les

éléments y compris certains types de disfluences qui viennent s’insérer entre un

gouverneur et un dépendant sans être eux-mêmes intégrés à la structure grammaticale

de la phrase.

5.1.3.2.3 Énumérations / listes

33 Les énumérations sans coordonnants sont difficiles à analyser, car on ne peut s’appuyer

sur un cordonnant pour commander les relations de coordination et, par là même, les

rattacher au contexte :

(10) ça on n’en veut pas des exécutants et puis qui en même temps sont despompiers inefficaces et impuissants devant les conséquences de cette politique / lamisère /le chômage/ la délinquance

34 Nous avons choisi d’annoter manuellement ces cas par un slash (l’équivalent de la

virgule de l’écrit) devant chaque terme de l’énumération, ce qui permet une analyse

standard en coordination.

5.2 Organisation de l’annotation automatique

5.2.1 La chaîne de traitement

35 À partir des considérations précédentes, nous avons adopté la chaîne de traitement

suivante pour l’oral :

– Segmentation

– Tokenisation (avec un minimum de mots composés)

– Étiquetage en PoS

– Lemmatisation

– Intégration des informations du dictionnaire de valences3

– Élimination des « parenthèses »

– Analyse en dépendances

36 Le dispositif est tel que l’analyseur a accès à une partie de l’information contenue dans

Dicovalence (caractéristiques syntaxiques du complément, réalisations possibles en

POS, traits sémantiques des compléments (+/- subjonctif) pour désambiguïser certaines

séquences.

Corpus, 15 | 2016

58

Page 60: Corpus de français parlé et français parlé des corpus

5.2.2 Analyse morphosyntaxique

5.2.2.1 Méthode

37 Elle consiste à entraîner un programme probabiliste sur un corpus oral segmenté,

analysé manuellement en POS et Dépendances (désigné par CE). L’évaluation est faite

sur un corpus distinct annoté manuellement (désigné par CT). Le CE choisi pour

l’oral est le corpus DECODA. Il est constitué de conversations téléphoniques finalisées.

Les tours de parole généralement assez brefs sont utilisés comme segmentation. Une

partie du corpus sera re-segmentée à la main.

5.2.2.2 Les jeux d’étiquettes

5.2.2.2.1 Critères de choix

38 Nous avons adapté le jeu utilisé pour DECODA. Plusieurs critères ont guidé le choix des

étiquettes. Nous montrons sur quelques exemples comment ils ont été mis en œuvre et

articulés.

5.2.2.2.2 Fiabilité des résultats

39 L’analyse de l’item de comme PRE (préposition) ou DET dans : je n’ai pas de feu est l’objet

de nombreuses controverses linguistiques. Et son analyse automatique, source de

nombreuses erreurs. Nous avons testé deux solutions. Soit distinguer dans le CE

l’analyse en PRE et en DET, comme pour DECODA ; soit affecter à de la seule catégorie

PRE. La reconnaissance étant meilleure dans le deuxième cas, nous avons décidé de

toujours l’analyser comme une PRE, en laissant à l’analyse syntaxique la tâche de

distinguer les différentes constructions où entre cette PRE.

40 Nous voulions cependant éviter que ce choix ait des conséquences indésirables dans

l’analyse en relations de dépendance. Avec le jeu de relations original, (11) et (12)

auraient eu la même analyse en dépendance (complément prépositionnel), et (12) et

(13), des analyses différentes, ce qui est contre-intuitif sur le plan linguistique.

(11) je mange des amandes(12) je parle des amandes(13) je grille les amandes

41 C’est la raison pour laquelle nous avons introduit la relation SPE (spécifieur). La

préposition peut alors être analysée comme spécifieur dans (11), ce qui permet de dire

que le complément y est « direct » comme en (13), tandis qu’elle est complément du

verbe dans (12), qui présente donc un complément indirect.

5.2.2.2.3 Adéquation avec analyse linguistique admise

42 Comme les autres jeux de catégories et de relations, celui de DECODA reprend assez

largement les catégories de la grammaire scolaire. Cette démarche est cohérente avec

l’idée que l’analyseur ne fournit pas une analyse définitive des structures, mais permet

de rassembler des données servant de base à des analyses qui peuvent être

d’orientations théoriques différentes. La grammaire implicite sous-jacente à

l’établissement des étiquettes doit donc tendre vers cette Basic Linguistic Theory, dont le

descriptiviste Dixon dit qu’elle est la grammaire traditionnelle, moins les erreurs les

Corpus, 15 | 2016

59

Page 61: Corpus de français parlé et français parlé des corpus

plus flagrantes. C’est, en fait, cette direction que nous avons suivie en intégrant à notre

grammaire implicite certains acquis de la linguistique descriptive. La différence

principale tient à l’articulation catégorie/fonction. La grammaire traditionnelle

distingue plusieurs fonctions (épithète, complément de nom) en relation avec les

catégories concernées (adjectif, groupe nominal), là où les approches descriptives ne

voient qu’une seule relation (complément) pouvant porter sur plusieurs catégories.

43 Ce principe nous a amenés à réduire le nombre de relations par rapport au jeu

d’étiquettes DECODA, comme on le verra plus bas ; à supprimer la catégorisation

multiple en adverbe, préposition, conjonction, en fonction du contexte pour des mots

comme pour, sans, après, au profit de la classification unique comme PRE, adoptée par la

linguistique descriptive ; à distinguer la catégorie déterminant (DET) de la relation

syntaxique Spécifieur (SPE). Le SPE est le dépendant gauche du N en position sujet. Les

DET sont les items qui ne peuvent exercer que cette fonction. Le dépendant SPE peut-

être un DET (le livre) un adjectif (quelques livres), une préposition : j’ai de beaux

livres… Parfois, le critère d’adéquation descriptive entre en conflit :

– tantôt avec celui de fiabilité des résultats produits par l’analyseur.

44 Ainsi, la catégorie PRQ (pronom qu-) est en adéquation avec les descriptions

contemporaines en ce qu’elle ne distingue pas pronoms relatifs et pronoms

interrogatifs au niveau des POS et efface la distinction entre pronoms (quoi) et adverbes

(où) relatifs. Mais nous avons maintenu, malgré son inadéquation descriptive, la double

catégorisation traditionnelle de que en PRQ et CSU (conjonction de subordination) et

classé qui sujet PRQ pour faciliter la reconnaissance des relatives par rapport aux

complétives. En effet, les programmes ne pouvant reconnaître ce qui serait dans

certaines analyses linguistiques une catégorie vide, analyser les que dans les relatives

comme conjonctions (complémentiseurs) aboutirait à donner la même analyse

syntaxique à le fait qu’il a signalé et le fait qu’il ait regretté ça.

– tantôt avec celui de la facilité de compréhension par l’utilisateur.

45 En dehors des classes réduites CLI (clitique) et PRQ, on maintient la distinction entre

pronom (lui, quelqu’un ) et adverbe (là, quelque part ) sur critère morphologique

conformément aux analyses les plus courantes.

5.2.2.3 Jeu d’étiquettes POS

46 L’adaptation du jeu DECODA s’est faite de façon automatique. Le travail principal a été

la révision du dictionnaire LEFFF, en particulier pour le traitement des composés. Le

tableau ci-dessous présente les étiquettes retenues dans le projet.

Corpus, 15 | 2016

60

Page 62: Corpus de français parlé et français parlé des corpus

Figure 2. Liste des étiquettes retenues

47 La classe interjection regroupe les mots qui ne peuvent avoir de gouverneurs (sauf

verbes introducteurs de discours direct), à savoir les interjections classiques (eh, hélas,

bof…) et des items qui sont aujourd’hui classés comme particules discursives (euh, ben,

voilà…). La performance globale de l’étiqueteur en POS est de 98,25 % conforme aux

standards en matière d’analyse de l’oral. L’évaluation a été faite sur une partie de

DECODA annotée manuellement.

5.2.2.4 Jeu d’étiquettes des relations de dépendances

48 Nous sommes partis du jeu de relations utilisé pour DECODA, soit :

Figure 3. Relations utilisées pour le corpus DECODA

OBJ objet direct

AFF clitique sans fonction (s’en aller)

D-COORD dépendant de la conjonction de coordination

MOD modifieur (complément autre qu’objet du verbe)

SUJ sujet

Corpus, 15 | 2016

61

Page 63: Corpus de français parlé et français parlé des corpus

ROOT racine de l’énoncé ou absence de gouverneur

MOD_REL lien antécédent relative

AUX lien verbe-auxiliaire

P_OBJ objet prépositionnel

COORD dépendant de la conjonction de coordination

DET déterminant

49 Nous l’avons modifié à la suite de l’évaluation des résultats qui peut être résumée dans

le tableau ci-dessous. Le tableau indique d’abord la relation, puis sa fréquence, puis la

précision de la reconnaissance, et enfin l’impact de la précision en fonction de la

fréquence.

Figure 4. Evaluation des résultats

LABEL FREQ ACC IMPACT

OBJ 19.55 90.51 11.32

AFF 1.20 94.08 0.44

D-COORD 2.31 83.56 2.32

MOD 12.86 75.16 19.52

SUJ 11.37 95.89 2.86

ROOT 26.50 80.83 31.06

MOD_REL 0.65 65.24 1.38

AUX 1.53 98.71 0.12

P_OBJ 4.02 71.30 7.05

COORD 1.41 69.58 2.62

DET 8.39 94.19 2.98

DISFLINK 10.19 70.48 18.41

50 En général, on observe 87 % de bons gouverneurs et 84 % de bonnes étiquettes. (Le

corpus d’entraînement et de test est DECODA). Le rappel des résultats pour l’écrit de

référence (French Treebank : 87 %).

51 La Figure 5 présente le résultat d’une analyse correcte sous forme tabulaire simplifiée.

La première colonne donne l’ordre linéaire des items ; la deuxième, l’item ; la troisième,

Corpus, 15 | 2016

62

Page 64: Corpus de français parlé et français parlé des corpus

le lemme ; la quatrième, la POS ; la cinquième, la position du gouverneur ; et la

dernière, la fonction de l’item numéroté dans la première colonne. Cette présentation

sera transformée en un format plus classique de Treebank pour l’utilisateur.

Figure 5. Analyse syntaxique d’une portion de DECODA

1 ah ah INT 0 ROOT

2 non non INT 0 ROOT

3 ça ça CLI 7 SUJ

4 a avoir VRB 6 AUX

5 pas pas ADN 7 MOD

6 été être VPP 7 AUX

7 enregistré enregistrer VPP 0 ROOT

8 dans dans PRE 7 DISFLINK

9 le le_ DET 8 DISFLINK

10 dans dans PRE 7 MOD

11 le le DET 12 DET

12 métro métro NOM 10 COMP

52 Ces tableaux permettent notamment de repérer les sources d’erreurs les plus

fréquentes. Mais une première source d’erreurs pourrait bien découler d’un fait

général : il est difficile d’annoter automatiquement des données très éloignées de celles

qui ont été utilisées pour entraîner l’analyseur syntaxique. Des essais sont en cours

pour pallier cette difficulté :

– Ajouter au Corpus d’entraînement d’autres types de corpus annotés en relations :

Rhapsodie, le French Treebank ;

– Annoter manuellement un ensemble de « genres » différents pour ré-entraîner le

parseur, voire procéder à différents paramétrages.

53 Une deuxième source d’erreurs tient sans doute au nombre de relations à identifier. On

trouve ainsi, dans DECODA, pour les dépendances verbales : Pobj ; obj ; mod ; mod_rel.

Leur taux de reconnaissance est très variable : 90 % pour obj, mais mod, Pobj et mod_rel

ne sont reconnues qu’à moins de 75 %. Nous avons choisi d’éliminer le plus possible les

relations à problèmes. Les étiquettes mod, mod_rel, Pobj sont un héritage de la

tradition, mais elles représentent en fait une seule relation de dépendance au verbe, les

distinctions étant en réalité redondantes avec l’analyse en POS des compléments (NP,

PP, ADV…). Nous avons donc réduit toutes ces relations à deux : OBJ pour objet direct et

COMP (pour les autres cas). L’utilisation des informations contenues dans le

dictionnaire de valences permet ensuite de distinguer sur des bases fiables, parmi les

COMP, ceux qui appartiennent à la valence des verbes, seule distinction à la fois

Corpus, 15 | 2016

63

Page 65: Corpus de français parlé et français parlé des corpus

linguistiquement pertinente et utile pour la désambiguïsation des séquences. Nous

travaillons donc, pour l’instant, avec le jeu suivant de relations, présentées ici en

fonction du gouverneur :

– Pour le gouverneur Verbe, on retient les relations de dépendance AUX, COMP et OBJ.

– Pour les autres gouverneurs (ADJ, NOM, ADV, PRE…), on utilise SPE et COMP.

– Les conjonctions de coordination ont un système particulier de dépendances, elles

sont reliées par la relation COOR à leur gouverneur et par la relation COMP à leur

dépendant.

54 Des évaluations du nouveau dispositif sont en cours sur une partie segmentée du

corpus ORFÉO. Nous constituerons à partir de là une liste de constructions présentant

des difficultés d’analyse et donc exigeant un approfondissement du traitement

syntaxique.

6. Plate-forme d’accès et de requêtes

55 Le travail est en cours, notamment grâce à Lari Lampen, en contrat d’ingénieur

d’études, sous la responsabilité de Kim Gerdes et de Sylvain Kahane. La première tâche

a consisté à évaluer les plates-formes actuelles d’interrogation de corpus arborés

(treebanks). L’outil Annis, développé actuellement à l’Université de Postdam

(Allemagne), a été jugé le plus performant pour le projet, sous réserve de modifications.

La première concerne la possibilité d’accepter plusieurs formats qui peuvent être

appareillés : TEI, CONLL.

56 La deuxième modification en cours doit permettre de gérer des fichiers à plusieurs

stades de développement, avant ou après intégration de certaines annotations,

lesquelles peuvent ensuite être modifiées. De même, les formats d’encodage peuvent

être amenés à évoluer, notamment lors de l’intégration à la plate-forme Ortolang dans

la phase finale.

57 L’interface utilisateur prévoit, outre la constitution d’un corpus de travail à partir des

métadonnées des corpus existants, plusieurs niveaux d’interrogation. Un niveau de

requête simple aboutira à une consultation « à la Google » et à un tableur présentant

des indications statistiques sur la fréquence de l’item choisi. Un niveau intermédiaire

sera dédié à la recherche par lemme et POS. Ces deux interfaces constituent une

surcouche par rapport à l’interface de requêtes d’Annis, qui permet, elle, des

interrogations en dépendances.

58 Par ailleurs, les données seront interrogeables directement par un lien vers les

différents corpus sources de la plate-forme. Le principe est que cet outil soit le plus aisé

possible à manipuler. Des fenêtres d’aide permettront aux utilisateurs novices de

comprendre le fonctionnement des outils mis à disposition (concordancier et requêtes

complexes). L’objectif du projet est en effet d’encourager l’utilisation des corpus et des

outils, que ce soit à des fins de recherche ou d’enseignement. Au moment de la

rédaction de cet article, le projet vient de se voir accorder une prolongation. La plate-

forme et les données qui lui sont associées seront donc disponibles courant 2017.

Corpus, 15 | 2016

64

Page 66: Corpus de français parlé et français parlé des corpus

BIBLIOGRAPHIE

Abeillé A., Clément L. & Toussenel F. (2003). « Building a treebank for french », in A. Abeillé (éd.)

Treebanks. Kluwer : Dordrecht.

Bawden R., Botalla M.-A., Gerdes K. & Kahane S. (2014). « Correcting and Validating Syntactic

Dependency in the Spoken French Treebank Rhapsodie », Proceedings of the 9th Language Resources

and Evaluation Conference (LREC), Reykjavik.

Benzitoun C. & Bérard L. (2010). « Mutualisation et uniformisation de ressources de français

parlé », Cahiers de praxématique 54-55 : 175-188.

Bérard L. (2014). « Dépendances à longue distance et genres textuels », Actes du Congrès mondial de

linguistique française, 2349-2365.

Boersma P. & Weenink D. (2015). Praat : doing phonetics by computer [Computer program]. Version

5.4.18, retrieved 7 September 2015 from http://www.praat.org/.

Botalla M.-A., (2014). Analyse du flux de dépendance dans un corpus de français oral annoté en

microsyntaxe, Mémoire de master, Université Sorbonne Nouvelle.

Deulofeu J. (2011). « Peut-on établir un système de ponctuation des transcriptions de textes oraux

linguistiquement fondé », Langue française 171.

Groupe ICOR (Bruxelles S., Jouin-Chardon E., Traverso V.) & Guinamard I. « “Du coup” dans

l’interaction orale en français : description de ses usages situés à partir d’une base de données

multimédia, et considérations didactiques », in Synergie pays riverains du Mékong.

Lacheret-Dujour A., Kahane S. & Pietrandrea P. (en préparation). Rhapsodie : a Prosodic and

Syntactic Treebank for Spoken French. Amsterdam : Benjamins.

Nasr A., Bechet F., Favre B., Bazillon T., Deulofeu J. & Valli A. « Automatically Enriching Spoken

Corpora with Syntactic Information for Linguistic Studies », in International Conference on Language

Resources and Evaluation (LREC), mai 2014.

Wang I. (2013). Segmentation automatique d’un corpus de français oral en unités macrosyntaxiques,

Mémoire de master, Université Sorbonne Nouvelle.

Wang I., Kahane S. & Tellier I. (2014). « Macrosyntactic Segmenters of a spoken French Corpus »,

9th Language Resources and Evaluation Conference (LREC), Iceland, 1-6.

Liste des corpus oraux constitués et mis à disposition partiellement ou intégralement par

les ayants droit : 

French Oral Narrative – Janice Carruthers

http://frenchoralnarrative.qub.ac.uk/

Corpus du français parisien des années 2000 – Sonia Branca, Serge Fleury, Florence Lefeuvre

http://cfpp2000.univ-paris3.fr/

Corpus oral de français parlé en Suisse romande – Mathieu Avanzi, Marie-José Béguelin et

Federica Diémoz

http://www11.unine.ch/

Corpus de référence du français parlé – Équipe Delic

http://sites.univ-provence.fr/~veronis/pdf/2004-presentation-crfp.pdf

Corpus, 15 | 2016

65

Page 67: Corpus de français parlé et français parlé des corpus

C-ORAL-ROM – E. Cresti, M. Moneglia

http://lablita.dit.unifi.it/coralrom/

Corpus de langue parlée en interaction – V. Traverso, L. Mondada, S. Bruxelles, C. Étienne,

E. Jouin-Chardon, S. Teston Bernard

http://clapi.ish-lyon.cnrs.fr/

Corpus VALIBEL – Discours et variation – Anne Catherine Simon

http://www.uclouvain.be/valibel

Corpus TUFS – Yuji Kawaguchi

http://www.coelang.tufs.ac.jp/multilingual_corpus/fr/index.html?

contents_xml=corpus&menulang=en

Corpus Traitement de corpus écrits et oraux (TCOF) – V. André, C. Benzitoun, E. Canut, J.-

M. Debaisieux

http://www.cnrtl.fr/corpus/tcof/

Corpus Français langue étrangère universitaire, Ressources et outils numériques (FLEURON) –

V. André, M. Ciekanski, F. Poncet, J.-M. Debaisieux

https://apps.ATILF.fr/fleuron2/

(site en cours d’expérimentation)

Corpus d’entretiens – Ensemble de transcriptions fournies par S. Caddéo, J.-M. Debaisieux, et

élaborées dans le cadre d’enseignements

Corpus de réunions de travail – M. Husianycia (élaboré dans le cadre de son travail de thèse)

http://www.ATILF.fr/IMG/pdf/theses/These_Husianycia_Magali_2011.pdf

Corpus Rhapsodie - A. Lacheret

http://www.projet-rhapsodie.fr/

NOTES

1. Le logiciel JTrans est librement téléchargeable à l’adresse suivante : https://github.com/

synalp/jtrans/releases/latest.

2. http://www.projet-orfeo.fr/

3. Le dictionnaire choisi est Dicovalence (www.bach.arts.kuleuven.be/ dicovalence/).

RÉSUMÉS

L’article présente le projet ORFEO (outils pour l’étude du Français écrit et oral). Ce projet a

consisté à rassembler 4M de mots de Français oral et 6M de mots d’écrit à partir de ressources

existantes. Les ressources orales ont été unifiées dans un format trs et alignées avec les fichiers

sons au phonème. Les corpus sont présentés avec des métadonnées qui permettent de constituer

des sous-corpus d’étude. Les données orales ont été segmentées et annotées en POS et relations

de dépendance semi automatiquement. La précision des annotations a fait l’objet d’une

Corpus, 15 | 2016

66

Page 68: Corpus de français parlé et français parlé des corpus

évaluation. L’ensemble est interrogeable à partir d’une plateforme adaptée du logiciel libre

ANNIS. La ressource sera mise à disposition en open source courant 2017.

The paper presents the outcomes of the project ORFEO (tools for the study of spoken and written

French). The outcomes consist of a 4M words spoken French and 6M written French sampled

corpus. Detailed metadata allows the user to build his own study corpus according to his research

purposes. Oral resources have been unified under trs. Format aligned with sound files. Spoken

data have been segmented and annotated into POS and dependency relations. The precision of

these annotations has been evaluated and meets the current standards. Queries are possible

through a platform adapted from ANNIS free software. The whole resource will be available

during the year 2017.

INDEX

Keywords : equipped corpus, spoken and written French, POS annotation, dependency

annotation

Mots-clés : corpus outillé, français parlé, français écrit

AUTEURS

CHRISTOPHE BENZITOUN

Université de Lorraine, Atilf UMR 7118

JEANNE-MARIE DEBAISIEUX

Université Paris 3 Sorbonne Nouvelle, Lattice UMR 8094

HENRI-JOSÉ DEULOFEU

Université Aix-Marseille, Lif UMR 7279

Corpus, 15 | 2016

67

Page 69: Corpus de français parlé et français parlé des corpus

Le Corpus de français parlé auQuébec (CFPQ) et la langue desconversations familières : Exemplede mise à profit des données à partird’un examen lexico-sémantique dela séquence je sais pasThe Corpus de français parlé au Québec (CFPQ) and the Language of Informal

Conversation. An Example of Data Mining Based on a Lexical-Semantic

Examination of the Sequence je sais pas

Gaétane Dostie

1 Cet article se déroule en deux temps. Il présente d’abord le contexte général ayant

conduit à l’élaboration du Corpus de français parlé au Québec (CFPQ) et les principes

méthodologiques ayant présidé à sa confection (section 1). Il illustre ensuite l’intérêt

que représente cette ressource documentaire pour l’étude de la langue parlée en

contexte informel par le biais d’un examen lexico-sémantique d’une séquence qui y est

fréquente, à savoir je sais pas (section 2).

1. Présentation du corpus

1.1 Les corpus lexicaux québécois

2 En 1997, le Secrétariat à la politique linguistique du Québec lançait une vaste entreprise

afin de donner accès, à partir d’un portail commun, aux principaux corpus de langue

qui avaient été constitués jusque-là dans les universités québécoises. Le projet, du nom

de « Corpus lexicaux québécois », prenait fin en 2007. Le site Internet créé reliait

désormais entre eux 15 corpus reflétant la langue, d’époques différentes, en usage dans

Corpus, 15 | 2016

68

Page 70: Corpus de français parlé et français parlé des corpus

des genres communicatifs extrêmement variés (p. ex. : textes littéraires parus entre

1837 et 1919, entrevues dirigées et semi-dirigées réalisées entre 1960 et 1990 dans le

cadre d’enquêtes sociolinguistiques…).

3 Huit ans plus tard, ce site est toujours accessible et les objectifs poursuivis par ses

promoteurs y sont énoncés dans les termes suivants :

• Mettre en œuvre des actions concertées visant l’emploi et la qualité du français enusage au Québec.• Instrumenter les chercheurs en vue de permettre une description scientifique dufrançais en usage au Québec.• Favoriser l’élaboration d’ouvrages de référence qui peuvent tenir compte de laréalité linguistique québécoise (faune et flore, géographie, institutions etorganisations sociopolitiques, environnement, etc.).• Créer, dans Internet, un réseau de banques de données textuelles représentativesdu français en usage au Québec à l’intention des chercheurs québécois et autresinternautes de la Francophonie.• Accroître la participation et la visibilité du Québec au sein de la francophonieinternationale.Site : Secrétariat à la politique linguistique,Gouvernement du Québec1.

4 La consultation simultanée des corpus ici regroupés se veut simple et efficace. « On

peut taper [peut-on lire], par exemple, les mots bozo, bouette, érablière ou ouananiche, et

découvrir pour chacun ce qu’en révèlent les différentes sources de ces riches corpus »

(site : Secrétariat à la politique linguistique, Gouvernement du Québec).

5 Conformément à ses objectifs, la base de données « Corpus lexicaux québécois »

constitue une référence précieuse pour décrire une partie non négligeable du lexique

propre à la culture québécoise – notamment, les unités à valeur référentielle comme

celles données en exemple ci-dessus. Cependant, elle est moins propice à soutenir les

analyses axées sur la langue contemporaine usitée dans les conversations familières.

Cette forme de langue, on le sait, foisonne de marqueurs à valeur grammaticale et

pragmatique, soit absents des ouvrages de référence, soit décrits de manière plutôt

sommaire. À ce chapitre, un exemple récent dans les anales lexicographiques

québécoises est celui du dictionnaire Usito (2012-) où, à titre illustratif, les expressions

et mots suivants, typiques de la langue de tous les jours, n’ont pas droit de cité : coudon,

pis, mets-en, fait que, ben / ben ben…

6 En un sens, on ne peut reprocher à Usito d’ignorer tout un pan du lexique courant, dans

la mesure où il vise à « décrire le français standard en usage au Québec », indique-t-on

sur son site internet2. Voilà donc qui explique en partie maintes exclusions3, auxquelles

il apparaît tout aussi légitime d’accorder priorité.

1.2 Le CFPQ et la langue des conversations familières

7 C’est dans le contexte exposé ci-haut que le projet relatif à la création du Corpus de

français parlé au Québec (CFPQ) a vu le jour. Son but, clairement affiché, était de venir

appuyer les études sémantiques portant sur le lexique caractéristique de la langue orale

familière, notamment les études axées sur les marqueurs à valeur grammaticale et

pragmatique. Les travaux entourant la mise en place du corpus ont démarré en 2006

dans le cadre des activités du Centre d’analyse et de traitement informatique du

français québécois (CATIFQ) de l’Université de Sherbrooke4.

Corpus, 15 | 2016

69

Page 71: Corpus de français parlé et français parlé des corpus

8 Le CFPQ regroupe aujourd’hui 30 sous-corpus de conversations à bâtons rompus

enregistrées sur support audiovisuel ; chacun d’entre eux dure approximativement

1 heure et demie. Au total, 45 heures d’enregistrement ont ainsi été effectuées entre

2006 et 2013, dans diverses régions du Québec. Les différents sous-corpus mettent en

scène 3 ou 4 locuteurs qui se connaissent très bien. En tout, 109 locuteurs, dont l’âge va

de 15 à 95 ans, ont pris part au projet ; ils discutent librement, dans un lieu familier, de

sujets divers (p. ex. : le travail, la maladie, les loisirs, les autres…).

9 Une trentaine d’étudiants assistants ont collaboré aux travaux du CFPQ

(enregistrements, transcription, révision, support technique…), et un analyste-

informaticien à l’emploi de l’Université de Sherbrooke a assuré la mise en place de la

base de données (accessible en ligne) à laquelle nous revenons un peu plus bas.

10 Les transcriptions sont effectuées à l’aide du logiciel Transana, qui permet un

alignement du son, de l’image et du texte. Les conventions de transcription, présentées

sur le site du corpus, sont relativement standards pour la langue orale. Celles-ci visent

à refléter, au mieux, le caractère multimodal des interactions verbales en face-à-face.

Ainsi, en plus de noter le matériel verbal (c’est-à-dire les mots selon l’orthographe

habituelle), les transcripteurs prennent également en compte le matériel paraverbal (p.

ex. : les pauses, la vitesse et le volume de la voix) et le matériel non verbal (les gestes

significatifs sur le plan communicationnel, comme hocher la tête négativement ou faire

un clin d’œil en signe de complicité).

11 La base de données, créée en 2011, permet actuellement d’effectuer des recherches

dans 21 sous-corpus, ce qui correspond à 31 heures et demie de conversations à bâtons

rompus. Dans leurs versions transcrites, ces sous-corpus équivalent à 471 575 unités

graphiques au sein desquelles figurent 21 016 unités graphiques différentes. Les

transcriptions des 9 derniers sous-corpus sont déjà bien amorcées et devraient être

disponibles prochainement5. La taille finale du corpus sera alors d’environ

675 000 unités graphiques.

12 Le site Internet du CFPQ présente les métadonnées relatives aux enregistrements

(dates, lieux, principaux thèmes abordés…), aux participants (âges, professions/

occupations, scolarité…) et aux transcriptions (dates où elles ont été effectuées, nom

des transcripteurs…). À l’exception des informations portant sur les transcriptions, les

métadonnées peuvent faire l’objet d’une recherche croisée avec des données dans les

fichiers-textes (tous téléchargeables en format PDF). En guise d’exemple, il est possible

d’effectuer des recherches combinant l’âge et la scolarité, d’un côté, et tel ou tel

marqueur, de l’autre.

13 Par ailleurs, le site présente, par ordre décroissant, les unités graphiques les plus

fréquentes sur une base individuelle, de même que les séquences les plus fréquentes où

2, 3, voire 4 unités graphiques apparaissent en cumul. Ainsi, on découvre que c’est ça,

parce que et fait que se logent respectivement au premier, deuxième et troisième rangs

pour ce qui concerne les séquences les plus fréquentes du corpus composées de 2 unités

graphiques. De même, on repère, de manière automatique sur le site, les unités

graphiques les plus souvent répétées en contiguïté (de 2 à 5 fois). Sur ce point, il n’y a

pas de surprise : non non non non non est la séquence la plus fréquente dans laquelle une

même unité figure 5 fois de suite. Elle est suivie de près par oui oui oui oui oui.

14 Ces deux derniers exemples illustrent bien le fait que le CFPQ est un corpus de langue

orale typique des interactions verbales spontanées. De ce fait, il constitue un bon

Corpus, 15 | 2016

70

Page 72: Corpus de français parlé et français parlé des corpus

repère pour identifier les marqueurs et les séquences de mots à étudier en priorité, si

l’objectif est d’accorder une attention spéciale à la langue des conversations familières,

en vue notamment de la voir un jour mieux représentée dans les dictionnaires… Cela

dit, dans la mesure où ce dernier point relève pour l’immédiat davantage de l’utopie

que de la réalité, nous le laisserons en suspens pour nous attaquer maintenant à notre

étude de cas à partir des données prélevées dans le corpus.

2. Je sais pas : de séquence verbale à marqueurdiscursif

15 Nous présentons dans ce qui suit quelques données quantifiées qui font ressortir

l’intérêt d’examiner la séquence morphologiquement complexe je sais pas, en français

québécois spontané (section 2.1). Par la suite, nous portons notre attention sur ses

emplois verbaux (section 2.2) afin d’établir comment celle-ci a pu en venir à acquérir

une valeur qui l’apparente, dans certains contextes, à un marqueur discursif (MD), tel

que souligné notamment dans Gauvin 1999, de Sève 2005 et Pop 2009 (voir aussi sur I

don’t know en anglais, qui est proche de je sais pas, Diani 2004, Grant, 2010 et Aijmer,

2014). Nous focalisons notre attention, en terminant, sur la valeur discursive associée à

l’expression considérée et insistons sur le double rôle qu’elle assume alors : ce rôle est

de l’ordre à la fois de la collaboration et de la protection de soi (section 2.3).

16 L’étude d’une séquence telle je sais pas ramène vite à la problématique classique relative

à la dissymétrie entre la première personne du présent de l’indicatif et les autres

personnes de la conjugaison propre à certains verbes appelés diversement, entre

autres, verbes assertifs, verbes parenthétiques et verbes d’attitude propositionnelle, comme je

crois que P, je trouve que P et je sais que P (notamment, Urmson 1952 ; Récanati 1984 ;

Schneider 2007a, 2007b et 2013). Nous y revenons plus loin.

2.1 Quelques données quantifiées

17 Notre intérêt pour je sais pas (prononcé [ʃepɑ]) vient d’abord d’un constat : sa fréquence

d’emploi est particulièrement élevée dans le CFPQ, eu égard à sa morphologie

complexe. Ainsi, il s’agit de la séquence la plus fréquente du corpus composée de

3 unités graphiques. On en trouve 705 occurrences, ce qui la place devant les 4

séquences complexes suivantes, elles aussi formées de 3 unités graphiques se succédant

dans le texte : en tout cas (576 occurrences), oui c’est ça (352 occurrences), fait que là

(332 occurrences) et tout le temps (313 occurrences). De plus, le CFPQ contient

97 occurrences d’une forme équivalente à je sais pas, transcrite je le sais pas (prononcée

[ʒəlʃepɑ]), si bien que le nombre total d’occurrences relatif à la séquence en question

est en réalité encore plus important (on en dénombre 802 en tout).

18 L’importance quantitative de je sais pas dans le CFPQ et donc, vraisemblablement, dans

les conversations à bâtons rompus, se vérifie encore de deux façons :

– le plus souvent, (le) sais pas est précédé, dans le corpus, de je et non pas de tu. Il y a en

effet 1 050 occurrences de (le) sais pas, ce qui signifie que dans 76 % des cas c’est je qui

introduit (le) sais pas et non pas tu. Les séquences il (le) sait pas et on (le) sait pas

n’apparaissent, quant à elles, que 7 fois et 38 fois, respectivement ;

Corpus, 15 | 2016

71

Page 73: Corpus de français parlé et français parlé des corpus

– de même, la probabilité est grande pour que pas suive immédiatement je (le) sais. À ce

propos, le corpus renferme 900 occurrences de je (le) sais, ce qui revient à dire que pas

figure à sa droite dans 89 % des cas6.

19 En somme, ce n’est pas seulement la fréquence élevée de je (le) sais pas qui frappe dans

l’ensemble des séquences complexes utilisées dans notre corpus ; c’est aussi – et peut-

être même davantage – la forte attirance exercée entre je, (le), sais et pas. De là, on peut

supposer que le degré d’« entrenchment » (c’est-à-dire d’enracinement) relatif à la

suite considérée est grand, qu’elle est mémorisée en tant que séquence

morphologiquement complexe ayant atteint, dans certains contextes, un degré élevé de

figement (entre autres, Langacker 1987 : 59-60). Parmi ces contextes se trouvent ceux

où elle agit à titre de MD7.

2.2 Je sais pas : séquence verbale

20 Savoir a un potentiel pour la factivité : le locuteur en use, dans certains contextes, en

présupposant la véracité de la proposition complément (Kiparsky & Kiparsky, 1970).

Nous disons que ce verbe a un potentiel pour la factivité, parce qu’il n’est pas

systématiquement employé de manière factive, ce qui en fait un verbe semi-factif

(Levinson, 1983 ; Korzen, 2001). Il sera factif notamment dans les contextes positifs

comme celui relevé en (1) où la proposition P renvoie à l’idée, présentée comme vraie

par J.-M., selon laquelle la prière effectuée par une tierce personne (en l’occurrence,

une étudiante prénommée Hasmina) diffère quelque peu de celle faite par les

catholiques.

(1) M. : non mais [ <all<t’sais>> elle se décrit comme une bonne musulmane là jeveux dire elle respecte ses paRENTS elle respecte t’sais <dim<la plupart des des>> (.)pis elle fait sa prière sauf que elle elle nous l’a bien dit que genre la priÈre pi :s peuimporte les ablutions tout ce qui va avec (.) euh (.) t’sais pour elle c’est comme (.)dans le Coran son interprétation à elle en tout cas c- elle ce qu’elle nous disait c’estque […]J.-M. : mais (.) la prière du vendredi je sais que c’est une priè :re qui est comme unpeu différente des autres là(CFPQ, sous-corpus 10, segment 1, p. 3, ligne 5)

21 Savoir perd sa factivité dans certains contextes négatifs 8, dont celui présenté en (2) :

nous y trouvons alors la séquence qui nous intéresse particulièrement, c’est-à-dire je

sais pas. Dans cet exemple, savoir n’est pas factif puisque J affirme précisément ne pas

savoir à quelle heure elle s’est levée, en réponse à la question de K. Notons qu’il refuse

la construction complétive *je ne sais pas que P pour des raisons sémantiques évidentes :

il serait pour le moins curieux d’affirmer qu’on ne sait pas si ce qu’on présente comme

vrai est vrai9. La construction en si P serait en revanche acceptable puisqu’elle

donnerait une valeur hypothétique à la subordonnée conformément au sémantisme du

verbe lorsqu’il est nié à la première personne du présent de l’indicatif, ce que montre

(3).

(2) K : [tu t’es levée à quelle heure toi à matin/J : [(inaud.)J : à quelle heure/K : hum hum J : je sais pas

Corpus, 15 | 2016

72

Page 74: Corpus de français parlé et français parlé des corpus

C : (RIRE) tard

(CFPQ, sous-corpus 17, segment 1, p. 11, ligne 7 ; 8 min, 4 s)(3) VE : je sais pas si ça dérange si on est cinq / (RIRE)

(CFPQ, sous-corpus 19, segment 6, p. 54, ligne 26 ; 3 min 18 s)

22 À côté de l’emploi où la séquence je sais pas sert au locuteur à indiquer son ignorance

vis-à-vis de la proposition P, comme en (2), on en trouve un second, où elle lui permet

cette fois d’indiquer un doute ou une incertitude face à la véracité de cette proposition,

comme en (4). Cet emploi n’est donc pas sans rappeler celui illustré en (3), sauf qu’ici, il

y a économie de la proposition si P.

(4) J : pis le Planétarium K : ouin non tu feras je pense pas que tu vas pouvoir y aller (en souriant et en hochantlégèrement la tête négativement)C : <p<je sais pas>> (en souriant légèrement) J : <pp<euh je pense que tu peux>> (en hochant la tête affirmativement) mais si tu tefais refuser (en haussant les épaules comme pour signifier « tant pis ») euh ben tudemanderas à ton prof (en inclinant la tête vers la droite comme pour désigner lapersonne dont elle parle) (CFPQ, sous-corpus 17, segment 4, p. 43, ligne 15 ; 2 min 40 s)

23 Ainsi, en (4) comme en (2), je sais pas renvoie à l’expression d’un savoir déficient, ce que

souligne Diani 2004 pour I don’t know. Par exemple, en réaction à l’affirmation de

l’interlocutrice K, selon laquelle il ne sera pas permis à C d’aller au Planétarium, cette

dernière utilise je sais pas en (4) pour signaler une incertitude vis-à-vis de ce qui est dit

(et non une négation catégorique). Je sais pas est alors proche de formules comportant

un modalisateur épistémique du type je suis pas certain ou je suis pas sûr. Dans l’exemple

considéré, tout porte à croire que l’incertitude exprimée par C quant à la véracité de P

tient au fait qu’elle cherche à ne pas contrer K ouvertement. De ce point de vue, l’usage

de la séquence examinée relève d’une stratégie de politesse qui consiste à ne pas

afficher de but en blanc son désaccord avec l’interlocuteur afin de ne pas heurter sa

face positive (Brown & Levinson, 1987 ; Diani, 2004 ; Aijmer, 2014).

24 De même, en (5), le locuteur S utilise je sais pas pour exprimer une incertitude face à

l’affirmation de R et non pour s’y opposer. L’intonation montante, bien notée dans cet

exemple par le transcripteur, paraît assez typique de l’emploi discuté. Celle-ci n’induit

pas une valeur de question, en ce sens que le locuteur ne se demande pas « s’il sait que

P ». Au contraire, l’emploi sous examen paraît davantage correspondre à ce que

Kerbrat-Orecchioni (1991) appelle une « quasertion » ou une « semi-question », c’est-à-

dire à un acte illocutoire intermédiaire entre l’assertion pure et simple et la question en

bonne et due forme. Je sais pas joue ici un double rôle : en premier lieu, il permet au

locuteur d’exprimer une incertitude face à ce qui est dit et, en second lieu, il constitue

un moyen, peu contraignant pour l’interlocuteur, de tenter de vérifier, sans en avoir

l’air, l’exactitude de ses propos, un peu comme un ah bon↑,   un  ah oui↑ ou un

vraiment↑. Nous disons qu’il s’agit d’un moyen peu contraignant d’agir de la sorte, parce

que l’interlocuteur peut décider de ne pas réagir à une semi-question, alors qu’il lui

serait plus difficile, sur le plan interactionnel, d’ignorer une véritable question sans

risque de paraître un tantinet malpoli. Ainsi, R laisse en suspens l’assertion-question de

S en (5) sans qu’aucun malaise entre les interactants semble s’installer.

(5) [En parlant d’un enfant turbulent dont on est en train de raconter les méfaits, lelocuteur dit :]R : il est (.) il est dur pour son corps pis il est dur sur le corps des autres J : oui (dit en riant)

Corpus, 15 | 2016

73

Page 75: Corpus de français parlé et français parlé des corpus

(RIRE GÉNÉRAL)

B : sur le corps pis sur le moralS : mais que tu le connaisses tu vas comprendre tout qu’est-ce qu’on te dit/ (.)seigneur […]R : les oreilles [doivent lui siller lui J : [mais il comprendra [pas (.)S : [je sais pas↑ (en réaction à ce que dit Robert)J : il comprendra pas (.) pas parce qu’il est pas fin ↓ mais parce que tout le mondequi le rencontre il trouve qu’il est juste charmant (CFPQ, sous-corpus 15, segment 8, p. 138, ligne 12 ; 4 min 55 s)

25 Dans les exemples précédents, la séquence je sais pas a incontestablement un statut

verbal. À ce titre, elle n’est pas figée à la première personne du présent de l’indicatif, si

bien qu’on rencontre des emplois tels je savais pas et on sait pas, comme en (6) et (7). En

(6), je savais pas nie un savoir, en écho à l’exemple (2) ; en (7), on sait pas indique une

possibilité, parallèlement aux exemples (4) et (5).

(6) E : ouin ouin il y a juste le : le coussin là (en désignant le coussin sur lequel elle estassise) [le rembourrage là que j’ai fait faire I : [ah ouin/ ah <p<ouin ça je je>> [ah/ ouais ah/ je savais pas\ É : [mai :s <f<il a du TALENT le frérot↑ hein↑>> (CFPQ, sous-corpus 16, segment 1, p. 2, ligne 19 ; 1 min)(7) A : oui apparemment qui q- apparemment qu’ils avaient été averTIS (en pointantson crayon dans les airs comme pour insister sur ses propos) (.) que c’était (.)R : ben c’est possible qu’ils aient pu faire quelques e- éléments de risquesadditionnels AN : ah ça on peut on sait pas hein /(CFPQ, sous-corpus 20, segment 7, p. 78, ligne 15 ; 1 min 32 s)

2.3 Je sais pas : marqueur discursif

26 Comme cela était à prévoir, le MD je sais pas ne joue pas un rôle au sein de l’énoncé, si

bien que sa suppression ne rend pas agrammaticale la répartie du locuteur qui en use10.

Ainsi, le segment textuel pis c- me semble ça nous CALME ça fait du bien serait

syntaxiquement recevable en (8).

(8) M : on s’éVADE là-dedans (.) c’est pas croyable comme on s’évade dans ça (.) desfois là euh : ben là ça fait euh : quasiment six mois que j’ai pas touché à mon pianolà mais euh quand ça me le disait là je m’en allais au piano pis j’improvisais là pist’sais euh t’sais euh •vas-y vas-y° là pis c- je sais pas me semble ça nous CALME çafait du bien (.) ouin (en hochant la tête affirmativement) (CFPQ sous-corpus 11, segment 5, p. 60)

27 Dans l’emploi considéré, la séquence je sais pas correspond à ce que Schneider 2007a et

2007b appelle une « clause parenthétique réduite » à valeur modale. Elle présente,

grosso modo, les particularités sémantiques les plus communes dégagées par Urmson

1952, dans l’extrait suivant, pour ce qu’il nomme « verbes parenthétiques ».

They [= parenthetical verbs] themselves have not, in such a use, any descriptive sensebut rather function as signals guiding the hearer to a proper appreciation of thestatement in its context, social, logical, or evidential. They are not part of thestatement made, or additional statements, but function with regard to a statementmade rather as ‘READ WITH CARE’ functions in relation to a subjoined notice, or asthe foot stamping and saluting can function in the Army to make clear that one ismaking an official report. Perhaps they can be compared to such stage-directions as

Corpus, 15 | 2016

74

Page 76: Corpus de français parlé et français parlé des corpus

‘said in a mourful (confident) tone’ with reference to the lines of the play. They helpthe understanding and assessment of what is said rather than being a part of whatis said. (Urmson, 1952 : 495-496)

28 Dans ce cadre, je sais pas se loge dans la troisième des 4 classes (concernant les clauses

parenthétiques réduites) identifiées par Schneider 2007a et 2007b. Celle-ci réunit des

marqueurs mettant en jeu des verbes de croyance qui ont grosso modo comme fonction,

selon l’auteur, « d’atténuer directement l’obligation communicative du locuteur ». Cela

étant, il reste maintenant à préciser comment s’opère le passage du verbe savoir au je

sais pas discursif à portée atténuante.

29 Dans l’un de ses emplois verbaux, nous l’avons vu, la séquence je sais pas permet au

locuteur d’indiquer que, pour lui, la proposition P est indéterminée. Lorsque celle-ci

fait office de MD, il y a déplacement de l’indétermination : elle se situe non plus vis-à-

vis d’une proposition P et donc du dit, mais plutôt vis-à-vis du dire. De ce fait, le

locuteur signale, en usant du marqueur, qu’il est engagé dans un processus cognitif

relatif à la mise en mots de sa pensée. Il hésite et se demande à voix haute que dire et/

ou dans quels termes. En guise d’exemple, la locutrice VE manifeste explicitement, par

je sais pas en (9), qu’elle est en mode réflexif, qu’elle cherche comment poursuivre sa

narration. Cela ressort d’autant mieux, ici, que la séquence sous examen est précédée

d’une marque d’hésitation explicite (cf. euh) et d’une pause relativement longue (de

près de 3 secondes). De plus, les premiers mots qui suivent immédiatement je sais pas ne

forment pas un texte fluide. On y retrouve ce que Blanche-Benveniste (1997 : 21)

appelle un « entassement paradigmatique » : c’était si est en concurrence, au plan

paradigmatique, avec c’est qui est finalement l’option retenue pour l’enchaînement

narratif (cf. c’est important de faire des beaux partys de Noël). Ce court extrait montre donc

que je sais pas est une trace, parmi d’autres, qui traduit, dans le texte, l’effort cognitif

que fournit le locuteur au moment même où il met en mots sa pensée.

(9) VE : c’est cool des partys de Noël sérieux c’est comme euh (2,8”) je sais pas jetrouve que c’était si c’est important de faire des beaux partys de Noël (CFPQ, sous-corpus 19, segment 6 p. 52, ligne 2 ; 11 s)

30 En affichant ouvertement, grâce à je sais pas, qu’il est en mode réflexif et qu’il est

hésitant, le locuteur pose ouvertement un regard critique sur les limites de son savoir :

son dit a pour cette raison une allure plus ou moins assurée. Ce faisant, celui-ci

collabore honnêtement à l’échange. Il respecte en tous points les maximes

conversationnelles du type formulées par Grice 1979 et plus spécifiquement la sous-

maxime de qualité que l’auteur énonce comme suit : « N’affirmez pas ce que vous

croyez être faux ; n’affirmez pas ce pour quoi vous manquez de preuve » (p. 61). Je sais

pas est donc un marqueur foncièrement interactionnel qui s’inscrit dans une démarche

collaborative. Par exemple en (10), sa présence illustre le fait que H, sans y avoir

réfléchi au préalable, cherche dans le vif de la discussion, une solution au dilemme

apparent d’un tiers absent11 : écouter une émission de télévision ou aller à une fête à

l’occasion d’un mariage. La solution avancée est qu’il n’y a pas forcément à choisir. Les

deux activités sont possibles, si l’émission de télévision est enregistrée ou écoutée lors

d’une reprise le lendemain.

(10) H : enregistre-le je sais pas ou écoute-le demain là c’est un party qu’il y a à soirlà •ah je connais pas ben ben Domingue là° (.) pis ça crime (.) c’est un mariage là (.)en plus c’est la c’était la fin (CFPQ, sous-corpus 14, segment 8, p. 86, ligne 6)

Corpus, 15 | 2016

75

Page 77: Corpus de français parlé et français parlé des corpus

31 En somme, si je sais pas discursif n’est pas nécessaire au plan référentiel, il l’est au plan

pragmatique. Voici un dernier exemple qui, à nouveau, le montre bien. En (11), R (un

homme dans la soixantaine) rend explicite, par le biais du marqueur, l’effort cognitif

qu’il déploie au moment de parole pour exprimer son point de vue sur un sujet délicat

relativement aux groupes de jeunes gens dont le pouvoir collectif exerce trop souvent,

selon lui, une pression excessive sur les choix individuels. Aussi, en plus d’être un

marqueur collaboratif, je sais pas en est-il un foncièrement égotiste. En effet, grâce à lui,

le locuteur se prémunit contre d’éventuelles représailles résultant d’une prise de parole

qui, autrement, aurait pu être perçue, par l’interlocuteur, comme étant peu réfléchie.

(11) R : a un certain moment donne en tout cas je sais pas je vois peut-être ça malmais moi je me dis la a un certain moment donne une gang ensemble […] une gangensemble tu sais pas quoi faire […]R : a un certain moment donne il y en a un qui sort quelque chose il sort quelquechose (en claquant des doigts comme pour représenter la rapidité de l’événement dont ilparle)[…]R : et go pis tout le monde est ensemble pis aïe je peux pas dire non/ écoute je vasavoir l’air d’un maudit pissou pissou (CFPQ, sous-corpus 20, segment 3, p. 28, ligne 19 ; 4 min 32 s)

32 Pour terminer, remarquons que le glissement de savoir à je sais pas discursif a sans

doute été facilité par le fait que, dans son emploi verbal, celui-ci renvoie, si l’on en croit

Rémi-Giraud 1986, à un savoir où « le sujet reste dans la réalité intérieure d’un

processus mental » (p. 250). Or c’est également ce qui se passe, on l’a vu, avec je sais pas

discursif. Dans les termes de Rémi-Giraud, savoir1 signifie « avoir dans l’esprit l’acte

mental qui permet de former et d’affirmer une phrase (exprimée dans le C.O.D.) »

(p. 254). Par comparaison, son synonyme proche, connaître1, renvoie à un « savoir

d’expérience lié à l’espace des réalités non linguistiques » ; il signifie « avoir dans

l’esprit l’image qui correspond à un objet extérieur (exprimé dans le C.O.D.) » (p. 254).

Dans cette veine, pourquoi, à côté de je sais pas discursif, n’a-t-on pas, par exemple, je

connais pas discursif ? Une hypothèse plausible est que connaître n’est pas foncièrement

tourné vers la pensée mais vers le monde, contrairement au verbe « assertif fort »,

savoir, tout entier centré sur « le cours ou l’aboutissement [d’un] processus cognitif »

(Borillo 1982 : 35) ; cela est aussi le propre de je sais pas discursif12.

3. Conclusion

33 Cette étude avait comme premier objectif de présenter le contexte général ayant

conduit à la confection d’un corpus de langue orale usitée au Québec, en contexte

informel, dans les années 2000, à savoir le CFPQ. Elle visait également à exposer les

grands principes méthodologiques ayant présidé à la constitution du corpus, ainsi que

ses principales caractéristiques (allant de l’enregistrement des données sur support

audiovisuel à la mise en ligne des transcriptions et à leur interrogation).

34 Le second objectif poursuivi était d’illustrer en quoi un corpus de langue familière

comme le CFPQ pouvait s’avérer utile pour choisir et analyser finement nombre

d’expressions fréquentes, caractéristiques de la variété diatopique/diaphasique de

langue ciblée. De telles expressions sont généralement absentes des dictionnaires, y

compris des plus récents.

Corpus, 15 | 2016

76

Page 78: Corpus de français parlé et français parlé des corpus

35 Pour atteindre ce deuxième objectif, l’intérêt s’est porté du côté de la séquence la plus

fréquente du corpus composée de 3 unités graphiques, c’est-à-dire je sais pas. Cette

séquence est tantôt verbe, tantôt MD. Lorsque je sais pas est verbe, soit il nie

catégoriquement un savoir, soit il laisse en suspens sa véracité. Dans ce cas, la séquence

considérée n’est pas figée à la première personne du présent de l’indicatif et elle

participe au contenu propositionnel de l’énoncé. Le statut de je sais pas se modifie

lorsque l’indétermination face à un contenu propositionnel se transpose au plan

métadiscursif. La séquence, qui ne joue alors plus un rôle au plan propositionnel ou

référentiel, devient syntaxiquement optionnelle. Elle traduit en pareil cas l’effort

déployé par un locuteur engagé dans un processus cognitif complexe consistant à

mettre en mots sa pensée. Celui-ci hésite : il cherche que dire et/ou dans quels termes

s’exprimer. Dans ce cas-ci, je sais pas est employé comme MD.

36 Pour bien faire, il faudrait désormais confronter les résultats obtenus ici pour je sais pas

à des données prélevées dans d’autres corpus oraux du français, tels le CFPP2000, ESLO

et OFROM. La voie est tracée : nous aurons certainement l’occasion de nous y engager

dans une prochaine étude.

BIBLIOGRAPHIE

Aijmer K. (2014). « I don’t know as a marker of youth language », in K. Helgesson et al. (éd.) Fint

språk/Good Language. Festskrift till Lars-Gunnar Andersson. Göteborgs : Utgiven i serie vid Göteborgs

universitet, 1-14.

Blanche-Benveniste Cl. (1997). Approches de la langue parlée en français. Paris : Ophrys.

Borillo A. (1982). « Deux aspects de la modalité assertive : croire et savoir », Langages 67 : 33-53.

Brown P. et S. C. Levinson (1987). Politness. Some Universals in Language Usage. Cambridge :

Cambridge University Press.

De Sève S. (2005). « Quand la morphologie devient une ressource interactive », in D. Banks (éd.)

Les marqueurs linguistiques de la présence de l’auteur. Paris : L’Harmattan, 243-254.

Diani G. (2004). « The Discourse Functions of I Don’t Know in English Conversation », in K. Aijmer

et A.-Br. Stenström (éd.) Discourse Patterns in Spoken and Written Corpora. Amsterdam : Benjamins,

157-171.

Gauvin K. (1999). Une approche énonciative et interactive de je sais et je sais pas, mémoire de

maîtrise. Moncton : Université de Moncton.

Grant L. E. (2010). « A Corpus Comparison of the Use of I Don’t Know by British and New Zealand

Speakers », Journal of Pragmatics 42, 8 : 2282-2296.

Grice H.-P. (1979). « Logique et conversation », Communications 30 : 57-72.

Kiparsky P. et C. Kiparsky. (1970). « Fact », in M. Bierwisch (éd.) Progress in Linguistics. A collection

of Papers. The Hague : Mouton, 143-173.

Corpus, 15 | 2016

77

Page 79: Corpus de français parlé et français parlé des corpus

Kerbrat-Orecchioni C. (1991). « L’acte de question et l’acte d’assertion : opposition discrète ou

continuum ? », in C. Kerbrat-Orecchioni (éd.) La Question. Lyon : Presses universitaires de Lyon,

87-111.

Korzen H. (2001). « Factivité, semi-factivité et assertion. Le cas des verbes savoir, ignorer, oublier et

cacher », in H. Kronning et al. (éd.) Langage et référence. Acta Universitatis Upsaliensis : Uppsala,

323-333.

Langacker R. W. (1987). Foundations of Gognitive Grammar. Theoritical Prerequisites, vol. 1. Sandford :

Standford University Press.

Levinson St. C. (1983). Pragmatics. Cambridge : Cambridge University Press.

Poirier Cl. (2015). « Un pas en avant, un pas en arrière. Analyse du dictionnaire de l’Équipe

FRANQUS », Cahiers de lexicologie 105, 1 : 21-53.

Pop L. (2009). « Quelles informations se pragmatisent ? Le cas des verbes plus ou moins

marqueurs », Revue roumaine de linguistique 54, 1-2 : 61-172.

Récanati Fr. (1984). « Remarques sur les verbes parenthétiques », in P. Attal et Cl. Muller (éd.) De

la syntaxe à la pragmatique. Amsterdam : Benjamins, 319-352.

Rémi-Giraud S. (1986). « Étude comparée du fonctionnement sémantique et syntaxique des

verbes savoir et connaître », in S. Rémi-Giraud et M. Le Guern (éd.) Sur le verbe. Lyon : Presses

Universitaires de Lyon, 169-306.

Schneider St. (2007a). Reduced Parenthetical Clauses as Mitigators. A Corpus Study of Spoken French,

Italian and Spanish. Amsterdam et Philadelphia : Benjamins.

Schneider St. (2007b). « Les clauses parenthétiques réduites en français, italien et espagnol. Une

analyse pragmatique fondée sur des corpus de la langue parlée », in D. Trotter (éd.) Actes du XXIVe

Congrès international de linguistique et de philologie romanes. Aberystwyth, 2-5 août 2004, vol. 3.

Tübingen : Niemeyer, 423-432.

Schneider St. (2013). « Clauses parenthétiques réduites et type d’interaction verbale. Quelques

considérations », in H. Chuquet (éd.) Des sentiments au point de vue : études de linguistique contrastive.

Rennes : Presses universitaires de Rennes, 175-194.

Urmson J. O. (1952). Parenthetical Verbs, Mind 61, 244 : 480-496.

Usito 2012-, Équipe Franqus. Sous la direction éditoriale de H. Cajolet-Laganière et P. Martel.

Sherbrooke : Éditions Delisme inc.

En ligne : https://www.usito.com. (Consulté le 5 mars 2015).

Corpus

CFPP2000 (Corpus de français parlé parisien des années 2000), Université Paris 3 – Sorbonne

nouvelle.

Site : http://recherche.flsh.usherbrooke.ca/cfpq/ (Consulté le 21 septembre 2014).

CFPQ (Corpus de français parlé au Québec), CATIFQ, Université de Sherbrooke.

Site : http://recherche.flsh.usherbrooke.ca/cfpq/

Sous-corpus 1 à 21 exploités dans le cadre de la présente étude (= environ 31 h ½

d’enregistrement). (Consulté le 21 septembre 2014)

Corpus lexicaux québécois, Secrétariat à la politique linguistique, Gouvernement du Québec,

1997-2007. Site : http://www.spl.gouv.qc.ca/languefrancaise/corpuslexicaux/ (Consulté le 5 mars

2015).

Corpus, 15 | 2016

78

Page 80: Corpus de français parlé et français parlé des corpus

ESLO (Enquêtes sociolinguistiques à Orléans, Université d’Orléans.

Site : http://eslo.huma-num.fr/ (Consulté le 21 septembre 2014)

OFROM (Corpus oral de français parlé en Suisse romande), Université de Neuchâtel.

Site : http://www11.unine.ch/ (Consulté en 21 septembre 2014).

NOTES

1. http://www.spl.gouv.qc.ca/languefrancaise/corpuslexicaux

2. C’est nous qui plaçons en italiques le terme français standard.

3. Il en va de même pour le traitement plus que minimal de certains mots courants, notamment

ceux d’origine anglaise (entre autres, Poirier, 2015).

4. Le projet, dirigé par la signataire du présent article, a reçu l’appui financier de l’Université de

Sherbrooke, du Fonds de recherche québécois sur la société et la culture (FRQSC, 2007-2014 ;

subvention d’équipe accordée au CATIFQ) et du Conseil de recherche en sciences humaines du

Canada (CRSH, subvention individuelle, 2008-2012).

5. Il est prévu que les transcriptions restantes soient accessibles en ligne au plus tard à

l’automne 2015.

6. Les pourcentages sont établis sur la base des calculs suivants :

– dans le premier cas, 802 occurrences de je (le) sais pas sur 1 050 occurrences de (le) sais pas

équivaut à 76 % ;

– dans le second cas, 802 occurrences de je (le) sais pas sur 900 occurrences de je (le) sais

correspond à 89 %.

7. Dans ce qui suit, nous faisons l’économie du le entre parenthèses pour des raisons de

simplicité, étant entendu que les deux prononciations relevées plus haut et transcrites

respectivement je sais pas et je le sais pas sont possibles.

8. Nous écrivons que savoir perd sa factivité dans certains contextes négatifs, car celle-ci peut

réapparaître à des temps autres que l’indicatif présent, comme à l’imparfait (p. ex. : je savais pas

que P) ou au plus-que-parfait (p. ex. : j’avais pas su que P).

9. L’interrogative indirecte du type je ne sais pas à quelle heure (que) je me suis levé est toutefois

acceptable, parce que l’affirmation d’un non-savoir porte cette fois sur le syntagme nominal qui

suit savoir (cf. à quelle heure) et non sur la complétive. Dans cet exemple, la complétive introduit

une idée présentée comme vraie (cf. je me suis levé) car elle n’est pas directement sous la portée de

savoir.

10. On le sait, le fait qu’une séquence puisse être omise n’est pas une caractéristique exclusive

des MD (par exemple, les adverbes d’énonciation sont également optionnels). Le caractère

optionnel d’une séquence n’est donc pas une condition suffisante pour qu’il y ait MD. Il faut

plutôt y voir une condition nécessaire (sauf, encore là, dans les cas connus de mots-phrases tels

ok ou coudon lorsqu’ils constituent par eux-mêmes une intervention).

11. Dans l’exemple considéré, H fait allusion à un problème rencontré par un ami qui ne

participe pas à l’échange.

12. Sur le plan syntaxique, on pourrait encore ajouter que les constructions *connaître que P /

*connaître si P n’existent pas. Ce fait, signalé par les chercheures précitées comme étant une

conséquence de surface distinguant savoir et connaître, serait donc également en lien avec

l’absence de je ne connais pas dans la zone discursive.

Corpus, 15 | 2016

79

Page 81: Corpus de français parlé et français parlé des corpus

RÉSUMÉS

Cet article présente le contexte général ayant conduit à l’élaboration du Corpus de français parlé

au Québec (CFPQ) et les principes méthodologiques ayant présidé à sa confection. Il illustre

ensuite l’intérêt que représente cette ressource documentaire pour l’étude de la langue parlée en

contexte informel par le biais d’un examen lexico-sémantique de la séquence je sais pas.

L’intérêt pour cette séquence vient d’abord d’un constat : celle-ci est particulièrement fréquente

dans le corpus pris comme cible. En effet, elle y occupe le premier rang, en terme de fréquence,

pour ce qui concerne la présence de trois unités graphiques figurant en contiguïté. Ce constat

oriente vers l’idée selon laquelle son degré d’« entrenchment » (c’est-à-dire d’enracinement) doit

être grand, qu’elle a toute chance d’être mémorisée en bloc dans un certain nombre de contextes,

à la manière des séquences complexes ou expressions (semi-)figées. L’attention se focalise sur des

exemples où je sais pas agit à titre d’expression verbale, puis d’expression discursive.

This article examines the sequence je sais pas (‘I don’t know’) in the context of its spontaneous

usage in Quebec French. The interest of this sequence of units primarily stems from the

observation of its particularly high frequency in the queried corpus, namely the Corpus de

français parlé au Québec (CFPQ). Indeed, it is the most frequent sequence of three graphical units

that appear in contiguity. This observation suggests that the sequence is strongly “entrenched”

and that it is likely to be memorized as a whole in a certain number of contexts, following the

example of complex sequences or (semi-)fixed expressions. The article focuses on examples in

which je sais pas acts as a verbal expression, and then as a discursive expression.

INDEX

Keywords : corpus linguistics, frequency, congealing, discourse marker

Mots-clés : linguistique de corpus, fréquence, figement, marqueur discursif

AUTEUR

GAÉTANE DOSTIE

Département des lettres et communications

Faculté des lettres et sciences humaines

Université de Sherbrooke, Québec, Canada

Corpus, 15 | 2016

80

Page 82: Corpus de français parlé et français parlé des corpus

Corpus international écologique dela langue française (CIEL-F) : uncorpus pour la recherche comparéesur le français parléThe international ecological linguistic corpus of French (CIEL_F): A database for

comparative research in spoken French

Lorenza Mondada et Stefan Pfänder

1. Introduction

1 Cet article a pour objectif de présenter le travail de constitution du Corpus

international écologique de la langue française (CIEL-F) et quelques potentialités, mais

aussi défis, qu’il implique pour une analyse comparée du français dans différentes

zones communicatives et au sein de différents types d’activités. Pour ce faire, l’article

est organisé en deux parties, la première présentant le corpus et le projet qui l’a

motivé, et la seconde offrant un exemple d’analyse.

2 Il existe aujourd’hui plusieurs corpus de français oral disponibles, qui ont été conçus à

partir d’arrière-plans théoriques et disciplinaires, impliquant par là nécessairement des

méthodologies distinctes qui ont des effets sur la manière dont les données sont

collectées et transcrites – notamment PFC1 conçu à partir d’un intérêt pour la

phonologie du français, ESLO2 à partir d’un projet sociolinguistique, poursuivi à travers

deux phases de recueil historiquement bien distinctes (1968 et actuellement), CLAPI3 à

partir des principes de la linguistique interactionnelle, VALIBEL4 à partir de la

sociolinguistique variationniste, etc. Ces banques de données constituent des corpus

d’une richesse importante qui rendent difficile de répéter aujourd’hui les constats sur

le manque de données pour le français qui ont émaillé la littérature pendant

longtemps. Toutefois, cette richesse de données laisse intacts plusieurs problèmes : les

« données » y sont définies de façons très diverses, allant de tâches plus ou moins

Corpus, 15 | 2016

81

Page 83: Corpus de français parlé et français parlé des corpus

écologiques, plus ou moins dialogiques ou monologiques, aux interviews et aux

interactions sociales situées ; les enregistrements couvrent de manière très hétérogène

les espaces régionaux, nationaux et internationaux où le français est parlé, laissant de

nombreuses régions géolinguistiques dans l’ombre, et certains types d’activités y sont

sur-représentés (p. ex. : l’entretien ou la conversation), alors que de nombreux autres

sont alors plus ou moins totalement ignorés ; les métadonnées documentées sont très

diverses ; les transcriptions obéissent à des standards mais aussi à des niveaux de

granularités très hétérogènes ; les données sont plus ou moins annotées ou taguées,

selon des conventions différentes ; les corpus sont plus ou moins interrogeables, par

des outils qui, là aussi, varient énormément dans les types de requêtes qu’ils

permettent de formuler. Ce constat met aujourd’hui au centre de l’attention

technologique la question de l’interopérabilité des corpus/des banques de données et

au centre de l’attention analytique la question de la comparabilité des données.

3 Le corpus CIEL5 a été constitué au sein d’un projet financé par le programme franco-

allemand ANR-DFG6, réunissant 5 partenaires : Françoise Gadet (UMR MoDyCO, Paris),

Ralph Ludwig (Univ. Halle), Lorenza Mondada (UMR ICAR, Lyon), Stefan Pfänder (Univ.

Freiburg-im-Breisgau), et Anne-Catherine Simon (Univ. Louvain-la-Neuve), pendant la

période 2008-2012. Le projet répond à une partie des questions évoquées ci-dessus :

émanant de linguistes actifs dans les domaines de la grammaire de l’oral, de la

sociolinguistique et de la linguistique interactionnelle, il vise un corpus qui puisse

permettre d’accéder à des données du français enregistrées dans des conditions

écologiques dans différentes aires communicatives, recueillies dans des contextes

comparables, renseignées par rapport aux mêmes métadonnées, transcrites avec les

mêmes conventions et critères. Les corpus sont réunis dans une banque de données qui

réunit les expertises des équipes ayant réalisé la plateforme CLAPI7 (Corpus de langue

parlée en interaction) au laboratoire ICAR à Lyon et développé le système [moca]8

(multimodal oral corpora administration) à Freiburg et à Louvain-la-Neuve.

2. Le corpus CIEL : critères de constitution

4 Le corpus CIEL vise à rassembler des données de français recueillies en différents points

géographiques sur plusieurs continents, enregistrées dans des conditions écologiques

(voir Dister et al., 2008 ; Gadet, Ludwig, Mondada, Pfänder & Simon, 2012).

5 Il s’agit tout d’abord d’un corpus écologique : ce terme renvoie à plusieurs acceptions

dans la littérature que le projet CIEL tente d’intégrer et d’articuler (voir Ludwig,

Mühlhäusler & Pagel, éds, à paraître). Haugen (1972) est parmi les premiers à utiliser ce

terme en linguistique, renvoyant par là à une conception de la langue comme inscrite

dans un réseau complexe d’interdépendances, que ce soit avec l’environnement social

et naturel ou avec d’autres langues, et dont l’ancrage social se manifeste concrètement

dans la communication en situation d’interaction. À partir de Haugen, l’écologie

linguistique a pris d’une part au sérieux le concept biologique, en pensant l’évolution

linguistique en termes de langue en train de survivre, de se développer ou bien de

disparaître ; d’autre part le concept a été utilisé de manière métaphorique pour

renvoyer à un système d’interdépendances plus abstrait et aussi davantage orienté vers

les dynamiques sociales. L’approche de l’écologie dans le projet CIEL distingue

différents niveaux : le niveau macro-écologique reconnaît la formation historique de

contextes d’usage du français – comme, par exemple, la francophonie africaine ou le

Corpus, 15 | 2016

82

Page 84: Corpus de français parlé et français parlé des corpus

Levant – ; le niveau méso-écologique tient compte des contextes urbains, régionaux, ou

insulaires (cf. infra, les aires communicatives) ; le niveau micro-écologique considère les

contextes sociaux et institutionnels d’usage du français, ainsi que les environnements

spatiaux et matériels dans lesquels la langue est utilisée comme ressource pour

l’interaction sociale située (cf. infra, les types d’activité). Méthodologiquement, la

dimension écologique est comprise et implémentée dans le corpus CIEL sous la forme

de l’exigence de se doter d’enregistrements de la parole située dans son contexte social

ordinaire et routinier, sans qu’elle soit élicitée ou orchestrée par le chercheur

(Mondada, 2012).

6 Ces différents principes issus de la notion d’écologie ont été traduits dans le corpus

CIEL sous la forme d’une triple exigence : des données naturalistes enregistrées in situ

qui documentent une variété de zones communicatives – qui émanent d’une typologie

des aires – et des types d’activités distincts – qui émanent d’une typologie des

situations d’usage.

7 La typologie des aires communicatives (cf. Gadet, Ludwig & Pfänder 2009) est inspirée d’une

révision critique de la question de l’ancrage spatial, géographique et politique des aires

linguistiques. L’aire communicative renvoie à un espace qui est moins défini de

manière géopolitique ou selon les frontières de l’État-nation, que dans la perspective

des locuteurs et de leurs usages, faisant intervenir le prestige, la vitalité, le contact avec

d’autres variétés linguistiques, ainsi que la fonctionnalité communicative. La typologie

se fonde sur quatre critères : a) l’espace socio-géographique (distinguant entre centres

urbains et zones plus périphériques et rurales), b) le contact linguistique (distinguant

entre formes de contact dominantes vs non-dominantes, avec une vs plusieurs variétés ;

entre contact avec une langue typologiquement proche (européenne) ou non ; et entre

contact avec des variétés écrites vs non écrites), c) la dimension fonctionnelle

(contemplant les types d’usages, dans différents contextes, formels vs informels, privés

vs publics, en situation d’oralité vs de littératie) et d) la dimension de dynamisme

langagier (incluant la vitalité vs l’obsolescence de la variété considérée). Sur cette base,

différentes aires en Algérie, Antilles françaises, Belgique, Burkina Faso, Cameroun,

Canada, Congo, Côte d’Ivoire, Égypte, France, Inde, La Réunion, Maurice, Sénégal, Suisse

et Togo ont été documentées.

8 La typologie des activités communicatives a été privilégiée par rapport à un

échantillonnage des locuteurs qui régit souvent les enquêtes sociolinguistiques, mais

qui soulève de nombreux problèmes dès que l’on pense moins en termes d’individus et

davantage en termes d’interactions sociales. Ces activités sont abordées en respectant

leur caractère situé : il ne s’agit pas d’activités provoquées ou orchestrées par un

enquêteur (cela exclut les entretiens, les données sollicitées ou expérimentales), mais

d’activités telles qu’elles se déroulent ordinairement (Mondada, 2012 ; Groupe ICOR,

2010). Le choix des activités s’inspire des travaux de l’ethnographie de la

communication, de la linguistique anthropologique et de l’analyse conversationnelle.

En particulier, il a été inspiré par la notion de « speech event » de Gumperz (1982) et

d’« activity type » de Levinson (1979). Les activités ainsi définies sont à la fois

solidement ancrées dans leur contexte et repérables dans des contextes divers. Le

corpus a privilégié des types d’activités répondant à une série de critères socio-

interactionnels : a) des échanges interactionnels comportant plus de deux et si possible

moins de six locuteurs (afin de limiter le risque de schismes conversationnels),

b) constituant des activités dont les frontières temporelles et spatiales sont

Corpus, 15 | 2016

83

Page 85: Corpus de français parlé et français parlé des corpus

naturellement identifiées par les locuteurs (comme un repas ou une réunion, délimitées

entre un début et une fin vers lesquelles s’orientent les participants), c) ainsi que des

activités reconnaissables de manière endogène (émique) par les participants et

membres du groupe concerné, d) qu’il est possible de documenter, avec des variations,

dans des cultures et des sociétés très différentes, e) et qui permettent d’observer des

pratiques langagières et interactionnelles diversifiées (contextes ordinaires informels

vs institutionnels, contextes faisant intervenir des groupes de même âge vs différentes

générations, interactions plus ou moins ancrées dans le corps et la gestualité, pouvant

aussi intéresser l’analyse multimodale). Du point de vue méthodologique, il s’agissait

aussi de retenir des types d’activités accessibles à l’enregistrement, ne posant pas de

problèmes de confidentialité, et, du point de vue éthique et juridique, pouvant être

diffusés (cela motivant l’exclusion de situations impliquant des contenus confidentiels

et intimes). Sur cette base, trois types d’activités ont été privilégiés :

– conversations durant des repas entre amis ou en famille ;

– interactions en contexte professionnel (par exemple réunions) ;

– interactions enregistrées sur une radio locale.

9 Pour chaque aire et chaque type d’activité, 3 enregistrements ont été visés – avec

actuellement un corpus constitué de 183 enregistrements.

3. Traitement et archivage des corpus : des donnéesaux banques de données

10 Le travail effectué pour réaliser le corpus CIEL implique de nombreux paliers et un

réseau de collaborations et d’expertises. Le corpus a été conçu par les 5 équipes en

charge du projet. Les données ont été enregistrées en partie par les mêmes équipes en

partie par des collaborateurs distribués sur plusieurs continents et qui ont accepté de

contribuer au projet. Elles ont été ensuite transcrites, en grande partie par les équipes

du projet mais aussi avec l’aide des collaborateurs externes9. Enfin, elles ont été

alignées, décrites par des métadonnées et intégrées sous un format XML à la base de

données. Chacune de ces étapes suppose un travail de coordination et de

standardisation important, qui pose des problèmes conceptuels, méthodologiques et

techniques, mais aussi disciplinaires, épistémologiques et humains.

11 Le travail d’enregistrement des données a souvent reposé sur un contact étroit avec les

locuteurs sur place et donc sur la collaboration avec des personnes y résidant ou y

travaillant. Cela a supposé une réflexion en matière de conception des enregistrements

et de recours à des technologies adéquates, implémentée dans un protocole pour le

recueil d’enregistrements audio et vidéo (Mondada, 2011). Cela a supposé surtout la

formation correspondante des équipes et la résolution de nombreux problèmes

techniques, notamment dans les zones les plus périphériques et lointaines, ne

disposant pas des mêmes équipements. Les conditions d’accès au terrain sont très

différentes d’un contexte culturel à un autre : selon les sites, le fait même d’enregistrer

est largement accepté voire banalisé, par les usages de Facebook et par une acceptation

tacite de la vidéo-surveillance, ou bien il est rejeté, du fait d’une sensibilisation à la sur-

médiatisation des enregistrements de la vie privée et aux violations de l’intimité des

personnes, ou encore il fait l’objet de résistances plus ou moins ouvertes, du fait de

conceptions très différentes de ce qu’est la sphère « privée ». De même, les possibilités

d’enregistrer peuvent fortement varier d’un contexte national à l’autre : par exemple,

Corpus, 15 | 2016

84

Page 86: Corpus de français parlé et français parlé des corpus

dans certains contextes académiques, il est déontologiquement et juridiquement

difficile pour les chercheurs d’enregistrer des conversations privées, les interactions

institutionnelles étant plus accessibles (Canada), alors que dans d’autres ce sont les

interactions institutionnelles et professionnelles qui posent des problèmes de

confidentialité (Europe).

12 Le travail de transcription a également reposé sur un travail important d’harmonisation

et de standardisation des pratiques et des conventions. Comme on le sait, la

transcription repose sur une série de choix qui explicitement ou tacitement reposent

sur des modèles et des présupposés théoriques (Ochs, 1979), distinguant souvent des

communautés disciplinaires mais aussi, au sein de mêmes traditions épistémologiques,

nationales. La démarche d’harmonisation et de standardisation passe donc par des

négociations qui sont aussi bien théoriques que pratiques. C’est ainsi qu’une

convention a été préalablement discutée entre les équipes du projet (Simon, Gadet,

Ludwig, Mondada, Pfänder & Skrovec, 2012) sur la base des bonnes pratiques

existantes. Acceptant le caractère fini, sélectif et interprétatif de la transcription

comme donnée secondaire – dont le caractère contraignant est relativisé par la

possibilité de la vérifier sur la base de l’enregistrement ou donnée primaire –, le projet

CIEL a procédé à une transcription fondée sur un certain nombre de principes de base.

Parmi eux, citons l’adoption d’une transcription orthographique standard pour faciliter

la lisibilité mais aussi l’interrogeabilité des textes, doublée d’une transcription

orthographique adaptée pour s’approcher davantage de la production orale

enregistrée, ainsi que d’une traduction ou glose pour les passages qui le nécessitaient

(dans d’autres langues que le français ou dans des variétés particulières). Ces

différentes versions sont toutes accessibles sous le logiciel Praat10, qui permet un

alignement entre le signal sonore et les différentes lignes (tiers) de la transcription :

cela facilite non seulement l’analyse prosodique, mais surtout permet la multiplication

virtuellement infinie des lignes d’annotation pour différentes finalités ; en outre ce

format (text-grid) est exportable à la fois comme texte et comme fichier intégrable dans

une banque de données. De même, un script Praat a été utilisé pour l’anonymisation

(par beepage permettant de garder le même contour prosodique du segment

anonymisé) des détails personnels privés évoqués par des participants dans les

enregistrements.

13 Chaque enregistrement et sa description ont fait l’objet d’une description sous forme de

métadonnées, dont les champs à renseigner ont aussi fait l’objet préalable de discussions

et négociations auprès des équipes du projet. Le choix des catégories à renseigner

implique non seulement des intérêts de recherche mais aussi et d’abord des

présupposés théoriques. Par exemple, loin d’être un simple recueil d’informations

objectives sur les locuteurs, les métadonnées révèlent des choix théoriques concernant

les dimensions pertinentes pour définir l’identité (culturelle, sociale, linguistique…) du

locuteur. Ainsi consigner les langues parlées par le locuteur amène à une discussion sur

le statut de catégories telles que « locuteur natif », « langue première », « langue

maternelle », « langue seconde » etc. ; consigner son appartenance socio-économique

soulève la question de la segmentation et description pertinentes de la structuration

sociale d’un groupe ; consigner son appartenance ethnique soulève des problèmes

épineux de catégorisation. Ces problèmes ont été discutés dans la littérature (voir par

exemple la membership categorisation analysis de Sacks, 1972), mais l’implémentation de

ces discussions dans des choix au sein d’une série de métadonnées, elles-mêmes à

traduire dans des questionnaires à soumettre sur le terrain, n’est pas un processus

Corpus, 15 | 2016

85

Page 87: Corpus de français parlé et français parlé des corpus

linéaire et évident. En outre, les métadonnées ne concernent pas uniquement les

locuteurs et les phénomènes enregistrés, mais documentent également les conditions

d’enregistrement et de transcription. Ces renseignements sont une trace importante

d’un processus réflexif dont certains détails peuvent se révéler importants lors des

analyses. Cela ne fait qu’exhiber la différence radicale entre les corpus que les

chercheurs enregistrent pour leurs propres analyses et les corpus que des chercheurs

recueillent pour les mettre à disposition de la communauté. Dans ce dernier cas,

l’architecture du corpus, et crucialement les métadonnées, construisent la possibilité,

qui ne va pas de soi, que l’on puisse procéder à une analyse de données que l’on n’a pas

soi-même collectées.

14 Les enregistrements, les transcriptions et les métadonnées ont été ensuite consignés

dans une architecture informatique en permettant l’archivage ainsi que l’interrogation,

sous la forme d’une banque de données. Celle-ci est accessible à partir de deux

interfaces, liées à deux plateformes : CLAPI et [moca].

15 CLAPI est une banque de données de corpus de parole en interaction enregistrées en

audio et en vidéo, développée depuis les années 2000 au laboratoire ICAR à Lyon et

mettant actuellement librement à disposition de la communauté scientifique 50 heures

de données interrogeables, 120 corpus transcrits, 30 heures de données

téléchargeables11. CLAPI peut être utilisé comme une archive de corpus, permettant

d’en identifier, sélectionner et consulter les données primaires et les données

secondaires, alignées sur le même timing, sur la base d’un riche jeu de métadonnées,

mais fonctionne surtout comme une banque de données permettant de formuler des

requêtes complexes, qui ont la particularité d’intégrer, au-delà des concordanciers

habituels, des requêtes combinant recherche de formes linguistiques et de

caractéristiques interactionnelles (par exemple : rechercher les occurrences de « non »

en début de tour, éventuellement précédées de « euh » et de pauses inter tours et

suivies d’un chevauchement par le tour de parole suivant) (voir Bert, Bruxelles,

Étienne, Jouin-Chardon, Lascar & Mondada, 2010, pour une présentation). Les requêtes

effectuées et leurs résultats peuvent être sauvegardés dans un espace de travail

personnalisé de l’usager.

16 [moca] est une plateforme12 qui permet d’administrer des corpus sous forme de fichiers

audio et vidéo, et d’importer des fichiers txt/doc, ainsi que Exmaralda, Praat ou ELAN.

Les corpus peuvent être recherchés et identifiés sur la base de métadonnées contenant

la caractérisation sociolinguistique des locuteurs et les conditions de recueil du corpus.

Des requêtes basées sur des suites de caractères permettent d’interroger les

transcriptions ; les résultats sont affichés sous la forme de fragments de transcriptions

dont le signal est consultable. La spécificité de cet outil est la visualisation des corpus

sur une représentation cartographique, permettant de capturer en un coup d’œil la

distribution géographique des données ; il permet des recherches complexes et offre

aussi la possibilité d’une annotation personnalisée des données par des labels et des

étiquettes que l’usager peut créer et qu’il peut ensuite regrouper et sauvegarder sous la

forme de sous-corpus (voir Ehmer & Martinez, 2014, pour une présentation).

17 Le projet CIEL a fait le choix de permettre la consultation de ses données par le biais de

ces deux interfaces : cela présente l’avantage de multiplier les possibilités quant à

l’interrogation des données par des outils ; de profiter de différentes interfaces selon

les préférences des usagers ; et d’exploiter les caractéristiques spécifiques des deux

plateformes – notamment les requêtes complexes orientées vers la linguistique

Corpus, 15 | 2016

86

Page 88: Corpus de français parlé et français parlé des corpus

interactionnelle de CLAPI, les possibilités d’annotations personnalisées de [moca]. Une

des conséquences de ce double choix est aussi une avancée dans la discussion –

aujourd’hui fondamentale – sur l’interopérabilité entre bases de données, grâce aux

efforts conjoints des informaticiens des deux équipes (Carole Étienne à Lyon et Daniel

Alcón à Freiburg).

4. Enjeux analytiques

18 La mise à disposition de corpus est un desideratum fort de la communauté scientifique ;

leur mise à disposition avec des outils de requête et d’interrogation potentialise ces

corpus et permet des analyses sur de grandes masses de données ; leur structuration –

dès la collecte – en un ensemble cohérent permettant différents types de comparaisons

représente un apport encore plus crucial. Sur ce dernier point, l’originalité et la valeur

du corpus CIEL-F est de mettre à disposition des données interrogeables de manière

outillée qui sont fondées sur une conception du terrain, des enregistrements, des

métadonnées et de l’architecture de la base de données, elle-même fondée sur la

comparaison. CIEL-F permet la comparaison au sein de la même activité

communicative, mais aussi entre activités communicatives (p. ex. : est-ce que voilà ou

donc sont utilisés de la même manière dans des conversations ordinaires et des

interactions professionnelles ? Apparemment cela n’est pas le cas… Groupe ICOR, 2009,

Pfänder & Skrovec, 2011), au sein de la même aire communicative mais aussi, et

surtout, entre aires communicatives. Ainsi, on peut se demander si une particule ou

une construction grammaticale donnée est utilisée de la même manière dans des aires

communicatives différentes (voir Skrovec & Pfänder, 2012). La comparaison outillée est

un des domaines les plus promettants de la recherche sur grands corpus – permettant

d’envisager de revisiter des hypothèses passées non suffisamment documentées

empiriquement ainsi que de formuler de nouvelles hypothèses et surtout de nouvelles

analyses empiriques, au-delà de ce que l’on a coutume de dire ou de croire concernant,

par exemple, la spécificité des variétés de français en Afrique ou la différence entre

français canadien et français métropolitain.

19 Dans ce qui suit, nous n’avons pas la prétention d’épuiser une analyse comparative en

quelques pages. Nous n’offrons que quelques pistes d’une analyse basée exclusivement

sur des données extraites de CIEL-F donnant un exemple de phénomènes et de

questions qu’il est possible d’envisager. L’exemple portera sur la forme là : elle présente

l’intérêt d’avoir été déjà étudiée dans une littérature substantielle et d’avoir été utilisée

pour illustrer la spécificité et les différences entre variétés du français (Italia, 2006, sur

là en français du Gabon ; Ludwig & Pfander, 2003, sur là en créole caribéen et en

français ; Ploog, 2006, sur là en français d’Abidjan, Queffélec et al., 1997, sur le français

en Centrafrique ; Ngamountsika, 2012, sur là en français du Congo ; Wiesmath, 2003, sur

là en acadien, Forget, 1989, Vincent, 1981, sur là en français du Canada – sans oublier les

travaux sur le français métropolitain, notamment de Barbéris, 1992) –, mais sans avoir

pu comparer directement le comportement de la forme dans des aires différentes.

20 Dans ce qui suit, nous nous penchons sur quelques variations, différences mais aussi

similarités que l’on peut repérer à propos des emplois de là dans le corpus CIEL-F.

Corpus, 15 | 2016

87

Page 89: Corpus de français parlé et français parlé des corpus

5. Là : des usages locatifs à la grammaticalisation enparticule

21 L’intérêt pour l’analyse d’une forme comme là est représenté par le fait qu’il est

possible de la trouver dans toutes les positions envisageables au fil des corpus : au

début, au milieu et à la fin de clauses comme de tours ; après des noms, des verbes, des

connecteurs et autres catégories ; sous la forme d’une seule occurrence ou de deux

occurrences répétées… La description fonctionnelle et catégorielle de la forme là

correspond à cette richesse positionnelle. La multiplicité des rôles de là a été

amplement soulignée par la littérature : là n’est pas uniquement un déictique mais a

subi une grammaticalisation en marqueur discursif (aussi appelé là de clôture, Barbéris,

1992). Ainsi, par exemple, la typologie proposée par Ludwig & Pfänder (2003 : 271-275 –

visant le français et le créole) identifie 5 types de là : spatial, démonstratif, situativo-

temporel, de structuration du discours antéposé et postposé. Ces 5 types, documentés

dans le corpus CIEL-F, montrent qu’il existe un continuum allant d’emplois plus

clairement spatiaux (c’est là, je vais là, ça et là) à des emplois où là perd son sens spatial

pour devenir une particule discursive (l’homme là qui est venu là tu le connais là) – en

passant par des emplois où le locatif devient davantage métaphorique et renvoie à un

positionnement temporel (arrête là) ou dans l’espace-temps du discours (qu’est-ce que

vous dites là ? je termine là).

22 Si l’on se penche sur le corpus CIEL et qu’on y recherche la forme là dans les différents

types d’activité et dans la pluralité des aires communicatives documentées, on constate

que ces emplois coexistent dans le temps et dans l’espace : dans un même fragment

d’interaction, on peut trouver des occurrences de là avec un sens premièrement spatial

et avec une fonction de structuration du discours. D’une part, à certains usages locatifs

peuvent se superposer des usages interactionnels – comme le montre l’usage de là

déictique avec un geste de pointage au service de l’auto-sélection (Mondada, 2007), au

service de la structuration de l’activité (Mondada, 2014) ou au service du renforcement

de la pertinence conditionnelle de la question (Mondada, à paraître). D’autre part, la

coexistence d’usages locatifs et d’usages de là grammaticalisé en particule peut amener

les locuteurs – s’orientant ainsi vers la grammaticalisation comme perte du sens

sémantique original – à adopter des stratégies de différenciation des deux types de

ressources pour continuer à exprimer la dimension spatiale de là.

23 Nous mentionnons ici trois faits qui montrent cette double orientation dans les

différentes aires du corpus.

24 La première évidence concerne l’occurrence de deux là successifs, comme dans les

exemples suivants :

(1) (CA_NB_REP_04)((en début d’enregistrement))KAT: on va commencer/ LÀ là\(2) (CA_QC_REP_01)A: on dirait qu- ils veulent pas qu’onconteste rien parce que il a été éLU-mais: tu sais ça s’arrête pas là là/(3) (BE_WBR_REP_02)PHI: ben: ils: rentrent chez eux/ hein tous les gens: qui ont un: certain âge/mais oui mais là LÀ c’était vraiment

Corpus, 15 | 2016

88

Page 90: Corpus de français parlé et français parlé des corpus

JEA: hmPHI: c’était quasi pousser les gens dehors/ quoi(4) (CI_ABJ_REP_02)TAN: [c’est quoi c’est quoi qui est] écrit là là/(0.9)MAB: quoi/TAN: mou(5) (FR_MZM)COR: là là c’est un projet on va dire c’est pour nous tesTER hein ça va être pour voir la qualiTÉ: euh: pour voir les délais: euh\ (.)ALI: d’a[ccord]

25 Comme ces exemples le montrent, là peut être dupliqué en début comme à la fin ou en

milieu de tour. Une analyse prosodique systématique serait nécessaire ici, ainsi qu’un

plus grand nombre d’occurrences pour tirer des conclusions sur des tendances

spécifiques aux variétés analysées ; toutefois ces exemples montrent qu’en français

d’Europe, du Canada et d’Afrique le double là est observable. La duplication semble

traiter le fait que le là particule structurant le discours ayant perdu sa dimension

spatiale, un autre là est utilisé pour référer à l’espace.

26 Une autre évidence concerne le fait que dans certaines variétés ce n’est plus là mais là-

bas qui est utilisé pour la référence spatiale, comme le montrent les exemples suivants,

où là-bas est positionné à la fin du tour ou de l’unité de construction du tour, position

souvent occupée par le là de structuration (cf. infra § 6.) :

(6) (TP-P-PRO-01)LOC: donc il va faire le feu là-bas(0.5) LOC: comme ça y aura la chaleur- la fumée: qui va chasser les- cespetits insectes-là(7) (SN_DK_REP_01)A: [il est ici//]B: [cela est sûr\] lui aussi:/ il est(en train) de célébrerle mariage là-bas(8) (CI_ABJ_REP_02)A: la semaine (0.4) dernière hein/ dixjours aujourd’hui (0.4)il y a eu un crash là-bas(1.0)A: et puis [aujourd’hui [encore y a y a xxxx(9) (CM_DLA_REP-01)A: c’est elle qui venait là-bas chaquematin/ là

27 Dans le dernier exemple, là-bas est utilisé au sein du tour pour la référence spatiale,

alors que là est utilisé à la fin du tour comme particule.

28 La troisième évidence est offerte par l’analyse multimodale – exploitant cette fois le fait

que le corpus CIEL-F comprend aussi quelques données vidéo (bien qu’encore trop peu).

Ainsi, dans l’extrait suivant, différentes formes de là sont utilisées. Le locuteur les

Corpus, 15 | 2016

89

Page 91: Corpus de français parlé et français parlé des corpus

différencie en utilisant ou non des gestes l’accompagnant – ce qu’il fait pour le là

spatial, alors qu’il ne le fait pas pour le là grammaticalisé en particule :

(10) FR_LIO1 ROG: .h parce que tu vois moi y en a un 2 ou deux/ qui m’ont demanDÉ/ euh: sur 3 les questions de réglementation:/ (0.3)4 .h d’avoir aussi/ (.) euh:: les textes/ 5 et des fois la discussion autour du 6 texte/ et la compréhension du texte 7 (0.3)8 ROG: .h9 BER: [ouais] 10 ROG: [et je] me dis que le- du coup le11 → petit: texte *là #(0.4) .h* qu’on a *paume latérale*fig #fig.112 mis dans la pochette/ l’arrêté du13 vingt-deux juin avec rénovation BAFA14 B A F D/ (0.3) .h au MOINS repren-15 en reprenant la partie animateur

Fig. 1

16 euh::(0.4) .h [euh:m:]17 BER: [ils l’ont/ la] 18 partie [animateur/19 ROG: [ouais ouais] ouais y- je 20 → leur ai mis [la com]plète là# fig #fig.221 BER: [d’accord]

Corpus, 15 | 2016

90

Page 92: Corpus de français parlé et français parlé des corpus

Fig. 2

((6 lignes omises))28 ROG: et j- et avec le TExte/ ça peut être29 → pas mal de faire cet exercice-là (0.5)30 parce que ça fait à la fois une 31 compréhension un peu: d’un texte32 de loi/33 (0.7)34 BER: ouais [ouais]35 ROG: → [et puis] euh:: c’est celui-là36 (0.8)37 BER: ouais c- enfin c’est vraiment celui/ 38 que j’ai en tête hein39 (1.6)40 ROG: → c’est l’arrêté du vingt-deux juin °là°#fig fig.3#

Fig. 3

29 Dans cet extrait, plusieurs occurrences de là sont observables : lignes 8-9 ROG

mentionne à nouveau (cf. le début de l’extrait) ce petit texte là et fait un geste co-

occurrent avec la forme là (Fig. 1), qui en souligne le caractère spatial et référentiel.

Plus loin quand, en réponse à la question de BER, ROG dit je leur ai mis la complète là

(14-15) il ne fait en revanche aucun geste (à ce moment-là il est en train de commencer

à se tourner vers ses dossiers, Fig. 2). Les occurrences de là avec démonstratif (23, 27)

ne sont pas non plus accompagnées de gestes. Le dernier là est produit avec une voix

faible, donc minimisé vocalement, pendant que ROG est tourné vers ses dossiers : là

aussi il ne fait aucun geste. Ainsi on peut remarquer que quand là est spatial (9), il est

accompagné d’un geste ; quand il va de pair avec un démonstratif (cet exercice.là 23,

celui-là 27) le geste n’est pas nécessaire, le là étant désambiguïsé par le démonstratif qui

Corpus, 15 | 2016

91

Page 93: Corpus de français parlé et français parlé des corpus

le précède ; quand il s’apparente davantage à une particule discursive (14-15, 31), il

n’est pas accompagné de gestes et est produit pendant que le corps du locuteur est

occupé à d’autres mouvements, comme se tourner, chercher des documents, etc. Ainsi,

sur la base d’observations préliminaires, il devient possible d’explorer la distinction

entre deux catégories, et la grammaticalisation en prenant en compte la gestualité – et

plus globalement la multimodalité – comme critère (et surtout ressource pour les

participants) supplémentaire permettant de distinguer différentes formes (telles que

traitées par les locuteurs).

30 Plus globalement, ces exemples montrent que le corpus permet d’observer non

seulement une pluralité d’emplois de là mais aussi la manière dont les locuteurs

traitent cette diversification et, si nécessaire, opèrent des différenciations dans le choix

local des ressources utilisées.

6. Là de structuration

31 La particule là grammaticalisée en marqueur de structuration occupe deux positions

majeures : d’une part elle peut être antéposée, d’autre part elle peut être postposée en

fin de clause.

32 Les cas de là antéposé, en début de clause, sont souvent précédés de connecteurs : parce

que là est relevé partout, mais plus fréquemment en France, Nouveau-Brunswick et

Congo ; après là est attesté en Côte d’Ivoire, en Belgique, Cameroun et France ; alors que

donc là et mais là sont repérables dans toutes les zones, et tout particulièrement en

France et en Belgique. De ce point de vue il ne semble pas que ce format puisse

différencier substantiellement des zones – même si des quantifications seraient là

nécessaires.

33 Le là postposé, fonctionnant comme particule discursive, a été identifié sous différentes

catégories en français – dénommé là d’actualisation (Quéffelec et al., 2997 ;

Ngamountsika, 2012) ou là de clôture (Barberis, 1992). Ces cas de là finaux sont fréquents

dans toutes les zones.

34 Mais leur distribution syntaxique varie.

35 Dans les français d’Europe, on constate que le là final est souvent précédé d’un

syntagme nominal qui peut avoir différentes portées possibles (cf. Barbéris, 1992) :

(11) (FR_PAR_AUT_02)A: alors vous z- vous m’appelez/ euh le quatuor là/(12) (BE_LGG_REP_01)A: j’ouvre un peu de lasagne làB: oui(13) (FR_LIO_REP_03)A: je vais prendre euh: les trucs là

36 Dans ces cas, le là final peut soit clôturer la totalité de la clause, soit le syntagme

nominal final, de manière analogue à un format de là répandu dans toutes les aires,

le_N_là (voir infra, § 7.).

37 En revanche, au Canada, il est précédé de constructions beaucoup plus diversifiées, et

souvent par des syntagmes verbaux. En voici quelques exemples :

(14) (CA_QC_REP_01)1 A: ils ont un- au moins ils ont une

Corpus, 15 | 2016

92

Page 94: Corpus de français parlé et français parlé des corpus

2 logique qui se tient jusqu’au bout/ là((…))10 A: on laisserait ça se faire mais 11 il a [été élu démocratiquement/]12 B: [m ça a pas d’allure là](15) (CA_QC_REP_02)A: euh: ils t’expliquent pourquoi là/(16) (CA_QC_REP_02)A: fait qu’Audrey aime plus ou moins hça\ là(17) (CA_NS_PRO_01)A: ils passent c’est la fin de semaineils passent sus- sus le numéro un poi::nt vite là(18) (CA_NB_RAD_04)A: c’est un bon violon de marque euhSkylark (0.2) puis euh::: en très bon état puis ça vient avec une case dure/ là

38 Dans ces cas, le là clôture la clause tout entière et pas uniquement le dernier syntagme.

En outre, le sens spatial est estompé – devenant de plus en plus abstrait et

métaphorique – pour se grammaticaliser : là indique la complétion du tour.

39 Ce rôle structurant de là est visible dans un autre type de construction, la relative, qu’il

clôt à droite. Ce phénomène a précédemment été décrit à propos de la relative

restrictive dans les créoles caribéens (Ludwig & Pfänder, 2003). Dans le corpus CIEL, on

le retrouve dans de nombreux autres aires et notamment au Cameroun. En voici deux

exemples :

(19) (CM_YAO_PRO_02)DAM: on compose du vingt-et-un (0.8)<((ralenti)) au vingt-quatre mai:/> (1.5) DAM: OUI vingt-un vingt-trois mai (0.4)et puis on a: la semaine qui SUIT là(20) (CM_YAO_PRO_02)GAB: oui: au moins// ils ont un-] au moinsils ont une logique [qui se tientjusqu’au bout/ là

40 On remarquera aussi que cette parenthèse droite d’une relative N + qui… là, l’élément

sur lequel porte la relative peut être lui-même marqué par là (dans le format le/

mon_N_là) :

(21) (CM_DLA_REP_01)JOL: après elle vient me suivre elle medit que bon: mon gars là qui veut te voir là/ bon dis à ton gars que:

7. Rendements interactionnels

41 Le format le/mon_N_là peut avoir un rendement interactionnel qui a été identifié dans

la littérature en termes génériques, en invoquant le marquage d’un common ground : là

ferait référence à un élément du savoir partagé et cela lui aurait valu la catégorisation

de là « de connivence » (Ludwig & Pfänder, 2003 : 272). Si cette description renvoie à

Corpus, 15 | 2016

93

Page 95: Corpus de français parlé et français parlé des corpus

une intuition globale interprétant le là comme pointant vers la mémoire discursive des

interlocuteurs, une description interactionnelle permet de mieux en préciser les

enjeux, moins en termes cognitifs qu’en termes de pratiques interactionnelles par

lesquelles l’intersubjectivité est constamment travaillée et retravaillée par les

interlocuteurs (Schegloff, 1992 ; Drew, 1995, Heritage, 2007).

42 Si l’on se tourne vers des occurrences en interaction, on constate ainsi que le caractère

partagé d’un savoir ou d’une référence n’est jamais totalement acquis au fil de

l’interaction, mais est constamment vérifié, rappelé, ré-établi, voire établi comme tel

lorsqu’il ne va pas de soi pour les interactants (voir p. ex. : Schegloff, 1996 ; Ford & Fox,

1996, à propos de la référence aux personnes). Cela est visible dans des usages de

le_N_là dans des environnements où le locuteur est visiblement engagé dans un travail

d’établissement du référent et de son caractère reconnaissable. Ce travail s’implémente

dans différentes pratiques.

43 Cela peut prendre la forme, par exemple, de recherches de mots, dans lesquelles le

locuteur cherche et construit graduellement la bonne formulation :

(22) (CM_DLA_REP_01)A: au fait j’ai mon: (.) .h l’ami demon: (.) mon gars là qui veut te voir là

44 Ici, le locuteur commence la formulation de la personne dont il est question par mon:,

dont l’allongement final et la pause successive montrent qu’il y a un problème, suivi

non pas du nom projeté mais d’un nouveau syntagme, l’ami de mon:, à nouveau allongé

et suivi de pause, finalement suivi de la formulation trouvée, mon gars là, produite sans

hésitation et suivie de la continuation du tour.

45 Cela peut aussi prendre la forme d’une recherche de formulation qui est davantage

orientée vers l’autre, vers l’interlocuteur – dont la non-réponse éventuelle peut

manifester la non-reconnaissance du référent. En voici un exemple :

(23) (CM_DLA_REP-01)1 A: j’ai ma petite copine là2 (0.4)3 A: tu connais ma copine là4 (0.4)5 A: la nièce de Depuis là/ 6 la plus petite là7 (0.4)8 B: ouais9 A: hum c’est ma copine là-bas/ 10 c’est elle qui

46 Dans ce cas, A mentionne une première fois ma copine là (1). L’interlocutrice ne répond

pas (2). A procède par conséquent en vérifiant explicitement son savoir (tu connais 3).

Mais B ne répond toujours pas (4). A poursuit en ajoutant des spécifications – toujours

sans réponse de l’interlocutrice (6), alors qu’en cette position séquentielle serait

attendu un marqueur de changement d’état (comme par exemple ah Heritage, 1984). B

ne produit un ouais que plus tardivement (7). Il est significatif que suite à cette réponse,

A peut continuer dans la progression de son histoire, en faisant référence cette fois à

ma copine là-bas (8) en utilisant un locatif qui est formellement distinct du déictique là

(cf. supra). Ici les SN marqués par là sont utilisés dans un environnement où il y a

absence de reconnaissance manifestée par le travail de formulation orienté vers cette

reconnaissance par le locuteur.

Corpus, 15 | 2016

94

Page 96: Corpus de français parlé et français parlé des corpus

47 Le locuteur peut aussi avoir recours à ces deux pratiques – recherche de mot et

recherche d’une formulation qui correspondent au savoir de l’interlocuteur –

ensemble, comme ici :

(24) (BF_OUA_PRO_01)1 A: TElecel/ tu- tu connais la chargée2 de communication non/3 (.)4 B: non/ eh:/ chose- (.) la fille de:5 Alpha là/6 (.)7 A: Alpha là: 8 B: je la connais pas per(so) c’est 9 beaucoup plus Soufo que 10 je connais:/

48 Dans ce cas, B ne répond pas immédiatement (2) à la question de A mentionnant la

chargée de communication (1), tout en s’engageant ensuite dans une recherche du nom

de cette personne, accompagnée par là (3). A confirme (5) tout en continuant à

s’orienter vers le fait que la référence personnelle n’est pas complètement assurée,

comme le montre le là. La réponse finale montre une forme de reconnaissance partielle

qui confirme que des problèmes d’identification se posaient précédemment et que les

interlocuteurs sont aux prises avec un problème d’établissement graduel de la

référence et du savoir partagé.

49 Ainsi, le tour suivant le là peut manifester soit la non-reconnaissance (comme dans les

cas précédents), poussant le locuteur à développer et à spécifier la référence, soit la

reconnaissance et donc l’existence d’un savoir partagé, comme dans l’extrait suivant :

(25) (CM_YAO_REP_02)1 A: bon (.) c’est quand même à un niveau: 2 (.) c’est [pas comme les bacheLIERS là3 B: [oui/ c’est:/ c’est pas comme4 les bacheliers/

50 Dans cet extrait, A utilise le format le_N_là. Son interlocuteur, B, montre qu’il s’oriente

vers cette référence comme faisant appel à un savoir commun : il manifeste sa

reconnaissance, non seulement par le token oui, non seulement en répétant la même

forme (sans là, puisque la référence est maintenant établie comme partagée), mais aussi

en le faisant très tôt, en chevauchement.

51 De ce point de vue, le placement d’une réponse en oui/ouais après le format le_N_là est

récurrent et montre le même phénomène à l’œuvre :

(26) (CI_ABJ_PRO_01)A: va prendre les parents de les amis-euh l- de l’apprenti làB: ouais(27) (SN_DK_AUT_01)A: donc/ (.) si j’ai mis/ jau:ne\ (0.5) j’ai mis parce que: y en a plus là-bas\(2.8) A: tu as vu les/ couleurs\ (.) là/ B: ouais(28) (CM_YAO_AUT_04)1 A: dès que je donne la dot là2 B: ouais3 A: je leur dis que moi (.) je n’ai

Corpus, 15 | 2016

95

Page 97: Corpus de français parlé et français parlé des corpus

4 plus <((en riant)) l’argent 5 pour le mariage/>

52 Dans ce cas, le fait que l’interlocuteur réponde par ouais juste après le SN suivi de là

montre l’orientation des deux participants vers l’établissement du référent. Dans le

dernier exemple il est clair que cela est traité comme une condition pour que le récit

puisse progresser (3-4).

53 Ce caractère partagé et reconnu du référent rend aussi possibles des énoncés

collaboratifs, comme dans les extraits suivants – l’un enregistré au Cameroun, et l’autre

au Canada :

(29) (CM_YAO_AUT_04)1 SAM: dès que je je je sais sais que 2 [dès que je (.) je donne] la dot là=3 LOU: [c’est tout ce qu’elle attend]4 PAB: =ils sauront que tu as les moyens(30) (CA_NB_REP_04)1 LEO: tu sais ce qui est plus scary 2 dans les films c’est la musique\ 3 SI y avait pas la musique là:4 KAT: on aurait pas/ ben peur

54 Dans le premier cas, le caractère partagé de ce dont il est question est visible dans le

chevauchement de LOU (3) qui effectue une première complétion collaborative. Mais

celle qui nous intéresse est la seconde, par PAB qui enchaîne sur la fin de la ligne 2,

exhibant par là que la dot est un référent acquis.

55 L’observation détaillée de là dans son interactionnel permet ainsi de mieux comprendre

plusieurs de ses fonctionnements, tel qu’il est non seulement décrit par le linguiste,

mais exhibé par le comportement des locuteurs eux-mêmes.

8. Conclusion

56 Cet article a poursuivi un double objectif : d’une part, présenter le projet CIEL et le

corpus qui en a résulté, avec une emphase particulière sur les choix effectués dans sa

constitution ; d’autre part, proposer un exemple d’analyse exploitant les potentialités

comparatives de la base de données, à propos d’une forme polyfonctionnelle du

français, là.

57 L’analyse montre l’importance de pouvoir soumettre aux mêmes interrogations des

occurrences d’une forme – mais aussi, dans une perspective plus ample, des

constructions, des actions, des types de séquences, des types de formats, etc. – dans

différentes aires documentées de manière similaire. L’accès à des données similaires

pour des aires communicatives différentes permet non seulement d’explorer des

similarités et des différences entre variétés ; il permet une forme de symétrie et

d’égalité entre ces variétés. Ce dernier point est inédit et permet, par exemple, d’éviter

des affirmations telles que ‘tel usage n’existe pas dans telle variété’ aussi bien que ‘tel

usage est typique de telle variété’, souvent effectuées en absence de corpus comparatifs

permettant de resituer la variété étudiée parmi d’autres. Cela permet par là-même de

relativiser à la fois l’‘exotisme’ de certaines variétés et la ‘familiarité’ du français

métropolitain : un corpus comparé permet une re-symétrisation et une relativisation

des images que les linguistes se font de ces usages. De même, les explorations dans le

corpus permettent de nuancer ce qui pourrait être globalement imputé au français ‘en

Corpus, 15 | 2016

96

Page 98: Corpus de français parlé et français parlé des corpus

Afrique’ ou ‘au Canada’ : une base comparée permet de distinguer des tendances entre

zones. Ces remarques ouvrent aussi des perspectives et des défis nouveaux, notamment

l’intérêt de procéder à des quantifications des occurrences et d’interroger les

conditions d’une analyse statistique. Pour cela le corpus CIEL, tout aussi important soit-

il, peut ne pas être suffisamment vaste, notamment en ce qui concerne des phénomènes

moins fréquents. En outre, la question de la quantification ne devrait pas faire oublier

l’importance de bien définir à la fois les phénomènes visés et les phénomènes

alternatifs observables dans les mêmes environnements – sans quoi la quantification

n’a pas de sens (Schegloff, 1993). Cette exigence naît aussi d’une caractéristique

majeure du corpus, qui est de mettre à disposition des environnements interactionnels

pour l’étude des phénomènes linguistiques, permettant une analyse qui ne se limite pas

à la clause ou au discours mais qui intègre fondamentalement les principes de

l’interaction sociale. La variété des formes comme des usages naissent des pratiques des

locuteurs et de leurs orientations vers des finalités communicatives spécifiques ; la

langue est constamment façonnée et refaçonnée par eux de manière située et ajustée

aux conditions interactionnelles. Cela permet, grâce à des données écologiques,

documentant des activités sociales telles qu’elles se déroulent de manière routinière

dans leur contexte ordinaire, de penser une linguistique qui réponde à la fois aux défis

de la description grammaticale, de la caractérisation sociolinguistique et de l’étude de

l’organisation séquentielle et temporelle de l’interaction sociale.

BIBLIOGRAPHIE

Barbéris J.-M. (1992). « Un emploi déictique propre à l’oral : le là de clôture », in M.A. Morel &

L. Danon-Boileau (éd.) La Deixis. Paris : PUF, 567-578.

Bert M., Bruxelles S., Étienne C., Jouin-Chardon E., Lascar J. & Mondada L. (2010). « Grands corpus

et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus

CIEL) », Pratiques 147-148 : 17-34.

Dister A., Gadet F., Ludwig R., Lyche C., Mondada L., Pfänder S., Simon A.C. & Skattum I. (2008).

« Deux nouveaux corpus internationaux du français : CIEL-F (Corpus international et écologique

de la langue française) et CFA (Français contemporain en Afrique et dans l’Océan Indien) », Revue

de linguistique romane 285/286 : 295-314.

Drew P. (1995). « Conversation analysis : the sequential analysis of intersubjectivity in

conversation », in J. Smith, R. Harré, L. V. Langenhove & P. Stearns (éd.) Rethinking Psychology. Vol.

2 : Alternative Methodologies. London : Sage.

Ehmer O. & Martinez C. (2014). « Creating a multimodal corpus of spoken world French », in

S. Ruhi, M. Haugh, T. Schmidt & K. Wörner (éd.) Best Practices for Spoken Corpora in Linguistic

Research, Newcastle : Cambridge Scholars Publishing, 142-161.

Ford C. E. & Fox B. A. (1996). « Interactional motivation for reference formulation : he had. This

guy had, a beautiful, thirty-two O:lds », in B. Fox (éd.) Studies in Anaphora. Amsterdam : Benjamins.

Corpus, 15 | 2016

97

Page 99: Corpus de français parlé et français parlé des corpus

Forget D. (1989). « Là : un marqueur de pertinence discursive », Revue québécoise de linguistique 18

(1) : 57-83.

Gadet F., Ludwig R., & Pfänder S. (2009). « Francophonie et typologie des situations », Cahiers de

linguistique 34 (1) : 143-162.

Gadet F., Ludwig R., Mondada L., Pfänder S. & Simon A.-C. (2012). « Un grand corpus de français

parlé : le CIEL-F Choix épistémologiques et réalisations empiriques », Revue française de linguistique

appliquée XVII/1 : 39-54.

Groupe ICOR (2009). « Exploitation de la plateforme CLAPI : Le cas de voilà dans les

chevauchements », Cahiers de linguistique 33/2 : 243-268.

Groupe ICOR. (2010). « Grands corpus et linguistique outillée pour l’étude du français en

interaction (plateforme CLAPI et corpus CIEL) », Pratiques 147-148 : 17-34.

Gumperz, J. (1982). Discourse Strategies. Cambridge : CUP.

Haugen E. (1972). « The ecology of language », in A. S. Dil (éd.) The Ecology of language : Essays by

Einar Haugen. Stanford : Stanford University Press, 325-339.

Heritage H. (2007). « Intersubjectivity and progressivity in person (and place) reference », in

N. J. Enfield & S. Levinson (éd.) Person Reference in Interaction : Linguistic, Cultural, and Social

Perspectives. Cambridge : Cambridge University Press, 255-280.

Heritage J. C. (1984). « A change-of-state token and aspects of its sequential placement », in

J. M. Atkinson & J. Heritage (éd.) Structures of Social Action. Cambridge : Cambridge University

Press, 299-345.

Italia M. (2006). « Le morphème là dans les variétés mésolectales et basilectales en français du

Gabon », Le français en Afrique 21 : 281-290.

Levinson S. (1979). « Activity types and language », Linguistics 17 : 365-399.

Ludwig R. & Pfänder S. (2003). « La particule là/la en français oral et en créole caribéen :

grammaticalisation et contact de langues », in S. Kriegel et al. (éd.) Grammaticalisation et analyse.

Approches de la variation créole et française. Paris : Éditions CNRS, 269-284.

Ludwig R., Mühlhäusler P. & Pagel S. (éd.) (in press). Linguistic Ecology and Language Contact.

Cambridge : Cambridge University Press.

Mondada L. (2007). « Multimodal resources for turn-taking : Pointing and the emergence of

possible next speakers », Discourse Studies 9, 2 : 195-226.

Mondada L. (2011). « Exigences analytiques pour l’enregistrement de la parole-en-interaction »,

Version 3.0.2. http://cielf.org/assets/files/Enregistrer_protocole_Mondada.pdf (consulté le

18.2.2015).

Mondada L. (2012). « The conversation analytic approach to data collection », in J. Sidnell &

T. Stivers (éd.) Handbook of Conversation Analysis. Oxford : Blackwell-Wiley.

Mondada L. (2013). « Displaying, contesting, and negotiating epistemic authorities in social

interaction », Discourse Studies 15 : 597-626.

Mondada L. (à paraître). « Conversation analysis », in E. Weigand (éd.) Language and Dialogue : A

Handbook of Key Issues in the Field.

Ngamountsika, E. (2012). « Analyse morphosyntaxique du morphème là en français parlé en

République du Congo », Revue du français en Afrique, 189-199.

Corpus, 15 | 2016

98

Page 100: Corpus de français parlé et français parlé des corpus

Ochs E. (1979). « Transcription as theory », in E. Ochs & B. Schiefflin (éd.) Developmmental

Pragmatics. New York : Academic Press.

Pfänder S. & Skrovec M. (2011). « Donc, entre grammaire et discours. Pour une reprise de la

recherche sur les universaux de la langue parlée à partir de nouveaux corpus », in M. Drescher &

I. Neumann-Holzschuh (éd.) Syntaxe de l’oral dans les variétés non hexagonales du français. Tübingen :

Stauffenburg Verlag.

Ploog K. (2006). « Du continuum pragmatico-sémantique aux caractéristiques prosodiques de là

en français abidjanais », Le français en Afrique 21 : 303-323.

Queffélec A. et al. (1997). Le français en Centrafrique : Lexique et société. Paris : Vanves-Edicef.

Sacks H. (1972). « An initial investigation of the usability of conversational materials for doing

sociology », in D. Sudnow (éd.) Studies in Social Interaction. New York : Free Press, 31-74.

Schegloff E. A. (1992). « Repair after next turn : the last structurally provided for place for the

defence of intersubjectivity in conversation », American Journal of Sociology 95 (5) : 1295-1345.

Schegloff E. A. (1993). « Reflections on quantification in the study of conversation », Research on

Language and Social Interaction 26 (1) : 99-128.

Schegloff E. A. (1996). « Some practices for referring to persons in talk-in-interaction : a partial

sketch of a systematics », in B. Fox (éd.) Studies in Anaphora. Amsterdam : Benjamins, 437-485.

Simon A. C., Gadet F., Ludwig R., Mondada L., Pfänder S. & Skrovec, M. (2012). Conventions de

transcription CIEL-F, Version 4.7. http://ciel-f.org/assets/files/conventions_ciel-f.pdf (consulté le

18.2.2015).

Skrovec M. & Pfänder S. (2012). « Rhétorique ordinaire et tâches communicatives : convergences

et divergences dans des entretiens médiatisés d’experts africains et français », Le français en

Afrique, 93-107.

Vincent D. (1981). « C’est ici ou là ? C’est ici là », in D. Sankoff & H. Cedergren (dir.) Variation

Omnibus. Edmonton : Linguistic Research Inc., 437-444.

Wiesmath R. (2003). « La particule là dans le parler acadien du Nouveau-Brunswick / Canada », in

S. Kriegel (éd.) Grammaticalisation et réanalyse. Approches de la variation créole et française. Paris :

Éditions CNRS, 284-302.

NOTES

1. http://www.projet-pfc.net

2. http://www.lll.cnrs.fr/eslo-1

3. http://clapi.ish-lyon.cnrs.fr

4. http://www.uclouvain.be/81834.html

5. http://www.ciel-f.org

6. Co-financement par l’ANR en France (ANR-08-FASHS-004) et la DFG en Allemagne (2009-2012 ;

Pf 699/1-1 ; Lu 529/3-1).

7. http://clapi.ish-lyon.cnrs.fr

8. http://moca.phil2.uni-freiburg.de et http://www.uclouvain.be/260466.html

9. Les collaborateurs sont mentionnés dans le site du projet : http://www.ciel-f.org/qui. Sans

eux le corpus dans sa richesse et sa diversité n’aurait pas pu voir le jour.

10. http://www.fon.hum.uva.nl/praat/

11. Ces chiffres renvoient à l’année 2014, voir http://clapi.ish-lyon.cnrs.fr consulté le 18.2.2015.

Corpus, 15 | 2016

99

Page 101: Corpus de français parlé et français parlé des corpus

12. Voir http://moca.phil2.uni-freiburg.de.

RÉSUMÉS

Cet article présente le travail de constitution du Corpus International Écologique de la Langue

Française (CIEL-F) et ses caractéristiques. Conçu pour mettre à disposition des corpus de données

interactionnelles récoltées dans des contextes ordinaires, professionnels et institutionnels

authentiques, et afin de promouvoir la recherche comparée sur le français parlé, le corpus CIEL-F

comporte des enregistrements effectués en Algérie, Antilles françaises, Belgique, Burkina Faso,

Cameroun, Canada, Congo, Côte d’Ivoire, Egypte, France, Inde, La Réunion, Maurice, Sénégal,

Suisse et Togo. Dans la première partie, l’article présente les défis et les enjeux de ce type de

corpus. Dans la deuxième partie, l’article offre un exemple d’exploitation de ces données, en se

penchant sur différents usages de là, allant de l’emploi déictique locatif à des emplois qui

relèvent davantage de la particule discursive grammaticalisée. L’analyse propose quelques

remarques sur la distribution de ces emplois de là dans différentes aires communicatives et des

réflexions sur les possibilités ouvertes par une approche comparative au sein du français parlé

dans le monde.

This paper describes the conception and constitution of the International Ecological Corpus of

French (Corpus International Écologique de la Langue Française CIEL-F). This corpus has been

gathered and set up in a data bank in order to make available to the scientific community

interactional data collected in ordinary, professional and institutional contexts. The aim is to

make possible and promote comparative analysis of spoken French. Data were recorded in

Algeria, the French Antillean islands, Belgium, Burkina Faso, Cameroun, Canada, Congo, Ivory

Cost, Egypt, France, India, La Réunion, Maurice, Senegal, Switzerland and Togo. In the first part

of the article, we present the issues and challenges of such a corpus. In the second part of the

article, we offer an example of exploitation of the data bank. More particularly, we study some

usages of the form là, which can be used as a locative deictic but also in more metaphorical way

as well as a fully grammaticalized discourse particle. The analysis shows the way different usages

are distributed in various communicative areas and proposes some thoughts about possibilities

and limitations of comparative analyses of French as it is talked across the world.

INDEX

Mots-clés : français parlé, corpus, enregistrement, écologie, interaction sociale, analyse

comparée, là, deixis, particule discursive, grammaticalisation

Keywords : spoken french, corpus, recording, ecology, social interaction, comparative analysis,

là, deixis, discourse particle, grammaticalization

AUTEURS

LORENZA MONDADA

UMR ICAR Lyon & Université de Bâle

Corpus, 15 | 2016

100

Page 102: Corpus de français parlé et français parlé des corpus

STEFAN PFÄNDER

Université de Freiburg-im-Breisgau

Corpus, 15 | 2016

101

Page 103: Corpus de français parlé et français parlé des corpus

CLAPI, une base de donnéesmultimodale pour la parole eninteraction : apports et dilemmesCLAPI, a multimodal database for talk in interaction: contributions and

dilemmas

H. Baldauf-Quilliatre, I. Colón de Carvajal, C. Etienne, E. Jouin-Chardon, S.Teston-Bonnard et V. Traverso

1 Il est intéressant et possible, aujourd’hui, de mettre en perspective l’évolution des bases

de données de langues parlées en France au cours des trente dernières années. Dans cet

article, nous présentons le développement de la base de données CLAPI dans ce cadre.

Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue parlée en

interaction, audio et vidéo, enregistrés dans des situations sociales naturelles variées,

et la plateforme d’outils. Nous montrons aussi comment la base peut être utilisée pour

des études de linguistique interactionnelle à travers l’étude de « oh là là » et des usages

de « trop » dans des contextes variés. Au cours de cette présentation, nous formulons

quelques-uns des dilemmes auxquels nous sommes aujourd’hui confrontés dans les

relations entre la poursuite des recherches sur des corpus variés (et parfois sensibles)

et les exigences des bases de données ouvertes.

1. La base CLAPI et son contexte

2 La base de données CLAPI, Corpus de LAngue Parlée en Interaction a été lancée, à la fin

des années 90, pour archiver et préserver les corpus qui étaient régulièrement faits

dans le cadre des recherches sur l’interaction au laboratoire ICAR. Dès l’origine

(1998-1999), la base a été pensée avec un triple objectif, qu’elle conserve toujours

aujourd’hui (voir Bruxelles & Traverso, 2003). Elle s’est transformée au fil du temps

pour devenir une plateforme outillée.

Corpus, 15 | 2016

102

Page 104: Corpus de français parlé et français parlé des corpus

1.1 Objectifs de la base CLAPI

1.1.1 Une dimension « Patrimoine »

3 Sur ce plan, le développement et l’évolution de la base de données CLAPI sont

représentatifs de la situation générale à au moins deux niveaux.

4 D’une part sur le plan de la réalisation d’une banque de données sauvegardant et

mettant à disposition les corpus existants. Cet objectif a impliqué un important travail

de recensement et de localisation des données, du fait qu’elles n’étaient jusque-là pas

centralisées ni rendues disponibles à la fin d’une recherche. Les choses ont bien changé,

depuis, des routines se sont mises en place, et la base héberge les corpus qui sont

régulièrement réalisés, selon des standards qui ont été élaborés au cours du temps (voir

ci-dessous). Ce processus est symptomatique des évolutions qui ont eu lieu au cours de

la vingtaine d’années écoulée depuis le début de la conception de la base CLAPI.

L’importance accordée aux corpus dans le champ scientifique (comme en témoignent

les programmes de l’ANR qui y ont été consacrés) s’est démultipliée. Parmi les

conséquences de cette évolution : l’attention plus grande portée à la collecte des

données primaires et à la confection des corpus (transcription, organisation, etc., voir

le site CORINTE1), la mise en place progressive de standards dans les manières de faire

non seulement en informatique, avec le développement de la TEI au niveau

international, par exemple, mais dans toutes les procédures conduisant à la réalisation

des corpus (filmage, numérisation, transcription, etc.). L’archive de la base CLAPI

conserve des traces de ce cheminement, avec des corpus historiques, et des corpus

récents réalisés selon ces nouveaux standards.

5 D’autre part, les données hébergées dans CLAPI illustrent une très importante partie de

l’histoire et du développement du champ d’analyse de l’interaction en France (voir

Traverso, 2012b, Traverso et al., 2012). Sont ainsi hébergés des corpus qui ont été

réalisés par des chercheurs comme Bange, de Gaulmyn, Cosnier, Kerbrat-Orecchioni,

Plantin, Bruxelles, Traverso, Grosjean, Mondada.

6 La constitution de l’importante archive de CLAPI (environ 600 heures) a impliqué un

conséquent travail de sélection (selon des critères de qualité et juridiques) et

d’organisation des données, comme la définition des entités « corpus »,

« interactions », « fonds », l’organisation des données primaires et des données

secondaires, etc. (voir Balthasar & Bert, 2005). Sur le plan technique, cette réalisation a

nécessité un important travail de numérisation (avec les choix techniques que cela

entraîne) pour les enregistrements audio ou vidéo, qui existaient sur des supports

extrêmement variés, aussi bien que pour les documents papier (données secondaires).

7 Un des problèmes majeurs qui s’est posé dans cette période concerne l’hétérogénéité

des transcriptions, qui tenait à différents facteurs : l’utilisation de différentes

conventions de transcription, la transcription partielle de certains phénomènes, de

certains passages, les différents niveaux de granularité attestés, l’utilisation de

différents logiciels de transcription (principalement CLAN, Praat et ELAN). La solution

retenue conserve la transcription d’origine sans retranscription, dans le respect du

travail effectué par le transcripteur, mais opère des modifications mineures qui sont

consignées dans une version de la transcription « adaptée clapi », afin de résoudre des

problèmes techniques comme l’utilisation d’un même signe pour des annotations

différentes. Une procédure informatique transforme les annotations en balisages XML

Corpus, 15 | 2016

103

Page 105: Corpus de français parlé et français parlé des corpus

qui sont utilisés par les outils de CLAPI pour traiter toutes les transcriptions quelle que

soit leur convention, leur niveau de granularité ou leur format d’origine. Notre solution

repose pour cela sur un processus qualité semi-automatique dans lequel l’équipe

médiathèque intervient pour identifier et vérifier la convention fournie par le

responsable puis détecter et corriger les anomalies. Ceci garantit la qualité des

transcriptions présentes à ce jour dans la base, même si le volume actuel ne permet pas

de corriger toutes les erreurs. Le responsable de corpus valide le choix des

métadonnées et l’affichage des transcriptions avant que l’ensemble soit rendu

disponible dans CLAPI.

1.1.2 Une dimension « Partage »

8 Sur ce plan, CLAPI entend faciliter la réalisation de recherches dans le domaine de

l’interaction ou d’autres approches en linguistique en permettant aux chercheurs

d’accéder à des données « toutes faites ». La mise à disposition des corpus

s’accompagne :

– des descripteurs (75 métadonnées) ;

– du signal audio ou vidéo : en totalité, parfois uniquement l’audio pour des raisons de

droit, et d’autres fois seulement des extraits ;

– des transcriptions : une transcription selon les principes de l’analyse

conversationnelle à partir de laquelle on peut générer une transcription

orthographique pour d’autres usages, dans différents formats ;

– d’un ensemble d’outils d’analyse et de requête.

1.1.3 Une dimension « Recherche »

9 La réalisation de la base CLAPI et la mise à disposition des données ont été pensées pour

soutenir les analyses interactionnelles, qu’il s’agisse d’étudier la langue dans ses usages

en interaction, ou plus conformément aux exigences de l’analyse conversationnelle, les

configurations multi-ressources multimodales que les participants mettent en place

dans leurs échanges. CLAPI, dans sa dimension de banque de données (archive)

constitue un grand corpus permettant d’avancer sur la recherche des récurrences dans

les organisations interactionnelles et, à partir de là, de constituer des collections

(manière d’articuler le qualitatif au quantitatif).

1.2 CLAPI aujourd’hui

10 Dès sa conception, la base de données a présenté un certain nombre de caractéristiques

qui marquent encore aujourd’hui sa spécificité parmi les bases existantes. C’est une

base consacrée à la parole en interaction et non simplement au français parlé. Ceci

conduit à accorder une attention très spécifique à la situation sociale dans laquelle les

données sont collectées, ce qui a également pour conséquence :

– la très grande variété de situations sociales représentées dans la base (réunions de

travail dans différents cadres, interactions de service, interactions en site commercial,

visites privées, repas familiaux et amicaux, visites guidées, consultations médicales,

appels téléphoniques privés et professionnels, situations de classe : travaux pratiques,

conversations en ligne, etc.) ;

Corpus, 15 | 2016

104

Page 106: Corpus de français parlé et français parlé des corpus

– le fait que les données hébergées dans la base sont très majoritairement des

« données naturelles ». On désigne par cette expression le fait que les données ne sont

pas produites pour le chercheur ni dans une situation construite par le chercheur

(Potter, 2006). La plupart des données de CLAPI sont des enregistrements d’interactions

se déroulant dans leur milieu habituel et pour leurs raisons habituelles propres aux

participants. On peut souligner que cette « naturalité » distingue les données de CLAPI

de la plupart des données orales que l’on trouve le plus souvent dans les bases de

données, et qui sont provoquées ou obtenues par élicitation (p. ex. : des entretiens2). La

différence entre les deux est particulièrement signifiante pour les situations de travail.

Parler de naturalité n’implique pas que l’on considère que le protocole

d’enregistrement n’a aucun impact sur les comportements des participants (voir Colón

de Carvajal et al., à paraître, Laurier & Philo, 2006). Toutefois, et malgré la présence de

la caméra et son impact, les données naturelles sont irremplaçables pour étudier les

processus interactionnels en situation.

11 Les données hébergées dans CLAPI, originellement audio, sont aujourd’hui de plus en

plus souvent vidéo.

12 Outre les données qui ont été collectées par les chercheurs du laboratoire ICAR, CLAPI

héberge des données d’interactions confectionnées par d’autres équipes de recherche,

et dont le processus d’intégration dans la base (métadonnées, transcriptions, accès,

etc.) est discuté avec les auteurs. Sont actuellement hébergés : les Cahiers du français

des années 80 (M.-A. Mochet), un Fonds Bielefeld (E. Gülich), le Corpus Grenouille

(H. Jisa), le Corpus Étudiants (M. Savelli), le Corpus Entretiens avec des jeunes écoliers

(J.-M. Colletta), etc.

1.2.1 L’organisation

13 La base de données CLAPI est une base de données multimédia au sens fort.

L’organisation des données qu’elle contient est conçue de telle sorte que, pour chaque

corpus (qui correspond à un seul enregistrement dans le cas le plus simple), il est

possible d’accéder à l’ensemble des éléments documentant ce corpus : le signal audio et

vidéo par streaming ou téléchargement, la transcription des données, les conventions

de transcriptions, les autres données primaires (documents récupérés sur le terrain), et

les métadonnées (voir Figure 1). L’ensemble de ces éléments est accessible aussi bien à

partir de la fonction « feuilleter les corpus » qu’à partir des résultats d’une requête

effectuée à l’aide d’un des outils de la plateforme.

14 Cas simple : un corpus, une situation, une interaction.

Corpus, 15 | 2016

105

Page 107: Corpus de français parlé et français parlé des corpus

Figure 1. Données et métadonnées

15 Les cas plus complexes sont ceux dans lesquels le corpus comprend plusieurs

enregistrements, ou comporte plusieurs transcriptions (le choix ayant été fait de

proposer différentes transcriptions dans différents formats pour un même

enregistrement). L’architecture est alors la suivante (Figure 2) :

Figure 2. Architecture

1.2.2 Les outils

16 L’analyse des interactions repose sur l’étude fine de phénomènes dans une approche

résolument qualitative ; les outils de CLAPI permettent d’introduire une dimension

quantitative (décompte de phénomènes) qui peut conduire à formuler de nouvelles

hypothèses de recherche et sont ainsi une aide pour construire un objet d’étude

complexe.

17 La palette d’outils mise à la disposition des usagers est une aide pour approcher un

phénomène donné, qu’ils pourront aborder à partir des repérages automatiques, puis

en retournant systématiquement au détail des attestations transcrites, à l’écoute ou à la

visualisation de l’enregistrement, voire aux métadonnées (cf. ci-dessus).

Corpus, 15 | 2016

106

Page 108: Corpus de français parlé et français parlé des corpus

18 L’interface est disponible, depuis 2013, en langue anglaise pour permettre aux

chercheurs étrangers de disposer de collections de données en français qu’ils pourront

néanmoins sélectionner dans leur langue.

19 Le développement de ces outils a nécessité un travail préalable sur l’orthographe

utilisée dans les transcriptions. Les transcriptions originales sont en effet le plus

souvent réalisées en orthographe adaptée (voir les conventions ICOR3), c’est-à-dire

cherchant à reproduire à l’écrit certains aspects de la prononciation (par exemple, `fin

et non enfin, b`jour et non bonjour), un outil a été développé pour reconstruire (et

permettre de travailler sur) la « forme étendue » afin de retrouver l’ensemble des

attestations. Le même outil permet de générer une transcription orthographique

standard des corpus.

20 Les autres outils développés sont les suivants :

– Un outil de concordance permet de retrouver un token dans toute la base ou dans un

sous-ensemble de corpus (à partir de filtres sur la nature du signal, audio ou vidéo, et

sur le nombre de locuteurs) ;

– Une série d’outils automatiques produisent des résultats quantitatifs à partir d’un

point d’entrée qui peut être un mot, une transcription ou un phénomène

interactionnel. Ils comprennent :le lexique d’une transcription, par fréquence ou par ordre alphabétique ;

les co-occurrences d’un mot dans toute la base ou dans un sous-ensemble de corpus, c’est-à-

dire les mots les plus fréquents dans le voisinage gauche ou droit du mot cible ;

les co-occurrences d’un phénomène interactionnel. Les phénomènes traités sont les

chevauchements (avec la distinction chevauchant/chevauché), les pauses (courtes/

longues), l’emplacement dans le tour de parole, les tours courts ;

les contextes d’emploi d’un mot : les emplois les plus fréquents du mot cible en fonction de

sa position dans le tour (seul, en première position dans le tour, en début de tour, en

dernière position dans le tour, en fin de tour, dans les tours courts), de sa production en

chevauchement ou non (début de segment chevauchant ou chevauché), de sa localisation

par rapport aux pauses, etc. ;

les répétitions dans une transcription, qu’il s’agisse d’auto-répétitions ou d’hétéro-

répétitions. L’outil identifie les segments les plus répétés, par fréquence et par taille, dans la

transcription complète ou par locuteur.

- Un outil de requêtes multicritères associe le lexique, les caractéristiques

interactionnelles et les métadonnées. Il permet au chercheur de définir lui-même son

objet d’étude qui peut correspondre à :une expression composée d’une suite de mots, à une certaine distance, dans le même tour ou

dans une suite de tours de parole ;

à une certaine position du tour de parole (n tokens du début ou de la fin du tour), dans des

tours de parole d’une longueur donnée (plus de/moins de n tokens) ;

avant ou après une pause, courte et/ou longue ;

en début de segment chevauchant/chevauché ;

dans des interactions sélectionnées à partir des critères : audio/vidéo ; nombre de

locuteurs ; type d’activité situations ; locuteurs natifs ou non natifs ; sexe ; tranche d’âge ; ou

par un locuteur donné (si un sous-ensemble de corpus a été sélectionné).

21 Les résultats des requêtes effectuées avec ces outils permettent de retourner à

l’ensemble des informations présentées au paragraphe 1) ci-dessus. Ils donnent en

outre la possibilité d’accéder pour chaque extrait, à une version « détaillée »

Corpus, 15 | 2016

107

Page 109: Corpus de français parlé et français parlé des corpus

(transcription fine) ou « simplifiée » (transcription orthographique), ainsi qu’à une

version imprimable qui permet de copier/coller un passage dans un autre document.

1.2.3 Quelques données chiffrées

22 CLAPI comprend, à ce jour (mars 2015), 65 corpus correspondant à 370 situations

interactionnelles, soit 225 heures de données et 650 transcriptions, les transcriptions

alignées étant disponibles dans plusieurs formats. Parmi ces données, 45 heures sont

téléchargeables sans condition d’accès, et 65 heures, soit 150 situations, sont

requêtables par les outils décrits ci-dessus.

23 Les consultations représentent environ 10 000 accès par mois, en excluant la page

d’accueil ou les requêtes qui ne sont pas formulées jusqu’au bout par l’utilisateur. On

peut détailler parmi ces accès : 30 % de consultation des métadonnées ; 30 % de

téléchargement des enregistrements et des transcriptions mais aussi des conventions

de transcription ; 20 % d’utilisation des outils et 10 % de streaming des

enregistrements. Les outils les plus utilisés restent les concordances (30 %) et les

requêtes multicritères (30 %), les outils automatiques se partagent les 40 % restant, sans

préférence marquée pour l’un d’entre eux.

1.2.4 Les autres sites en relation directe avec CLAPI

24 La base met à disposition un espace de travail (de type « bac à sable ») pour les corpus

en cours d’exploitation (projets, thèses, etc.) qui donne accès à l’ensemble des outils

d’analyse et de requête de la base tout en nécessitant un jeu restreint de descripteurs.

L’enjeu est aussi de favoriser le dépôt depuis cet espace vers la banque de données, à la

fin des projets ou des thèses.

25 CLAPI est associé avec le site CORINTE (CORpus d’INTEractions)4 qui est dédié à la

méthodologie et aux aspects analytiques de la linguistique interactionnelle, explicitant

toute la chaîne de production des corpus, les questions juridiques et les principes

d’analyse, et mettant différents documents à la disposition des utilisateurs (p. ex. :

autorisations, consentement éclairé, etc.).

26 La base est également associée avec le site CORVIS (CORpus de VIdéos Situées)5 qui

recense les usages de la vidéo en sciences humaines et sociales, en vue de la

constitution de corpus pour l’étude des pratiques sociales, culturelles, linguistiques

dans leurs contextes ordinaires, professionnels et institutionnels. Le site rassemble de

nombreuses informations pour la réalisation et le traitement des vidéos.

2. Évolutions majeures

27 La base de données a évolué sur tous les plans au fil du temps. Nous ne reprenons que

les éléments majeurs, qui sont aussi l’occasion d’évoquer les problèmes et les dilemmes

qui se posent.

Corpus, 15 | 2016

108

Page 110: Corpus de français parlé et français parlé des corpus

2.1 Alimentation et enrichissement de la base : les nouveaux corpusvidéo

28 Comme nous l’avons dit ci-dessus, les nouvelles données sont réalisées à partir de

standards qui ont été établis au fil du temps (cf. les sites CORINTE et CORVIS). La chaîne

de production des corpus est intégrée dans le cursus de formation des étudiants de

sciences du langage : réalisation des terrains, filmage (prise de vue, conception),

transcription outillée (CLAN, Praat, Transicor, ELAN). Ceci permet à la base CLAPI de

mettre à la disposition des chercheurs des enregistrements vidéo, le plus souvent

multivue, d’excellente qualité, qui sont propices à l’étude de phénomènes

interactionnels multimodaux les plus divers (voir Mondada, 2006). Ces évolutions

inestimables pour la recherche (en termes de variété de données, de qualité du signal

vidéo et audio, et de démultiplication des phénomènes rendus étudiables parce

qu’accessibles) ne vont pas sans poser des problèmes et nous confronter à des

dilemmes.

29 Par exemple, le nombre des tâches liées à la mise en forme et à la mise en ligne d’un

corpus augmente en parallèle. En plus des tâches de numérisation (i. e. le transfert du

format natif de la caméra vers un format qui soit interopérable entre players et

systèmes d’exploitation, et compressé sur ordinateur), apparaît celle de synchroniser

les sources. En effet, pour favoriser une lecture complète des données multivue sur

CLAPI, les différentes vues enregistrées (et les sources audio additionnelles, s’il y en a)

sont synchronisées en une seule vidéo à l’aide de logiciels professionnels (FinalCut Pro).

Ceci permet également au chercheur d’activer à l’écoute une source audio plutôt

qu’une autre (de meilleure qualité ou de meilleur volume sonore). Cette multiplication

des sources (audio et vidéo) pose des problèmes liés au poids et au volume des données

à archiver. Tout l’ensemble du processus pour une valorisation optimale des données

nécessite au final de plus en plus de tâches, de plus en plus techniques (transfert,

compression et synchronisation des données) et, en conséquence, une augmentation en

effectif humain et en recherche continue de financement.

30 Un des aspects non résolus de ce dilemme concerne les dimensions multimodales. Les

travaux menés dans l’équipe LIS du laboratoire ICAR intègrent de façon aujourd’hui

systématique la multimodalité (cf., entre autres, Mondada, 2006, 2007, 2012 ; Groupe

ICOR, 2014 ; Traverso 2011, 2012a, 2014 ; Ticca & Traverso, à paraître ; Baldauf-

Quilliatre, 2014a et b ; Colón de Carvajal, 2013). Les analyses réalisées sont possibles

grâce à la qualité des données collectées. Ces données sont hébergées dans la base (ou

dans l’espace de travail privé de CLAPI), mais elles ne sont pas annotées

multimodalement. La réalisation d’une analyse multimodale implique de suivre la

démarche présentée dans ICOR 2014, que l’on peut résumer ainsi :

Parcours de la base, requête, résultats de la requête -> établissement de la collection(par sélection) et classement Retour aux données (signal) -> nouveau travail sur la transcription en fonction desbesoins de la recherche (granularité, annotations multimodales pertinentes pour l’analyse) -> analyse multimodale

31 Les questions qui se posent concernent d’une part la pertinence de poursuivre la

réalisation d’aussi nombreux nouveaux corpus (notamment dans le cadre de la

formation), sachant qu’il n’est pas possible de les traiter, transcrire et intégrer (ni en

totalité ni rapidement) dans la base de données. L’autre question est celle de la

Corpus, 15 | 2016

109

Page 111: Corpus de français parlé et français parlé des corpus

pertinence de réaliser une annotation multimodale des données dans CLAPI, qui ne

pourrait de toute façon que porter sur un très petit nombre de données

(comparativement à ce que la base met à disposition), et sur un ensemble très restreint

de phénomènes par rapport à ceux que l’analyse interactionnelle fait jouer. Ces

questions continuent à être en discussion dans l’équipe de gestion de CLAPI.

2.2 Les dimensions juridiques

32 Il y a une vingtaine d’années, le recueil de données audio était réalisé le plus souvent

sans précaution particulière. Depuis, l’obtention du consentement des personnes

enregistrées est devenue une étape indispensable avant toute prise de données. Ce

changement s’explique notamment par l’usage de la vidéo, qui fait apparaître les

visages en plus des voix, et par le développement des bases de données de corpus en

ligne, qui favorise la diffusion de ces images. L’enregistrement, l’exploitation et la

diffusion des données audiovisuelles illustrant des situations d’interaction ordinaires

de la vie quotidienne posent des questions de droit des personnes enregistrées (droit à

la vie privée et droit à l’image), et des questions d’éthique relatives à la diffusion des

données enregistrées. Après la collaboration du groupe ICOR aux réflexions collectives

qui ont mené à la publication du guide des bonnes pratiques (Baude, éd., 2006), le

travail effectué en 2009 avec les services juridiques du CNRS a permis de rendre CLAPI

conforme aux évolutions de la réglementation en matière de protection des données

dites « à caractère personnel ».

33 Un des changements qui en découle est la mise en place de Conditions générales

d’utilisation (CGU), explicitant la restriction de l’utilisation des données à des fins de

recherche et d’enseignement, qui doivent être acceptées (de manière électronique)

pour toute consultation des corpus.

34 La question de la diffusion des données de la recherche est plus que jamais au cœur des

préoccupations de la communauté des SHS. Les initiatives locales sont nombreuses

autour de ces questions pour tenter d’en définir les contours et de trouver des

solutions. Mais il importe qu’elles soient traitées à l’échelle nationale pour aboutir à des

directives communes et à l’harmonisation des pratiques. C’est ce que l’on attend des

travaux du consortium IRCOM ou du réseau des MSH, auxquels le groupe ICOR

contribue, ainsi que des infrastructures en réseau, comme ORTOLANG, qui proposent

des services mutualisés d’archive pérenne de données et de diffusion à grande échelle.

35 Globalement, la tendance actuelle est à l’ouverture de plus en plus importante des

données de la recherche. Cette évolution est une conséquence logique de la mise en

place des bases de données, tout à fait positive sur le plan du rayonnement de la

recherche et de la qualité des données. Elle pose en retour quelques problèmes, par

exemple celui de décider si l’on doit continuer à confectionner des corpus auxquels

l’accès sera toujours restreint (p. ex. : corpus en milieu médical). C’est à nouveau tout

l’équilibre entre force de travail, coût, reconnaissance et diffusion qui se trouve posé,

des positions trop radicales en la matière risquant d’avoir un effet appauvrissant sur la

diversité des domaines étudiés.

Corpus, 15 | 2016

110

Page 112: Corpus de français parlé et français parlé des corpus

2.3 Les interopérabilités

36 Sur ce plan également, le panorama n’a cessé d’évoluer au cours des quinze dernières

années.

37 Un premier besoin d’interopérabilité bilatérale a émergé dans les projets comprenant

plusieurs bases de données pour échanger les métadonnées et les transcriptions, voire

accueillir les corpus dans les différentes bases afin de bénéficier d’une plus grande

variété d’outils d’exploration ou de requêtes. CLAPI a ainsi développé une plateforme

CLAPI-TALKBANK dédiée aux corpus d’Analyse conversationnelle de la TALKBANK6 en

anglais et en danois, basée sur le format XML de la TALKBANK. Ce type

d’interopérabilité implique un suivi permanent pour s’assurer qu’un changement

effectué dans une des bases ne fasse pas barrière à l’interopérabilité. Chacune des bases

étant en évolution constante, cette solution ne peut pas être maintenue à moyen terme.

38 Pour éviter de multiplier des formats pivots voués assez vite à devenir obsolètes, CLAPI

a proposé, dès 2006, un export de ses descripteurs et de ses transcriptions en format

TEI7. Ce recours au format TEI a été exploité par la suite dans l’ANR franco-allemande

CIEL-F8 « Corpus international écologique de langue française ». Il a permis l’échange

d’une collection de métadonnées entre les bases MOCA et CLAPI (les transcriptions sont

en Praat), et une plateforme CLAPI-CIELF est en cours de finalisation proposant la

palette d’outils de CLAPI pour explorer les corpus de CIEL-F.

39 Une réflexion plus générale a été initiée dans le groupe de travail « Interopérabilité »

(coord. C. Étienne, ICAR, C. Parisse, Modyco), au sein de l’infrastructure de recherche

IRCOM9 dédiée à l’étude des Corpus oraux et multimodaux en partenariat avec l’équipex

ORTOLANG10. Ce groupe participe aux discussions du groupe européen ISO-TEI pour

proposer des évolutions dans la norme adaptées aux spécificités de l’oral. Ses objectifs

sont de convenir d’un jeu raisonnable de métadonnées indispensables à tout travail de

recherche ainsi que d’un format commun de transcriptions pour permettre aux

chercheurs de travailler sur une plus grande quantité de données, quels que soient leur

base d’origine, leur structure initiale et le format de leur transcription. Cette initiative

a été enrichie par les besoins d’homogénéisation des corpus oraux du projet ANR

ORFEO11 « Outils et ressources pour le français écrit et oral ». Il est clair aujourd’hui que

l’interopérabilité ne peut être traitée au sein d’un seul laboratoire et que c’est

collectivement que l’on peut proposer des solutions s’adaptant à la variété des données

du paysage de l’oral.

3. Quelques exemples de recherche

40 Nous présentons succinctement deux exemples de recherches qui ont été effectuées

pour illustrer des usages possibles des outils proposés par CLAPI. Le premier exemple

illustre le travail de mise en relation des données et des métadonnées pour l’analyse et

le second, la façon dont la base de données peut permettre de travailler sur la

multimodalité.

3.1 Trop : articulation données et métadonnées

41 À la suite du travail d’O. Daumeries dans un dossier de Master 2, nous avons repris

l’analyse des usages de « trop », en posant qu’il existait un glissement de son sens

Corpus, 15 | 2016

111

Page 113: Corpus de français parlé et français parlé des corpus

« originel » dénotant l’excès (« c’est trop haut pour que je l’attrape peux-tu m’aider »)

jusqu’au sens de simple intensif « c’est trop beau ». Nous avons sélectionné les corpus

en fonction de la langue des locuteurs, en excluant les interactions dans lesquelles

intervenaient des locuteurs non natifs, et n’avons sélectionné que les corpus

enregistrés en France (par l’examen de la liste des corpus, ou à travers les

métadonnées).

42 Au total, nous avons retenu 24 corpus (cf. le tableau en annexe). L’étude des

occurrences de « trop » fait apparaître d’emblée que la simple opposition « intensité »

vs « excès » n’est pas suffisante pour la description. Nous relevons les emplois suivants.

3.1.1 Emploi « trop = excès »

43 On peut distinguer ici plusieurs sous-catégories.

- Les emplois « classiques » : (1) CEC : ça a été un peu trop assimilé à mon avis à la loi Pasqua qui est plus lafermeture (Débat sur l’immigration)(2) EF : est-ce que vous trouvez que par exemple à la télévision justement euh onparle trop de: enfin de mort (Cahiers du Français des années 80)(3) Y : mais c`t après-midi là: tu vois j` su- j` suis descendu en ville t`t à l’heure enmilieu d’après-midi (.) j’avais même chaud (.) j’étais euh: trop habillé tu vois(Conversations familières, Navye)

- Les emplois classiques qui correspondent à la négation ou à la remise en question de

la notion d’excès :(4) C5 : vous avez pas trop froid en vélo (Interactions pendant la tournée desfacteurs)(5) Ap6 : tout tout juste en espérant qu’il n’y a pas trop d` trafic hein ça va dev`nirla mauvaise heure hein non/ (Téléphone en entreprise)

- Cas de « de trop »

44 On trouve deux occurrences de « de trop »12 dans la base de données :

(6) FA17 : bon il faut pas qu’il en fasse de  trop non plus (Enquête de sociologieurbaine - paris marais)

3.1.2 « Trop » emploi intensif au sens de « très », « tellement », « beaucoup »

45 Le TLFI rappelle que ces emplois sont attestés depuis longtemps dans certains

contextes :

- les formules de politesse, comme « vous êtes trop aimable, trop bon, etc. » ;

- dans des tours hypocoristiques, par exemple : « Ils se retiraient sur la pointe des pieds

en murmurant que j’étais trop mignon, que c’était trop charmant » (Sartre, Les Mots,

1964, p. 119).

- et dans des phrases exprimant une appréciation subjective, exemple : « Ah ! non c’est

trop drôle ! Ah ! ah ! ah ! » (Feydeau, La Dame de chez Maxim, 1914, II, 8, p. 48).(7) ELI : ça m’a trop peinée (0.2) franchement (Repas Kiwi)(8) FLO : c’est trop bon ça mh::\ (Repas Olives)

46 Sur cette base, la mise en parallèle des occurrences et des métadonnées nous permet de

faire les observations suivantes.

Corpus, 15 | 2016

112

Page 114: Corpus de français parlé et français parlé des corpus

3.1.3 Âges des locuteurs et époque d’enregistrement

47 L’époque d’enregistrement est indéniablement pertinente. Par exemple dans les corpus

de conversations familières enregistrées entre 1985 et 1990, il n’y a qu’une seule

occurrence de l’emploi de « trop » au sens de « très » :

(9) A : c’est vraiment trop drôle parce qu’y a un moment où Mozart est occupé/ (.)alors y a quelqu’un qui dit he is busy (Conversations familières, Navye)

48 Et l’on peut noter qu’il s’agit d’un usage répertorié dans le TLFI. Dans les corpus

correspondant aux mêmes situations qui ont été enregistrés en 2008 (Épinards, Kiwi,

Olives), ces emplois sont largement supérieurs aux emplois au sens classique :

Figure 3. Fréquences d’emploi

Corpus Annéedurée

minnombre d’occ.

Trop

ExcèsTrop intensif

Repas Épinards 2008 31 8 2 6

Repas Kiwi 2008 150 88 2 86

Repas Olives 2008 29 20 2 18

49 D’une façon générale, on peut dire que cet usage semble donc occasionnel, jusqu’aux

années 2000, puis devient plus conséquent.

50 Pourtant, la période d’enregistrement et l’âge des participants n’expliquent pas tout.

3.1.4 Genre interactionnel

51 L’autre élément essentiel est le genre interactionnel. Dans le corpus Session de jeux

vidéo, enregistré en 2007 (dans le but d’étudier la langue des jeunes), dans lequel des

adolescents jouent à un jeu de football, les occurrences « classiques » sont plus

nombreuses que les occurrences comme simple intensif. C’est dû au fait que les

participants commentent les tirs et les manières de jouer, avec une grande fréquence

d’énoncés comme :

(10) j` vais trop vite trop haut ah putain trop court

3.1.5 Les « préfabriqués »

52 Une autre piste de réflexion est ouverte par cette première étude, c’est celle des

« préfabriqués » (constructions toutes faites, chunks) (voir Gülich, 2008 ; Schmale, éd.,

2013).

53 Nous obtenons 56 occurrences de « pas trop » dans les corpus sélectionnés, parmi

lesquelles

- 10 « j’aime pas trop » (11) la paella j’aime pas trop (Repas Olives)(12) moi j` trouve c a fait un peu boyau\ ça mais moi j’aime pas trop (Réunion deconception en Architecture, Mosaic)

Corpus, 15 | 2016

113

Page 115: Corpus de français parlé et français parlé des corpus

- 7 « savoir » + pas trop(13) bon ben j’ai fichu mon b- pas mon beurre dessus puisque c’est du St Hubert ouj` sais  pas   trop   quoi faut que j` m’entretienne la ligne (Interactions dans uncommerce - magasin de retouches)

54 Un nombre important d’occurrences concerne des énoncés sans verbe réalisant des

évaluations, dont les outils de CLAPI permettraient d’étudier l’emplacement séquentiel

par rapport au tour précédent, notamment si ces « assessments » sont produits en

chevauchement :

« trop bien » 31 occurrences « trop beau » 8 « trop fort » 7

3.2 « Oh là là » une façon de travailler sur la multimodalité à partirde CLAPI

55 Le deuxième exemple illustre comment CLAPI peut permettre l’analyse de la

multimodalité dans une approche qualitative de linguistique interactionnelle. L’étude

poursuit l’investigation de différents marqueurs discursifs en interaction effectuée par

le groupe ICOR (2007, 2008a, 2008b, 2009, 2010). Dans ce cadre, nous nous sommes

intéressés à « Oh là là » (ICOR 2014). « Oh là là » est souvent décrit comme un exclamatif

typiquement français, pouvant servir à marquer la surprise ou la consternation. Cette

explication n’est pourtant pas suffisante comme l’a montré notre étude basée sur des

analyses multimodales. CLAPI nous a permis de faire une collection de 67 occurrences

dont 59 ont finalement été retenues, les 8 autres étaient prononcés par des locuteurs

non-francophones ou insuffisamment audibles pour une analyse. Ces 59 exemples

pouvaient être regroupés dans deux grandes catégories. La première catégorie

regroupe les cas où « Oh là là » est utilisé (seul ou avec d’autres éléments langagiers) en

tant que première ou deuxième partie d’une paire adjacente ou en tant que continueur.

Dans ce cas, le marqueur participe à la co-construction de l’interaction. La deuxième

catégorie regroupe les cas où ce n’est pas à ce niveau qu’intervient le marqueur : soit

parce qu’il se trouve dans un tour long, narratif et introduit un discours rapporté, soit

parce qu’il réfère à une activité / un événement extralinguistique.

56 Les documents vidéo disponibles dans CLAPI nous permettent de prendre en compte

toute la dimension multimodale de l’interaction (agencement de l’espace, gestes,

regards, position, manipulation d’objets etc.). Dans l’exemple suivant, extrait d’une

interaction dans un tabac-presse, une cliente entre dans le magasin avec un journal

qu’elle a pris à l’entrée sur un présentoir et non pas sur le distributeur. BEA, la

vendeuse, lui fait une remarque (l.01-02).

(14)

Corpus, 15 | 2016

114

Page 116: Corpus de français parlé et français parlé des corpus

57 Cette remarque est une critique à l’égard de la cliente et pointe la non-conformité de la

manière de faire qu’elle a adoptée. La cliente répond d’abord avec une excuse assez

vague (« J’ai pas pensé », l. 04). La suite (« Oh là là hin hin », l. 06) pourrait être

interprétée comme une expansion de cette excuse. L’analyse détaillée des gestes et des

regards montre autre chose. Lorsque la cliente répond « J’ai pas pensé », elle regarde en

direction de l’entrée (Figure 4a). Elle maintient ce regard pendant la pause de 0.3 sec.

(l. 05), puis met ses mains devant son visage, fait un pas en arrière et s’exclame en riant

« Oh là là hin hin » (l. 6, Figure 4b). La vendeuse rit à son tour. La cliente pointe alors

vers le distributeur et explique qu’elle n’a pas pris le journal dessus car elle ne l’avait

pas vu (l. 8-13, Figure 4c).

Figure 4. Langage paraverbal

58 Oh là là indique ici un changement d’état : entre la réponse « J’ai pas pensé » et « Oh là

là » la cliente a aperçu le distributeur et compris son « erreur ». Regards, position et

pointage sont des indices forts pour comprendre « Oh là là » comme change-of-state

Corpus, 15 | 2016

115

Page 117: Corpus de français parlé et français parlé des corpus

token (Heritage, 1984) et introduisant l’explication, et non comme expansion de

l’excuse.

59 La démarche pour ce type d’analyse à l’aide de la base CLAPI est celle que nous avons

présentée dans la section 2.1 :

Parcours de la base, requête, résultats de requête -> établissement de la collection(par sélection) et classement Retour aux données (signal) -> nouveau travail sur la transcription en fonction desbesoins de la recherche (granularité, annotations multimodales pertinentes pourl’analyse) -> analyse multimodale

4. CLAPI pour l’enseignement

60 Depuis 2010, nous avons engagé une réflexion sur la façon dont la base de données

pourrait être utilisée pour l’enseignement du français (FLE) ou de la linguistique

française, l’idée étant de concevoir un volet de CLAPI dédié à l’enseignement qui serait

alimenté en parallèle du volet recherche.

61 Nous avons collaboré avec plusieurs départements de français à l’étranger où des

expériences d’utilisation des données de CLAPI ont été réalisées :

- en groupe classe, avec des étudiants de niveau A2 à B1, utilisation de corpus de CLAPI

choisis par l’enseignante pour illustrer différents phénomènes interactionnels comme

les routines, les assimilations, les émotions, les élisions (ICOR et E. Ravazzolo,

Université de Trento, Italie)

- en groupe classe, avec des étudiants de niveau C1 futurs interprètes, utilisation

d’extraits portant sur le désaccord avec des tests de compréhension et de reformulation

(ICOR et N. Niemants, U. Forli et Maccerata, Italie)

- en entretien individuel auprès de 9 étudiants de niveau A2 à C1, utilisation d’extraits

portant sur le désaccord avec des tests de compréhension, de reformulation, de

détection de début et de fin de séquences et leur justification (ICOR et A. Thomas,

J. Granfeldt, N. Bengtsson & C. Rocher-Hahlin, U. Lünd, Suède, dans le cadre du projet

exploratoire Clapi-FPIE13)

62 Dans tous les cas, l’enseignant(e) a donné des informations contextuelles et parfois

lexicales, et constaté que les difficultés des élèves portaient davantage sur

l’organisation de l’interaction, la co-construction de tours de parole par plusieurs

locuteurs et la compréhension des tours brefs que sur le lexique. Les expériences ont

également montré que le niveau de bruit (souvent considéré comme un frein à

l’utilisation de données enregistrées dans des contextes sociaux naturels) n’est pas

toujours problématique et constitue au contraire une aide à la compréhension.

63 Cet intérêt des enseignants pour l’usage de données orales naturelles en complément

des données construites a conduit à ouvrir une collaboration avec des chercheurs

engagés dans des directions similaires pour d’autres bases de données (PFC, S. Detey &

I. Racine ; ESLO, M. Skrovec).

5. Conclusion

64 Le temps n’est pas si lointain où l’on se plaignait, à juste titre, de l’absence de corpus de

français (parlé). La situation a fortement évolué au cours des vingt dernières années. Il

ne semble plus guère possible de dire aujourd’hui qu’il n’y a pas de corpus disponibles

Corpus, 15 | 2016

116

Page 118: Corpus de français parlé et français parlé des corpus

pour travailler, et les récriminations relatives à l’impossibilité d’accès (cf. l’expression

si souvent entendue « du chercheur assis sur ses données ») n’ont certainement plus

lieu d’être, que les données soient en ligne ou qu’elles soient accessibles après un

contact avec les gestionnaires des bases de données. Le développement de ces bases a

fait avancer les méthodologies et la recherche dans de nombreuses directions (sur le

plan de la qualité des données, de la connaissance des attentes d’un public élargi, des

exigences de standardisation pour permettre le partage, de la quantité de données à

disposition ce qui entraîne un enrichissement des analyses, etc.). L’expérience de CLAPI

que nous avons retracée ici est tout à fait représentative à cet égard.

65 Dans le panorama actuel, on voit combien les bases de données existantes sont

complémentaires et présentent chacune ses spécificités. CLAPI est ainsi la seule à être

spécifiquement dédiée à la langue parlée en interaction, ce qui la conduit à proposer

une très grande variété de corpus vidéo enregistrés dans des situations sociales variées.

Elle se caractérise tout autant par la riche panoplie d’outils qu’elle met à la disposition

des chercheurs.

66 Se dessine par ailleurs, aujourd’hui, une très nette orientation vers la collaboration

entre les chercheurs des différentes bases (dans les projets ANR ou dans les instances

nationales) pour réfléchir à des solutions communes plutôt que de continuer à avancer

en parallèle sans concertation, même si les objectifs et les contenus des bases restent

différents sur bien des points.

67 La situation nous conduit également aux constats suivants :

– Il manque encore un très grand corpus de français. Comme le préconise le projet

ORFEO, c’est en fédérant et organisant les bases et corpus existants que ce très grand

corpus a des chances de se mettre à exister ;

– D’une façon plus générale, et à toutes sortes de niveaux, on peut dire que l’effort qu’il

a fallu faire au cours des années 1990 pour commencer à réunir les forces sur la

centralisation des corpus, leur identification, leur conservation, etc. et pour lancer les

projets de bases de données (cf. Bruxelles & Traverso, 2003) se poursuit actuellement

avec l’organisation des collaborations entre bases de données.

68 En conclusion, il nous semble important de rappeler que ces évolutions créent

également des problèmes voire des dilemmes. Les bases de données, les exigences de

standardisation, la lourdeur du traitement des données (de plus complexes et lourdes

dans le cas de CLAPI, exigeant un travail de plus en plus important et de plus en plus de

technique) et son coût font ainsi naître le risque paradoxal d’un rétrécissement du

champ des recherches sur des corpus « rentables », parce que très standard et ne

posant pas de problèmes de droit. S’il a été à un certain moment essentiel de construire

les conditions du partage des données, il convient maintenant de protéger la possibilité

de lignes de recherche qui n’alimentent pas directement les infrastructures ainsi mises

en place, mais qui contribuent néanmoins tout autant à l’enrichissement du panorama

de la recherche sur l’oral et sur la langue parlée en interaction.

Corpus, 15 | 2016

117

Page 119: Corpus de français parlé et français parlé des corpus

BIBLIOGRAPHIE

Baldauf-Quilliatre H. (2014a). « Répétition et encouragement », Semen 38 [Véronique Magri-

Mourgues / Alain Rabatel (éd.) : Pragmatique de la répétition], 115-135.

Baldauf-Quilliatre H. (2014b). « Formate knapper Bewertungen beim empraktischen Sprechen »,

in C. Schwarze, C. Konzett (éd.) Hinter den Kulissen : Aktuelle Projekte aus der Interaktionsforschung –

methodologisch betrachtet. Frankfurt : Lang, 107-130.

Balthasar L. & Bert M. (2005). « La plateforme “Corpus de langues parlées en interaction”

(CLAPI) », Lidil 31 : 13-33.

Baude O. (éd.) (2006). Corpus oraux, guide des bonnes pratiques 2006. Paris & Orléans : Éditions du

CNRS & Presses universitaires d’Orléans.

https://hal.archives-ouvertes.fr/hal-00357706/file/

Corpus_Oraux_guide_des_bonnes_pratiques_2006.pdf

Bruxelles S. & Traverso V. (2003). « Les corpus de langue parlée en interaction au GRIC », in

D. Pusch & F. Raible (éd.) Romanistiche Korpuslinguistik. Tübingen : Gunter Narr Verlag, 59-70.

Colón de Carvajal I., Lascar J. & Traverso V. (à paraître). « Et l’impact de la caméra alors… »,

Revue en ligne Ethnographiques.org.

Colón De Carvajal I. (2013). « Du corpus enregistré au corpus analysé : questions méthodologiques

sur l’utilisation d’outils de requêtes informatisés. Corpus, Données, Modèles », Cahiers de

Praxématique 54-55/2010, Montpellier : PULM, 313-326. [halshs-00630514].

Étienne C. (2009). « La TEI dans le Projet CLAPI, Corpus de langues parlées en interaction », TEI

Council, Lyon.

Groupe ICOR (L. Balthasar, S. Bruxelles, L. Mondada, V. Traverso) (2007). « Variations

interactionnelles et changement catégoriel : l’exemple de ‘attends’ », in Auzanneau M. (éd.) La

Mise en œuvre des langues dans l’interaction. Paris : L’Harmattan, 299-319.

Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, S. Teston-Bonnard, V. Traverso)

(2008a). « ‘Oh::, oh là là, oh ben…’, les usages du marqueur ‘oh’ en français parlé en interaction »,

in J. Durand, B. Habert & B. Laks (éd.) Congrès mondial de linguistique française. Paris, France. En

ligne, <10.1051/cmlf08099>. <halshs-00356377>

Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2008b). « Tool-assisted

analysis of interactional corpora : voilà in the CLAPI database », Journal of French Language Studies

18 (1) : 121-145.

Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2009). « Exploitation de

la plateforme Corpus de langue parlée en interaction (CLAPI) : le cas de ‘voilà’ dans les

chevauchements », Cahiers de linguistique 33 (2) : 243-268.

Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2010). « Grands corpus

et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus

CIEL) », Pratiques 147-148 : 17-34.

Groupe ICOR (C. Étienne, S. Bruxelles, E. Jouin, L. Mondada, F. Oloff, V. Traverso) (à paraître).

« Phénomènes et unités : questions autour de la détection automatique des répétitions dans un

corpus de langue parlée en interaction », in (DES-)Organisation de l’oral de la segmentation à

l’interprétation. Rennes.

Corpus, 15 | 2016

118

Page 120: Corpus de français parlé et français parlé des corpus

Groupe ICOR (H. Baldauf-Quilliatre, S. Bruxelles, S. Diao-Klaeger, E. Jouin-Chardon, V. Traverso)

(2014). « Oh là là : the contribution of the multimodal database CLAPI to the analysis of spoken

French », in H. Tyne, V. André, A. Boulton, C. Benzitoun, Y. Greub (éd.) Ecological and Data-Driven

Perspectives in French Language Studies. Newcastle : Cambridge Scholars Publishing, 167-198.

Gülich E. (2008). « Le recours au préformé : une ressource dans l’interaction conversationnelle »,

in J. Durand, B. Habert & B. Laks (éd.) Congrès mondial de linguistique française. Paris, France.

Disponible en ligne sous : http://www.linguistiquefrancaise.org/index.php?

option=article&access=doi&doi=10.1051/cmlf08315.

Laurier E. & Philo C. (2006). « Natural problems of naturalistic video data », in H. Knoblauch,

J. Raab, H.-G. Soeffner & B. Schnettler (éd.) Video-Analysis Methodology and Methods, Qualitative

Audiovisual Data Analysis in Sociology. Oxford : Peter Lang, 183-192.

Mondada L. (2006). « Video Recording as the Reflexive Preservation and Configuration of

Phenomenal Features for Analysis », in H. Knoblauch, J. Raab, H.-G. Soeffner & B. Schnettler (éd.)

Video-Analysis Methodology and Methods, Qualitative Audiovisual Data Analysis in Sociology. Oxford :

Peter Lang, 51-68.

Mondada L. (2007). « Multimodal ressources for turn-taking : Pointing and the emergence of

possible next speakers », Discourse Studies 9/2 : 195-226.

Mondada L. (2012), « Talking and driving : Multiactivity in the car », Semiotica 191, 223-256.

Potter J. (2006). « Naturalistic Data », in V. Jupp (éd.) The Sage Dictionary of Social Research Methods.

London : Sage. Brockington.

Schmale G. (2013). « Formen und Funktionen vorgeformter Konstruktionseinheiten in

authentischen Konversationen / Forms and Functions of Formulaic Construction Units in

Conversation », Linguistik Online 62, 5/2013, http://www. linguistik-online.de/62_13/.

Ticca A. C. & Traverso V. (à paraître, 2015). « Territoires corporels, ressenti et paroles d’action :

des moments délicats de la consultation médicale avec interprète », Langage et Société.

Traverso V. (2011). « Analyser un corpus de langue parlée en interaction : questions

méthodologiques », Verbum 4 : 313-329.

Traverso V. (2012a). « ‘Le salon bibliothèque’ : délimitation et partage des espaces. Usage des

annonces dénominatives désignatives dans la visite guidée », in J.-P. Dufiet (éd.) Les Visites guidées.

Discours, interaction, multimodalité. Trento : Presses de l’Université de Trento, 55-85.

Traverso V. (2012b). « Analyses interactionnelles : repères, questions saillantes et évolution »,

Langue Française 175 : 3-17.

Traverso V. et al. (2012). « Analyses de l’interaction et linguistique : état actuel des recherches en

français », Langue française 175.

Traverso V. (2014). « La construction de (l’attention visuelle sur) l’objet au cours de la visite

guidée : étude d’un cas limite », in J. P. Dufiet (éd.) L’Objet d’art et de culture à la lumière de ses

médiations. Trento : Coll. Labirinti, 43-85.

ANNEXES

Occurrences de « trop »

Corpus, 15 | 2016

119

Page 121: Corpus de français parlé et français parlé des corpus

Le total des occurrences de « trop » dans ces 24 corpus s’élève à 337 occurrences (la

base de données en contient au total 547).

Corpus Annéedurée

min

nombre

d’occ.

Trop

Excès

Trop

intensif

Négociation sur les loyers – commission de

conciliation, 1984 115 18 9 9

Mode – interactions sur un thème imposé, 1982 22 5 4 1

Français des années 80 – entretiens

sociolinguistiques, 1984 72 32 27 5

Conversations familières – Visites 1985-1990 61 13 11 2

Interactions commerciales – bureau de tabac

presse 1986 120 1 1

Enquête de sociologie urbaine –Paris Marais, 1989-1990 171 19 15 4

Conversations téléphoniques en entreprise 1997 25 4 3 1

Débat sur l’immigration – TP d’étudiants 1997 78 8 8 0

Négociation sur le partage de biens – notaires 1997-1998 36 2 1 1

Interactions commerciales – vente à domicile

encyclopédies,1998-1999 6 1 0 1

Interactions dans un commerce – magasin de

retouches (papotages)2001 22 6 4 2

Réunion de conception en architecture –

Mosaic2002 78 20 12 8

Consultations chez les dentistes 2003 35 3 1 2

Réunion de travail entre publicitaires – Lyon

Saxe 2004 58 7 5 2

Repas. Conversations entre étudiants 2006 47 36 14 22

Interactions pendant la tournée de facteurs 2006-2007 24 3 3 0

Repas Épinards 2008 31 8 2 6

Repas Kiwi 2008 88 2 86

Repas Olives 2008 29 20 2 18

Conversations en ligne 2007-2008 14 5 4 1

Corpus, 15 | 2016

120

Page 122: Corpus de français parlé et français parlé des corpus

Session de jeux vidéo entre jeunes 2007 106 28 16 12

NOTES

1. http://icar.univ-lyon2.fr/projets/corinte/

2. Dans cette perspective, les entretiens sont des données provoquées et ils illustrent un genre

interactionnel spécifique. Le choix a été fait que la base de CLAPI ne contienne pas de données

médiatiques pour des questions de droit (des données radiophoniques ont en revanche été

collectées dans le projet CIEL-F, et elles sont hébergées dans CLAPI-CIELF, voir 2.3).

3. http://icar.univ-lyon2.fr/projets/corinte/bandeau_droit/convention_icor.htm

4. http://icar.univ-lyon2.fr/projets/corinte/

5. http://icar.univ-lyon2.fr/projets/corvis/

6. http://talkbank.org/

7. Étienne, 2009.

8. http://www.ciel-f.org/

9. http://ircom.huma-num.fr

10. https://www.ortolang.fr

11. http://www.projet-orfeo.fr

12. Cet usage est considéré comme familier dans le TLFI, avec l’exemple « Il en avait de trop à

bouffer le général, puisqu’il touchait d’après le règlement quarante rations pour lui tout seul »

(Céline, Voyage, 1932, p. 33).

13. http://clapi-fpie.ish-lyon.cnrs.fr

RÉSUMÉS

Dans cette contribution, nous présentons la base CLAPI développée au laboratoire ICAR dans le

contexte de l’évolution des bases de données de langues parlées en France au cours des trente

dernières années. Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue

parlée en interaction audio et vidéo enregistrés dans des situations sociales naturelles variées, et

la plateforme d’outils.

L’usage et l’apport de CLAPI sont illustrés par deux études. L’une décrit comment la base peut

être utilisée pour des travaux de linguistique interactionnelle intégrant la multimodalité (« oh là

là ») ; l’autre concerne une recherche combinant données et métadonnées (« trop »).

L’article est aussi l’occasion d’un bilan plus général. La mise en perspective montre en effet

qu’après la période des questions est venue celle des dilemmes. La période des questions, choix et

décisions à toutes sortes de niveaux a accompagné la mise en place des bases de données.

L’expérience permet maintenant de mesurer leurs indéniables apports en termes non seulement

de quantité de données disponibles (et traitables grâce aux outils), mais aussi de qualité (comme

conséquence des exigences de standardisation liées au partage des données). La période des

dilemmes nous conduit à nous interroger sur les meilleurs choix à opérer aujourd’hui dans les

relations entre la poursuite des recherches sur des corpus variés (et parfois sensibles) et les

exigences des bases de données ouvertes.

Corpus, 15 | 2016

121

Page 123: Corpus de français parlé et français parlé des corpus

In this contribution, we present the development of the CLAPI by the ICAR Lab in the context of

the evolution of the databases of spoken languages in France during the last thirty years. We

describe the two components of CLAPI, the archive of corpus of spoken languages in interaction,

audio and video, recorded in varied naturally-occurring social situations, and the plateform of

tools.

The use and the support of CLAPI the research are shown out of two studies. One illustrates how

the database can be used for working in an interactional linguistic perspective, including

multimodality (“oh là là”); the other concerns a research combining data and metadata (“trop”).

The article is also the occasion of a more general assessment. The perspective on the last thirty

years shows that after a period of questions came that of dilemmas. The period of questions,

choices and decisions at various levels accompanied the implementation of the databases. The

experience enables now to measure their undeniable contributions in terms not only of quantity

of available data (and possibly dealt with supported by the tools), but also of quality of the data

(as a consequence of the requirements of standardization linked to the needs of sharing the

data). The period of the dilemmas leads us to wonder about the best choices to be operated today

among continuing research on varied corpuses (sometimes delicate) and the requirements of the

databases.

INDEX

Mots-clés : parole en interaction, multimodalité, interopérabilité, banques de données

Keywords : talk-in-interaction, multimodality, interoperability, databank

AUTEURS

H. BALDAUF-QUILLIATRE

Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

I. COLÓN DE CARVAJAL

Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

C. ETIENNE

Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

E. JOUIN-CHARDON

Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

S. TESTON-BONNARD

Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

V. TRAVERSO

Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2

Corpus, 15 | 2016

122

Page 124: Corpus de français parlé et français parlé des corpus

Disfluences et vieillissementlangagier. De la base de donnéesVALIBEL aux corpus outillés enfrançais parléDisfluencies and language aging. New corpora and tools for exploring spoken

French in the VALIBEL database

Catherine T. Bolly, George Christodoulides et Anne Catherine Simon

1 Dans cet article, nous nous attachons à explorer les possibilités d’investigation qu’offre

la base de données textuelles orales VALIBEL, en portant une attention particulière à

l’outillage (principalement, le programme DisMo pour l’annotation des disfluences) et

au corpus Corpage, récemment intégré à la base et dont la population cible concerne

des personnes âgées.

1. La base de données VALIBEL

2 La base de données textuelles orales VALIBEL ne constitue pas un corpus mais un

regroupement de corpus constitués depuis 1987. Il s’agit donc d’une sorte de « réservoir

de corpus » qui est alimenté de manière incrémentale au fur et à mesure des nouveaux

projets de recherche nécessitant de collecter des données orales (section 2).

Documentées et archivées sous format électronique, ces données peuvent être

réexploitées à des fins de recherches variées (section 3), touchant notamment à des

questions sociétales cruciales telles que le vieillissement de la population (section 5). La

documentation qui les accompagne comprend des métadonnées sur la situation

d’interaction et les locuteurs, ainsi que sur la transcription orthographique effectuée.

Pour une partie des données, cette transcription est directement alignée sur le signal

sonore. Certains corpus font en outre l’objet d’annotations particulières (section 4).

Corpus, 15 | 2016

123

Page 125: Corpus de français parlé et français parlé des corpus

2. Historique du centre VALIBEL

3 Le centre de recherche VALIBEL a été créé en 1989 par Michel Francard. L’acronyme qui

a donné son nom au centre (VAriétés LInguistique du français en BELgique) rend

compte des objectifs de recherche établis à cette époque : il s’agissait de créer un

observatoire des usages du français en Belgique, dans leur variation. L’intérêt s’est

d’abord porté sur l’analyse des représentations linguistiques des locuteurs concernant,

par exemple, les accents régionaux ou l’insécurité linguistique (Francard, 1993). Des

collectes de données orales et de vastes enquêtes par questionnaire sont mises en place

pour tester la diffusion et la vitalité des régionalismes lexicaux. Un des résultats est le

Dictionnaire des belgicismes faisant actuellement référence (Francard, Geron, Wilmet &

Wirth, 2015). Entre 1989 et 1999, la majorité des corpus recueillis consistent en

interviews sociolinguistiques – comportant le plus souvent une partie de discussion

ouverte visant à recueillir des informations sociobiographiques sur le locuteur et à le

faire parler librement, et une partie plus contrainte guidée par un questionnaire.

D’autres corpus, de taille plus réduite, ont été réalisés ponctuellement pour des études

variées (sur la liaison, l’argumentation dans les débats, l’alternance de code français-

wallon, etc.).

4 En 2009, le centre s’élargit en accueillant une nouvelle équipe et redéfinit ses objectifs,

ce qui se marque par un changement de nom : Valibel - Discours et Variation. La

sociolinguistique reste un ancrage théorique important, comme en atteste la

participation de Valibel au vaste projet de recueil de données pour l’étude de la

Phonologie du français contemporain (PFC – Durand, Laks & Lyche, 2009), qui a permis

de renouveler les études sur la prononciation du français en Belgique (Hambye &

Simon, 2009 ; Simon, 2012). L’autre axe de recherches concerne l’analyse du discours,

en particulier les connecteurs et marqueurs de discours (Bolly, Crible, Degand & Uygur-

Distexhe, 2015), les unités de base du discours (Martin, Degand & Simon, 2014), les

effets du vieillissement langagier sur la dimension pragmatique (Bolly & Boutet,

soumis) ou le traitement de la fluence et de la disfluence à l’oral (projet ARC « Fluency

and disfluency markers. A multimodal contrastive perspective », voir Crible, Dumont,

Grosman & Notarrigo, 2015). Des chercheurs travaillant sur d’autres langues que le

français (en particulier l’espagnol et le néerlandais) se sont également ajoutés à

l’équipe (De Cock, 2014 ; Van Goethem & Hiligsmann, 2014), et des études contrastives

sont en cours (De Cock & Roginsky, 2015). Depuis une dizaine d’années, un effort

particulier a été investi pour recueillir de nouveaux corpus plus diversifiés en termes

d’activités communicatives. En guise d’exemple, le corpus « style » présente la

particularité d’enregistrer un même locuteur dans deux situations contrastées (par ex.

en situation professionnelle et privée) afin de documenter la dimension diaphasique de

la variation.

5 Le développement de la base de données textuelles orales VALIBEL, dans ce contexte,

n’est pas une fin en soi, mais constitue la pierre de touche de recherches qui se veulent

fondées empiriquement sur corpus. Cela offre également un terrain intéressant

d’élaboration méthodologique, concernant les types de données à recueillir, les modes

de recueil, de documentation et d’annotation. Le principe qui régit la recherche au

centre Valibel reste l’étude de la variation à partir d’usages langagiers attestés et

documentés (i. e. à partir de corpus), visant à documenter la diversité des pratiques

langagières en Belgique francophone, et dans d’autres langues.

Corpus, 15 | 2016

124

Page 126: Corpus de français parlé et français parlé des corpus

3. Description des corpus dans la base de données

6 Par définition, la base de données est ouverte, et sa croissance est le signe de la vitalité

des recherches menées au sein du centre Valibel. Le développement se fait dans deux

directions :

– en ajoutant de nouvelles données (enregistrements, transcriptions, métadonnées) (cf.

ci-dessous et en 5.) ;

– en ajoutant de nouvelles annotations aux données existantes (cf. section 4.).

7 Aujourd’hui, on peut dire que la banque de données VALIBEL compte 24 corpus

exploitables. Ces corpus ont initialement fait l’objet d’une chaîne de traitement

standardisée, décrite dans Dister & Simon (2007), suivie plus récemment d’une phase

d’annotation et de traitement des données telle que décrite sous 4.2. Ces corpus

représentent actuellement 494 enregistrements sonores, impliquant 568 locuteurs,

totalisant 352 heures de parole, accompagnés de métadonnées (informations sur les

locuteurs et sur la situation d’interaction) et de transcriptions orthographiques. Ces

transcriptions totalisent 3 388 208 tokens1.

8 Les données sont archivées dans la base de données [moca], qui permet d’interroger à

distance les données et de télécharger les fichiers son et les transcriptions (pour plus de

détail : Dister, Francard, Hambye & Simon, 2009 ; Simon, Francard & Hambye, 2014). Les

métadonnées, qui sont également interrogeables via l’interface [moca], ont été

intégrées dans la transcription orthographique sous la forme de TEI Headers pour

favoriser l’interopérabilité des corpus. Elles donnent des informations sur les aspects

suivants : (i) enregistrement : nombre de locuteurs, relation entre locuteurs, date et

lieu d’enregistrement, langue, type d’interaction, durée, nombre de mots, statut de

l’enregistrement, etc. ; (ii) corpus : code d’identification, année de constitution, objectif

de recherche, nombre d’enregistrements et de locuteurs, nombre de mots, durée ;

(iii) locuteur : sexe, âge, localisation géographique, lieu de naissance, degré de scolarité,

profession, etc. Le système permet, à l’aide de critères sur les situations

d’enregistrement ou sur les locuteurs, de créer des collections de données en vue

d’études particulières. Par ailleurs, les données sont désormais analysables et

consultables par le biais du logiciel de gestion de corpus Praaline (Christodoulides,

2014), qui permet la consultation des transcriptions et leur annotation sous plusieurs

couches à l’aide de concordances (Barreca & Christodoulides, 2014 – voir Figure 1), ainsi

que l’application d’outils d’annotation automatique (cf. section 4.2).

Corpus, 15 | 2016

125

Page 127: Corpus de français parlé et français parlé des corpus

Figure 1. Requête multi-niveaux et présentation des résultats sous forme de concordance dans lelogiciel Praaline

9 La base de données, dans son ensemble, ne présente pas un échantillonnage équilibré

de données orales, ni en termes de situations de communication ni en termes de

répartition des locuteurs (âge, localisation géographique, etc.). Il s’agit donc de créer,

de manière opportuniste, des sous-corpus équilibrés à partir des données disponibles.

Ainsi, l’âge moyen des locuteurs est de 30,3 ans, et les locuteurs ayant entre 20 et 30 ans

sont les plus représentés (voir Figure 2).

Figure 2. Répartition des locuteurs par âge dans la base VALIBEL

10 En termes de localisation géographique, parmi la grande majorité de locuteurs belges

francophones, ce sont les locuteurs du Brabant wallon qui sont les moins nombreux et

ceux du Hainaut qui sont majoritaires (voir Figure 3).

Corpus, 15 | 2016

126

Page 128: Corpus de français parlé et français parlé des corpus

Figure 3. Répartition des locuteurs par localisation géographique dans la base VALIBEL

4. Annotation multiniveau

4.1 Interface syntaxe/prosodie

11 Certains corpus ont fait l’objet d’annotations particulières. Ainsi, le corpus LOCAS

(LOuvain Corpus of Annotated Speech) a été annoté manuellement en unités

syntaxiques et en unités prosodiques afin d’étudier comment ces deux niveaux

d’organisation se combinent pour former des unités discursives (Degand & Simon,

2009). Au niveau syntaxique, par exemple, on a identifié les unités maximales de

rection (un élément recteur accompagné de tous les éléments qui en dépendent) et les

séquences fonctionnelles ; des éléments non régis (comme les marqueurs de discours

ou les associés) ont également été annotés. Du point de vue prosodique, on a

perceptivement identifié les frontières prosodiques majeures et intermédiaires, en les

assortissant d’un contour intonatif (Christodoulides & Simon, 2015). Les hésitations et

les marques d’écoute (back-channels) ont également été annotées. D’une durée de

3 heures 11 pour 36 912 tokens, ce corpus regroupe de manière équilibrée des

échantillons représentatifs de 12 situations de parole contrastées entre elles (Martin et

al., 2014).

4.2 Annotation morphosyntaxique et détection automatique desdisfluences

12 Par le biais du logiciel DisMo (Christodoulides, Avanzi & Goldman, 2014), des couches

d’annotation supplémentaires ont été appliquées à toutes les transcriptions de la base

VALIBEL : une annotation morphosyntaxique (au niveau des tokens isolés et au niveau

des unités polylexicales), une lemmatisation et une annotation des disfluences.

Corpus, 15 | 2016

127

Page 129: Corpus de français parlé et français parlé des corpus

L’annotateur automatique DisMo prend en compte les phénomènes spécifiques aux

conventions de transcription de l’oral (par exemple, l’absence de ponctuation) et est

structuré autour de six modules qui s’appliquent en cascade :

1) tokenisation : prétraitement et découpage en unités lexicales ;

2) application de ressources linguistiques : annotation des unités non-ambiguës et

établissement de la liste des étiquettes possibles pour les autres cas (à noter que

certaines disfluences et unités polylexicales sont reconnues à ce stade, ainsi que les

marqueurs de discours et les unités polylexicales potentielles) ;

3) annotation morphosyntaxique préliminaire en parties du discours ;

4) détection des disfluences et de la segmentation ;

5) annotation morphosyntaxique finale, combinée avec la détection des unités

polylexicales ;

6) post-traitement des annotations, à l’aide des règles de cohérence.

13 Le codage des disfluences détectées automatiquement par DisMo suit le schéma

d’annotation présenté de manière synthétique dans la Figure 4 (pour plus de détail,

voir Christodoulides & Avanzi, 2015).

Figure 4. Schéma d’annotation des disfluences dans DisMo (dans Christodoulides & Avanzi, 2015)

Niveau 1 : Disfluences simples : affectent un seul token

FIL Pauses remplies j’ hésite euh FIL un peu en parler

LENAllongement lié

à une hésitationau cercle d’oenologie de= LEN Bruxelles

FST Amorce lexicale comme infirmière so/ FST sociale

WDP Pause intra-mot il m’ a dit ça su+ _ WDP +ffit

Niveau 2 : Répétitions où un ou plusieurs tokens sont répétés (exactement)

REP Répétition

les disques et REP* et REP_ lancer les jingles

il REP:1 a REP:2

il REP:1 a REP*:2

il REP_ a REP_ dit que

c’ REP:1 est REP:2 pas REP*:3

c’ REP_ est REP_ pas REP_

un système génial

Niveau 3 : Disfluences structurées (d’édition)

DEL Suppressionc’ DEL est DEL vraiment DEL

un DEL* en tout cas la parole

SUB Substitution

cette personne était SUB*

enfin SUB:edt c’ SUB_ est SUB_

un ami de

Corpus, 15 | 2016

128

Page 130: Corpus de français parlé et français parlé des corpus

INS Insertion

c’ est vrai que

Béthune INS* euh INS+FIL

vivre INS_ à INS_ Béthune INS_

ça aurait

Niveau 4 : Disfl. complexes (combinent plusieurs disfluences structurées)

COM Complexe Leur structure est annotée à l’aide d’un tableau d’empilement

5. Disfluences et vieillissement langagier

14 La problématique du vieillissement de la population et ses retombées socio-

économiques dans les pays développés (Berr, Balard, Blain & Robine, 2012) sont au

cœur des préoccupations actuelles des chercheurs, toutes disciplines scientifiques

confondues. Dans le domaine de la linguistique, en particulier, plusieurs études sur

corpus ont été menées durant les cinq dernières années (cf. Gerstenberg, 2009, 2011 ;

Lee, 2012 ; Bolly & Boutet, soumis) et des réseaux de linguistes se mettent en place à

l’international (cf. le réseau du CLARe « Corpora for Language and Aging research »).

C’est dans ce contexte que le corpus Corpage « A Reference corpus for the elderly’s

language » a vu le jour (Bolly, Masse & Meire, 2012). Parmi les quelque 212 entretiens

récoltés qui constituent le corpus Corpage (106 sujets âgés interrogés ; 2 entretiens par

informateur ; environ 144 heures d’enregistrements), 10 entretiens ont été transcrits et

révisés selon les normes VALIBEL pour être intégrés à la base de données (8 heures

35 min. ; environ 130 000 tokens). Les entretiens semi-dirigés en face-à-face mettent en

scène un étudiant et une personne âgée de plus de 75 ans à son domicile, sur le thème

du récit de vie et du rapport à l’âge. Les sujets recrutés ne présentent pas de lésion ni

de trouble cognitif majeur. Notons que la constitution de ce corpus est le fruit d’une

collaboration interdisciplinaire en sciences humaines (en linguistique, psychologie et

psychogériatrie) et suit les normes éthiques recommandées dans le domaine

(consentement éclairé oral et écrit, recrutement sur base volontaire, anonymisation

des données personnelles, etc.).

15 Basée sur l’annotation automatique des disfluences avec DisMo, une étude exploratoire

a été effectuée pour rendre compte de la distribution des disfluences par tranche d’âge,

au sein de la base VALIBEL prise dans son intégralité (incluant les données de Corpage).

Si l’on en croit la littérature dans le domaine, nous pouvons nous attendre à observer

une plus grande fréquence de marques de disfluence avec l’avancée en âge (hésitations,

pauses longues, pauses pleines, particules de discours, répétitions de mots,

autocorrections, etc.), en même temps qu’un débit de parole ralenti et une articulation

moins précise (Searl, Gabel & Fucks, 2002 ; Lee & Barkat-Defradas, 2014 ; Rousier-

Vercruyssen, Lacheret & Fossard, 2014). Ces particularités linguistiques sont le plus

souvent considérées comme étant la conséquence de changements cognitifs normaux

liés à l’âge (Burke & Shafto, 2008), à savoir le ralentissement de la vitesse de traitement

de l’information, un accès moins aisé au lexique et des troubles des capacités

d’inhibition (Mathey & Postal, 2008). Mais elles peuvent aussi dépendre de besoins

physiologiques (par exemple, l’activité respiratoire), d’une volonté de coopération avec

l’interlocuteur ou d’un effort de planification cognitive, davantage marqués chez la

Corpus, 15 | 2016

129

Page 131: Corpus de français parlé et français parlé des corpus

personne âgée (Bortfeld, Leon, Bloom, Schober & Brennan, 2001 ; Smith, Noda, Andrews

& Jucker, 2005).

16 Au niveau méthodologique, soulignons que les résultats ne prennent ici en compte que

les disfluences annotées aux niveaux 1 et 2 du schéma présenté dans la figure 4. Parmi

les disfluences annotées par DisMo, nous avons considéré les marques suivantes : les

amorces lexicales (FST) (1), les pauses pleines (FIL) (2) et les répétitions (REP) (3).

(1) on avait / euh q/ un poêle dans la chambre (Corpage : ageDM1, 94 ans)(2) je ne sais pas mais euh il y a quelque chose qui ne va pas (Corpage : ageDM1, 94ans)(3) il n’a plus jamais su avoir de de de travail / et / je ne sais pas il avait perdu lenord enfin (Corpage : ageDM1, 94 ans)

17 Par ailleurs, la répartition en tranches d’âge par décennies a été adoptée pour faire

émerger une éventuelle évolution du nombre de disfluences dans une perspective

développementale tout au long de la vie (« lifespan ») (Aldwin, Spiro III, Park & Birren,

2006). Cette étude ne tient donc pas compte des facteurs psychosociaux ni des

mécanismes d’adaptation à l’œuvre dans le processus de vieillissement (Freund &

Baltes, 2003), mais s’appuie sur une vision purement biologique et chronologique de

l’âge (voir entre autres Hamilton, 2001, sur ces questions).

18 Il ressort des résultats une corrélation positive et significative (Spearman r = 0,164 ; d.l.

= 857, p < 0.001) entre l’âge du locuteur et la fréquence des disfluences au sein de la base

(voir Figure 5). Afin de normaliser les données, cette fréquence a été calculée sous

forme de ratio, en divisant le nombre total de tokens « non fluents » (c’est-à-dire ceux

qui se trouvent entre le début d’une disfluence et son point d’interruption) par le

nombre total de tokens produits par chaque locuteur.

Figure 5. Pourcentage des tokens non fluents en fonction de l’âge du locuteur

19 Les résultats obtenus, qui tendent à confirmer que plus on avance en âge, plus on tend

à produire des discours disfluents, doivent néanmoins être nuancés à plusieurs égards.

En effet, si des tendances émergent, il ne faut pas oublier qu’il existe des profils

idiosyncrasiques de fluence (Shriberg, 1994, 2001), un locuteur pouvant recourir à des

pauses pleines (par ex. : euh) alors qu’un autre aura tendance à paraphraser dans une

Corpus, 15 | 2016

130

Page 132: Corpus de français parlé et français parlé des corpus

situation similaire (par ex. en réaction au manque de mots). En outre, la catégorie des

répétitions annotées inclut dans cette étude les répétitions lexicales perçues comme

étant nettement disfluentes (cf. de de de dans l’exemple (3) plus haut), mais également

des répétitions qui semblent jouer un rôle à un autre niveau dans la production

langagière (Rossi, Dominicy & Kolinsky, 2014). Par exemple, la répétition oui oui en (4)

est une répétition emphatique, qui vient renforcer la valeur d’acquiescement en

réaction au propos de l’interviewer. De la même manière, la fonction de la répétition ça

ça en (5) est ambigüe, puisqu’elle peut être interprétée comme une marque d’hésitation

ou comme le résultat d’un procédé syntaxique de topicalisation avec mise en relief du

pronom détaché à gauche.

(4) ageMC0 vous vous vous mettez à l’évidence que vous avez bien |- quatre-vingt-deux ans ageBG1 oui hein oui -|  oui bè oui hein / il n’y a pas d’avance (rires)(Corpage : ageBG1, 82 ans)2

(5) alors un autre c’é/ il était surveillant à D il était professeur ailleurs j’ai je ne l’aiplus jamais vu et tous les autres à part moi je mets peux mettre des croix / ça çam’a fait un |- choc j’ai <ageQL0> mm -| montré la photo à Jacqueline |- et <ageQL0>mm -| on a essayé de retrouver tous les noms des professeurs (Corpage : ageJD1, 85ans)

20 Une étude plus approfondie du rôle cognitif et pragmatique de ces répétitions – en tant

que marques potentielles de fluence ou de disfluence – serait donc nécessaire pour

déterminer leur rôle dans la planification et dans la coconstruction de l’interaction

communicative. Enfin, il ne faudrait pas négliger l’importance des facteurs

psychosociaux, tels que le genre (homme/femme) ou la situation communicative, qui

jouent un rôle prépondérant dans la production de disfluences par rapport au facteur

âge (Bortfeld et al., 2001).

21 Cette première approche exploratoire donne à voir comment, à partir de l’outillage de

corpus, des pistes de recherche peuvent émerger pour répondre à des problématiques

sociétales fortes. Quelques-unes de ces pistes sont formulées ici sous forme de

questions interrogeant l’impact possible des marques de disfluence sur le discours au

grand âge (en production et en réception) :

Quel est le rôle joué par les facteurs environnementaux et psychosociaux liés à la situation

de parole (situation de soin, annonce de diagnostic, conversation avec un proche, etc.) dans

la production de discours plus ou moins (dis)fluents chez la personne âgée ?

À partir de quand peut-on considérer qu’un discours disfluent devient problématique et

constitue un obstacle au bien-vieillir, tenant compte des mécanismes d’optimisation et

d’adaptation (Freund & Baltes, 2003) dont dispose le sujet vieillissant ?

À l’instar de Davis & Maclagan (2010), ne devrait-on pas considérer le recours à certaines

marques de disfluence (pauses pleines, interjections, particules discursives et unités

phraséologiques) comme des stratégies adoptées par les plus âgés pour rester impliqués

dans l’interaction ?

22 Visant à refléter au plus près l’usage langagier des locuteurs au sein d’une communauté

linguistique, voire entre plusieurs communautés, il paraît évident que les approches

sur corpus présentent des avantages indéniables pour pouvoir répondre, au moins en

partie, à de telles questions.

Corpus, 15 | 2016

131

Page 133: Corpus de français parlé et français parlé des corpus

6. Conclusion

23 Nous avons vu que la base de données VALIBEL, constamment enrichie par de nouveaux

corpus et projets de recherches, permettait de faire le lien entre l’outillage des données

langagières et leur exploitation dans une visée de recherche fondamentale ou

appliquée. C’est ainsi que l’utilisation de programmes d’annotation automatique (p.

ex. : DisMo), l’élaboration de protocoles d’annotation extrêmement bien documentés

(par exemple, le corpus LOCAS ou le projet MDMA) et la possibilité d’interroger les

données (et les métadonnées) via une interface fouillée ([moca] ou Praaline), permettent

d’apporter un éclairage nouveau sur l’usage des locuteurs, tenant compte de variables

psychosociales (âge, sexe, niveau d’éducation, etc.) et extralinguistiques (situations de

parole, origine géographique, etc.) jouant un rôle important dans la communication

langagière.

BIBLIOGRAPHIE

Aldwin C. M., Spiro III A., Park C. L. & Birren J. E. (2006). « Health, behavior, and optimal aging : A

life span developmental perspective », Handbook of the Psychology of Aging 6 : 85-104.

Barreca G. & Christodoulides G. (2014). « Un concordancier multiniveau pour des corpus oraux »,

Actes de la 21e Conférence Traitement Automatique du Langage Naturel (TALN), Marseille, France, 1er-4

juillet 2014.

Berr C., Balard F., Blain H. & Robine J.-M. (2012). « Vieillissement, l’émergence d’une nouvelle

population », Médecine-Sciences 28, 3 : 281-287.

Boersma P. & Weenink D. (2015). Praat : Doing Phonetics by Computer (ver. 5.3.63). www.praat.org.

Bolly, C. T. & Boutet D. (soumis). « The multimodal CorpAGEst corpus : Keeping an eye on

pragmatic competence in later life ».

Bolly C. T., Crible L., Degand L. & Uygur-Distexhe D. (2015). « MDMA. Un modèle pour

l’identification et l’annotation des marqueurs discursifs “potentiels” en contexte », Discours 16.

http://discours.revues.org/9009 ; DOI : 10.4000/ discours.9009.

Bolly C. T., Masse M. & Meire Ph. (2012). Corpage. A Reference Corpus for the Elderly’s Language.

Louvain-la-Neuve : Université catholique de Louvain (Valibel - Discours et variation &

Psychological Sciences Research Institute).

Bortfeld H., Leon S., Bloom J., Schober M. & Brennan S. (2001). « Disfluency rates in conversation :

Effects of age, relationship, topic, role, and gender », Language and Speech 44 : 123-149.

Burke D. M. & Shafto M. A. (2008). « Language and aging », The Handbook of Aging and Cognition 3 :

373-443.

Christodoulides G. (2014). « Praaline : Integrating tools for speech corpus research », Proceedings

of the 9th International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland,

26-31 May 2014 : 31-34.

Corpus, 15 | 2016

132

Page 134: Corpus de français parlé et français parlé des corpus

Christodoulides G., Avanzi M. & Goldman J.-Ph. (2014). « DisMo : A morphosyntactic, disfluency

and multi-word unit annotator : An evaluation on a corpus of French spontaneous and read

speech », International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland,

26-31 May 2014 : 3902-3907.

www.corpusannotation.org/dismo.

Christodoulides G. & Avanzi M. (2015). « Automatic detection and annotation of disfluencies in

spoken French corpora », Proceedings of Interspeech, 1849-1853.

Christodoulides G. & Simon A. C. (2015). « Exploring acoustic and syntactic cues to prosodic

boundaries in French. A multi-genre corpus study », Proceedings of the 18th International Congress of

Phonetic Sciences, non-paginé.

Crible L., Dumont A., Grosman I. & Notarrigo I. (2015). Annotation des marqueurs de fluence et

disfluence dans des corpus multilingues et multimodaux, natifs et non natifs. Version 1.0. Working paper.

Université catholique de Louvain et Université de Namur.

Davis B. H. & Maclagan M. (2010). « Pauses, fillers, placeholders and formulaicity in Alzheimer’s

discourse », in N. Amiridze, B. H. Davis & M. Maclagan (éd.) Fillers, pauses and placeholders

(Typological Studies in Language 93). Amsterdam, Philadelphia : John Benjamins, 189-215.

De Cock B. (2014). Profiling Discourse Participants. Forms and Functions in Spanish Conversation and

Debates (Pragmatics & Beyond New Series 246). Amsterdam : John Benjamins.

De Cock B. & Roginsky S. (2015). « Identités discursives sur Twitter : Construction de l’identité de

député européen en période pré-électorale. Comparaison entre la France, l’Espagne et le

Royaume-Uni », in F. Liénard & S. Zlitni (éd.) Communication électronique : enjeux, stratégies et

opportunités. Limoges : Lambert-Lucas, 137-148.

Degand L. & Simon A. C. (2009). « On identifying basic discourse units in speech : Theoretical and

empirical issues », Discours 4, http://discours.revues.org/5852.

Dister A. & Simon A. C. (2007). « La transcription synchronisée des corpus oraux. Un aller-retour

entre théorie, méthodologie et traitement informatisé », Arena Romanistica 1, 1 : 54-79.

Dister A., Francard M., Hambye Ph. & Simon A. C. (2009 [2007]). « Du corpus à la banque de

données. Du son, des textes et des métadonnées. L’évolution de banque de données textuelles

orales VALIBEL (1989-2009) », Cahiers de l’Institut de linguistique de Louvain (CILL) 33, 2 : 113-129.

Durand J., Laks B. & Lyche C. (éd.) (2009). Phonologie, variation et accents du français. Paris : Hermès.

Francard M. (1993). « Trop proches pour ne pas être différents. Profils de l’insécurité linguistique

dans la communauté française de Belgique », Cahiers de l’Institut de linguistique de Louvain 19 :

61-70.

Francard M., Geron G., Wilmet R. & Wirth A. (2015). Dictionnaire des belgicismes. De Boeck :

Bruxelles.

Freund A. & Baltes P. B. (2003). « Pour un développement et un vieillissement réussis : sélection,

optimisation et compensation », Revue québécoise de psychologie 24, 3 : 27-50.

Gerstenberg A. (2009). « The multifaceted category of ‘Generation’ : Elderly French men and

women talking about May 68 », International Journal of the Sociology of Language 200 : 153-170.

Gerstenberg A. (2011). Generation und Sprachprofile im höheren Lebensalter. Untersuchungen zum

Französischen auf der Basis eines Korpus biographischer Interviews (Analecta Romanica 76). Frankfurt

am Main : Klostermann.

Corpus, 15 | 2016

133

Page 135: Corpus de français parlé et français parlé des corpus

Hambye Ph. & Simon A. C. (2009). « La prononciation du français en Belgique », in J. Durand,

B. Laks & Ch. Lyche (éd.) Phonologie, variation et accents du français. Paris : Hermès, 95-130.

Hamilton H. E. (2001). « Discourse and aging », in D. Schiffrin, D. Tannen & H. E. Hamilton (éd.)

The Handbook of Discourse Analysis. Malden, Oxford : Blackwell, 568-589.

Lee H. (2012). Langage et Maladie d’Alzheimer : Analyse multidimensionnelle d’un discours pathologique.

Thèse de doctorat (non publiée). Montpellier : Université Paul Valéry - Montpellier III.

Lee H. & Barkat-Defradas M. (2014). « Complexité phonétique et disfluence dans le vieillissement

normal et dans la maladie d’Alzheimer », SHS Web of Conferences 8. EDP Sciences : 1315-1327.

Martin L., Degand L. & Simon A. C. (2014). « Forme et fonction de la périphérie gauche dans un

corpus oral multigenre annoté », Corpus 13 : 243-265.

Mathey S. & Postal V. (2008). « Le langage », in K. Dujardin & P. Lemaire (éd.) Neuropsychologie du

vieillissement normal et pathologique. Issy-les-Moulineaux : Elsevier Masson, 79-102.

Rossi D., Dominicy M. & Kolinsky R. (2014). « The inference of affective meanings : An

experimental study », Language and Cognition, 7/3 : 351-370.

Rousier-Vercruyssen L., Lacheret A. & Fossard M. (2014). « Pauses silencieuses, planification

discursive et vieillissement langagier », Nouveaux Cahiers de linguistique française 31 : 197-203.

Searl J. P., Gabel R. M. & Fulks J. S. (2002). « Speech disfluency in centenarians », Journal of

Communication Disorders 35, 5 : 383-392.

Shriberg E. (1994). Preliminaries to a Theory of Speech Disfluencies. Thèse de doctorat. University of

California at Berkeley.

Shriberg, E. (2001). « To ‘errrr’ is human : Ecology and acoustics of speech disfluencies », Journal

of the International Phonetic Association 31, 1 : 153-169.

Simon, A. C. (éd.) (2012). La variation prosodique régionale en français. Bruxelles : De Boeck/Duculot.

Simon A. C., Francard M. & Hambye Ph. (2014). « The VALIBEL Speech Database », in J. Durand,

U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology. Oxford : Oxford University

Press, 552-561.

Smith S. W., Noda H. P., Andrews S. & Jucker A. H. (2005). « Setting the stage : How speakers

prepare listeners for the introduction of referents in dialogues and monologues », Journal of

Pragmatics 37 : 1865-1895.

Van Goethem K. & Hiligsmann Ph. (2014). « When two paths converge : Debonding and clipping of

Dutch reuze ‘lit. giant ; great’ », Journal of Germanic Linguistics 26, 1 : 31-64.

NOTES

1. La banque de données compte aussi une grande quantité d’enregistrements en cours de

traitement : 379 entrées de métadonnées encodées dans le système sans transcriptions, et

520 fichiers son sans transcription correspondante.

2. Dans les conventions de transcription VALIBEL, les symboles |- et -| indiquent le début et la fin

d'un passage de parole en chevauchement.

Corpus, 15 | 2016

134

Page 136: Corpus de français parlé et français parlé des corpus

RÉSUMÉS

Après avoir fait l’état des lieux de la base de données VALIBEL en la situant dans son contexte

institutionnel, nous mettons en exergue dans cet article quelques possibilités d’investigation

qu’offre la base en regard de ses évolutions récentes. Une attention particulière est portée à

l’outillage des corpus en termes de disfluences (avec le programme DisMo) et à l’étude du

vieillissement langagier (liée au corpus Corpage). Nous concluons en montrant en quoi

l’enrichissement constant de la base (en outillage et en corpus) permet d’ouvrir de nouvelles

pistes de recherches dans des domaines encore peu explorés en linguistique, eu égard à des

problématiques sociétales majeures.

This paper aims at giving an overview of the VALIBEL database as it stands today. In addition, it

opens up new perspectives with respect to more recent advances regarding (semi-automatic)

annotation, as well as with regard to new corpora created to address societal issues (cf. the

Corpage corpus). Particular attention is paid here to the automatic detection of disfluencies in

the corpus data (using the DisMo program), with a developmental view on language and aging.

INDEX

Mots-clés : corpus, annotation, français, disfluences, vieillissement

Keywords : corpus, annotation, French, disfluencies, aging

AUTEURS

CATHERINE T. BOLLY

Universität zu Köln, Université catholique de Louvain

GEORGE CHRISTODOULIDES

Université catholique de Louvain

ANNE CATHERINE SIMON

Université catholique de Louvain

Corpus, 15 | 2016

135

Page 137: Corpus de français parlé et français parlé des corpus

PFC, codages et représentations : laquestion du schwaPFC, coding systems and representations: the issue of schwa

Isabelle Racine, Jacques Durand et Helene N. Andreassen

Nous tenons à remercier Marie-José Béguelin, Federica Diémoz et Mathieu Avanzi pour

l’organisation du colloque « Corpus de français parlés et français des corpus » à Neuchâtel, les 8

et 9 mai 2014, journées qui sont à l’origine de cette publication. Nous remercions également

l’ensemble de nos collègues impliqués dans le programme PFC ainsi que tous les locuteurs qui ont

permis de constituer la base de données. Nous sommes également reconnaissants à Léa Courdès-

Murphy pour son aide avec les données méridionales. Le travail sur les données suisses romandes

n’aurait pas été possible sans le travail de N. Bühler, A. Claivaz, C. Moulin, J.-P. Philippe et

P. Montchaud, qui ont récolté, transcrit et codé les données, et le soutien de l’Université d’Oslo

(C. Lyche), de l’Université de Genève et de l’Université de Neuchâtel (M.-J. Béguelin et M. Avanzi).

Enfin, nous tenons à remercier Julien Eychenne pour son aide avec les scripts Praat utilisés pour

l’analyse du schwa dans les données suisses romandes.

1 L’objectif de cet article est, d’une part, de présenter un état des lieux du programme

« Phonologie du français contemporain : usages, variétés et structure » (ci-après PFC,

Durand, Laks & Lyche, 2009 ; Durand, Laks & Lyche, 2014), après plus de quinze ans

d’existence et, d’autre part, d’illustrer l’intérêt d’un tel corpus à travers la question du

schwa. Dans la deuxième partie de cet article, nous aborderons donc la problématique

du schwa en français et nous montrerons comment ce phénomène est traité dans le

programme PFC. Nous illustrerons ensuite nos propos en nous penchant tout d’abord

sur le comportement du schwa dans les variétés méridionales, que nous opposerons

aux variétés septentrionales, avant d’aborder la question du schwa dans les variétés

suisses romandes.

Corpus, 15 | 2016

136

Page 138: Corpus de français parlé et français parlé des corpus

1. Le programme « Phonologie du françaiscontemporain : usages, variétés et structure »

2 Les premières réflexions qui ont conduit à la naissance du programme1 PFC ont été

menées à la fin des années 90 dans le contexte d’un retour au premier plan de la

linguistique de corpus. Comme le souligne Laks & Calderone (2014) et Detey et al. (à

paraître), de nombreuses études sur le français sont fondées sur des données héritées

de la tradition prescriptive ou sur des exemples isolés qui, repris d’article en article,

ont fini par acquérir un faux air d’authenticité2. La construction d’un important corpus

de référence permettant de rendre compte de la diversité des usages oraux du français

dans l’ensemble de la francophonie est donc au cœur de ce programme. De nombreuses

recherches, dans des domaines variés, ont été effectuées dans ce cadre depuis plus de

quinze ans. Il nous paraît important de souligner ici que, même si le programme –

comme son nom l’indique – est centré sur la phonologie, la base de données constituée

en son sein permet des applications plus larges (cf. infra). Actuellement coordonné par

Marie-Hélène Côté (Université de Laval), Jacques Durand (Université de Toulouse),

Bernard Laks (Université de Paris Ouest Nanterre) et Chantal Lyche (Université d’Oslo),

ce projet collaboratif regroupe plus de soixante chercheurs de différents pays et fait

aujourd’hui figure de corpus de référence pour le français parlé.

3 Sur la base d’un protocole commun, les données de plus de 700 locuteurs issus de

l’ensemble de la francophonie ont été collectées – dont un peu plus de 40 % ont été

transcrites et analysées. Pour chaque enquête, les enquêteurs – qui sont choisis pour

leur connaissance du terrain – sélectionnent 10 à 12 locuteurs en faisant appel à leur

réseau de connaissances. Jusqu’ici, la variation géographique a été favorisée dans le

programme et chaque point d’enquête couvre donc une aire spécifique de la

francophonie (voir le site du projet3 pour la liste détaillée des points d’enquête

existants). Si l’on peut certes regretter le nombre relativement restreint d’informateurs

par point d’enquête (en moyenne 12 par enquête), il faut savoir que cette décision a été

dictée par des aspects purement pragmatiques. Des études pilotes ayant en effet

montré que la transcription et l’annotation des données d’un seul locuteur requièrent

entre 20 et 30 heures de travail, il n’était pas réaliste, dans un premier temps, d’aller

au-delà de ce nombre. Cela n’empêche toutefois pas les équipes disposant des

ressources humaines nécessaires d’effectuer des études à plus large échelle. C’est ce qui

est actuellement réalisé dans le projet « Langue, ville, travail, identité » (ci-après LVTI),

coordonné par Hélène Giraudo, Anne Przewozny, Jean-Michel Tarrier et Jacques

Durand, dans le cadre duquel des enquêtes à grande échelle (plus de 100 locuteurs) sont

menées conjointement à Toulouse et à Manchester (pour plus de détails, voir Durand &

Przewozny, 2012). Pour chaque point d’enquête PFC, les deux sexes sont équitablement

représentés, trois tranches d’âge sont généralement couvertes (p. ex. 20+, 40+ et 70+) et

une certaine diversité socio-économique est visée, même si cet aspect est plus difficile à

assurer avec d’aussi petits groupes de locuteurs. La méthodologie de recueil de

données, dans la droite ligne des travaux classiques de Labov, inclut, pour chaque

locuteur, quatre tâches : la lecture d’une liste de mots, la lecture d’un texte, un

entretien semi-dirigé ainsi qu’un entretien libre entre deux – parfois trois – locuteurs.

4 La liste de mots comprend 94 éléments qui doivent être lus à voix haute par tous les

locuteurs. Tous les mots de la liste appartiennent à un vocabulaire courant et sont

souvent repris d’enquêtes antérieures, ce qui garantit, d’une part, une certaine

Corpus, 15 | 2016

137

Page 139: Corpus de français parlé et français parlé des corpus

comparabilité entre PFC et ces travaux antérieurs et, d’autre part, confère une

dimension historique au programme. Bien que la liste comprenne toutes les oppositions

consonantiques classiques et l’analyse d’un certain nombre de groupes consonantiques,

les contrastes vocaliques en position accentuée ont été largement favorisés. L’étude

systématique d’autres phénomènes, tels que l’harmonie vocalique, l’allongement ou le

relâchement vocalique, aurait nécessité une extension conséquente de cette liste. Ces

phénomènes ont parfois été inclus dans les listes supplémentaires qui complètent le

protocole de certains points d’enquête. C’est le cas notamment pour les enquêtes

réalisées en Suisse romande (voir Racine & Andreassen, 2012), ainsi que pour les points

d’enquête canadiens (voir Côté, 2012). La liste PFC se termine par cinq paires minimales

potentielles : patte vs pâte, épais vs épée, jeune vs jeûne, beauté vs botté et brun vs brin, pour

lesquels l’édition 2010 du Petit Robert propose la prononciation suivante : patte /pat/,

pâte /pɑt/, épais /epɛ/, épée /epe/, jeune /ʒœn/, jeûne /ʒøn/, beauté /bote/, botté /bɔte

/, brun /bʁœ/ et brin /bʁɛ/.

5 La lecture à voix haute d’un texte constitue la deuxième tâche du protocole. Ce texte,

artificiellement construit sur le modèle d’un article de journal, inclut non seulement un

grand nombre d’oppositions vocaliques et consonantiques attestées dans les différentes

variétés de français mais également un certain nombre de phénomènes typiques du

français, tels que le schwa et la liaison notamment. Toutes les oppositions phonémiques

testées dans la liste de mots sont également présentes dans le texte, avec de nombreux

mots identiques (p. ex. : patte et pâte, jeune et jeûne, etc.).

6 Les deux dernières tâches du protocole sont un entretien semi-dirigé – qui est appelé

conversation guidée – entre l’enquêteur et l’informateur, et un entretien libre – appelé

conversation libre – entre deux, voire trois informateurs qui sont des intimes.

Idéalement, ces deux conversations devraient se distinguer au niveau du degré de

formalité, la conversation libre étant en principe moins formelle que la guidée.

Toutefois, l’expérience montre que, dans la réalité, ces deux styles de parole ne se

distinguent parfois pas autant que ce qu’ils devraient. Cette caractéristique n’est pas

spécifique au programme PFC mais se retrouve systématiquement dans toutes les

tentatives d’obtenir de la parole naturelle, tout en respectant les informateurs ainsi que

leurs droits4.

7 Afin d’assurer la comparabilité des données dans un projet aussi vaste que PFC,

l’adoption d’un format commun pour le stockage, la transcription, l’annotation et

l’analyse préliminaire des données est indispensable. Les enregistrements sonores sont

donc conservés dans un format informatique standard (format wav) et sont

accompagnés de transcriptions et d’annotations alignées avec le signal par le biais du

logiciel spécialisé Praat (Boersma & Weenink, 2014), et qui sont elles aussi conservées

dans un format standardisé ou qui peut être facilement converti (textgrid Praat). La

couche zéro du programme PFC est constituée par des transcriptions orthographiques.

Celles-ci obéissent autant que possible aux conventions de l’orthographe ordinaire.

Deux cibles sont privilégiées dans le programme PFC, à savoir le schwa et la liaison.

Pour toutes les enquêtes, ces deux phénomènes sont traités de manière systématique

par le biais d’un codage alphanumérique, effectué sous Praat, et inséré dans des tires

séparées (une tire par phénomène). Divers outils génériques ou propres au projet, tels

que par exemple le concordancier Dolmen (Eychenne & Paternostro, à paraître)

permettent ensuite d’explorer les données et de les croiser avec des métadonnées telles

Corpus, 15 | 2016

138

Page 140: Corpus de français parlé et français parlé des corpus

que l’âge de la personne ou sa profession, par exemple. À ce jour, 51 798 sites ont ainsi

été codés pour la liaison, ainsi que 202 089 en ce qui concerne le schwa.

8 Beaucoup d’énergie a été consacrée à mettre au point et expliciter les différents

codages utilisés. C’est le prix à payer, si une base de données peut être consultée par

d’autres chercheurs que les membres d’un programme et si son exploration permet

d’étayer ou d’invalider des observations et des hypothèses déjà formulées par d’autres

chercheurs. Dans la deuxième partie de cet article, nous illustrons concrètement, à

travers la problématique du schwa, le travail effectué dans le programme. Nous

présentons tout d’abord le codage élaboré pour traiter ce phénomène dans le

programme PFC, avant d’examiner le comportement du schwa dans différentes variétés

de français, méridional et suisse romand, par le biais d’une approche où se côtoient

analyses phonologiques et phonétiques. Par ce biais, nous espérons démontrer

comment un renouvellement et un élargissement des données permettent de mieux

cerner certains problèmes.

2. Le schwa et son traitement dans PFC

Le schwa – également appelé parfois « e muet », « e caduc » ou encore « e féminin »,

selon les auteurs – est une voyelle qui présente la particularité d’alterner avec zéro.

Walter (1990 : 27) la considère comme « difficile à cerner » et Verluyten (1988) va même

jusqu’à la qualifier de « voyelle problème » étant donné que presque toutes ses propriétés

sont sujettes à contestation. Elle est ainsi soumise à la variation sur plusieurs plans. Elle

peut ou non être réalisée en fonction de différents facteurs, tels que, par exemple, le

nombre et le type de consonnes, la fréquence lexicale, la provenance du locuteur, son

origine sociale, l’intelligibilité ou le style de discours ou encore le rythme ou le débit

(pour une revue détaillée de ces facteurs, voir Racine & Grosjean, 2002 ; Racine, 2008).

Par ailleurs, lorsqu’elle est réalisée, son timbre varie et peut aller de [œ] à [ø] (pour des

études récentes, voir p. ex. Fougeron et al., 2007a ou Bürki et al., 2008). Sur le plan

graphique, elle correspond généralement à un <e> non suivi d’une consonne à

l’intérieur de la même syllabe (ex. semaine, avec schwa, vs bercer, avec [ɛ]). On note

toutefois quelques exceptions, telles que certaines formes du verbe faire (ex. faisait,

faisant) ou encore monsieur.

9 Comme nous l’avons mentionné précédemment, le schwa constitue, avec la liaison,

l’une des deux cibles privilégiées du programme PFC. Comme la liaison, le schwa est

traité par le biais d’un codage alphanumérique spécifique, dans une tire dédiée de Praat.

Ce codage comprend quatre champs : le premier indique si le schwa est présent ou

absent (0 = schwa absent, 1 = schwa présent et 2 = schwa incertain), le deuxième, sa

position à l’intérieur du mot (1 = monosyllabe, 2 = 1re syllabe de polysyllabe, 3 = 2 e

syllabe et suivantes de polysyllabe, 4 = dernière syllabe de polysyllabe et 5 = métathèse),

le troisième, son contexte gauche (1 = voyelle à gauche, 2 = consonne à gauche, 3 =

début de groupe intonatif, 4 = schwa incertain à gauche, 5 = groupe consonantique

simplifié et 6 = voyelle immédiatement à gauche) et le dernier, son contexte droit (1 =

voyelle à droite, 2 = consonne à droite, 3 = frontière intonative forte ou fin d’énoncé, 4 =

frontière intonative faible). Ainsi, par exemple, dans la séquence « il a regardé », on

adoptera le codage « re0212gardé » si le schwa n’est pas réalisé et « re1212gardé » s’il

est présent (pour plus de détails concernant la procédure de codage, voir Lyche, à

paraître). L’ensemble des schwas des données transcrites orthographiquement (texte et

Corpus, 15 | 2016

139

Page 141: Corpus de français parlé et français parlé des corpus

conversations) sont annotés en suivant cette procédure. Ces données peuvent ensuite

être analysées par le biais de la plateforme Dolmen (Eychenne & Paternostro, à paraître),

qui permet d’effectuer des requêtes ciblées et fournit des statistiques descriptives sur

les données codées. Cette procédure de traitement du schwa a permis d’effectuer des

analyses détaillées de ce phénomène central de la phonologie française (voir, p. ex.,

Durand & Eychenne, 2004 ; Eychenne, 2006 ; Pustka, 2007 ; Côté, 2012 ; Hansen, 2012).

10 Dans la suite de ce travail, nous présentons deux illustrations concrètes de l’apport des

données PFC à la problématique du schwa en français, la première dans les variétés

méridionales, la deuxième dans les variétés suisses romandes.

3. Le schwa dans les variétés méridionales

Le schwa constitue l’un des phénomènes qui permet de différencier les variétés

septentrionales et méridionales de français. Comme le mentionne Coquillon & Durand

(2010 : 191), même s’il s’agit d’une simplification abusive, car la situation est en réalité

bien plus complexe qu’il n’y paraît à première vue, il est généralement reconnu que les

variétés du Midi tendent à réaliser de manière quasi systématique les schwas qui sont

généralement élidés dans les variétés au nord de la Loire.

11 D’une manière générale, la position finale présente un contraste important avec la

syllabe initiale. Ainsi, comme le relèvent Coquillon & Durand (2010), lorsqu’une

consonne finale est suivie d’un <e> graphique, elle est généralement suivie d’une

réalisation vocalique dans la plupart des variétés méridionales classiques, alors qu’il n’y

a quasiment pas de réalisation de schwa épenthétique lorsque la consonne n’est pas

suivie d’un <e> graphique (86.8 % de réalisation vs 2.5 % dans l’étude de Durand &

Eychenne, 2004). Les variétés méridionales conservatrices font donc une opposition

entre le schwa et zéro à la finale, en étroite corrélation avec la présence d’un <e>

graphique (p. ex. : lac vs laque). Ce schwa, même dans les variétés les plus

conservatrices, s’efface systématiquement devant une voyelle dans un groupe

rythmique (p. ex. : la caisse est vide).

12 En position interne et dans les premières syllabes des mots, la situation est complexe.

En position interne au sein d’un mot (p. ex. : tellement), le schwa est généralement

résistant à l’effacement. Dans cette position, le schwa phonologique que l’on

reconstruit ne peut être justifié que par sa position faible et la loi de position à gauche,

car sa qualité phonétique est très variable. En syllabe initiale de mot (p. ex. : lever), il y a

identité phonétique avec une voyelle antérieure arrondie stable (p. ex. : leurrer) et donc

aucune justification pour poser un schwa (Durand, Slater & Wise, 1987 ; Durand, 2009).

Dans cette position, la grande majorité des voyelles est donc maintenue. D’un point de

vue phonologique, la position finale inaccentuée semble plus faible – et donc plus

propice à l’effacement – que la position interne, qui, à son tour, est plus faible que

l’initiale de mot (Coquillon & Durand, 2010).

13 Toutefois, les enquêtes PFC dans le Midi démontrent que ce système est en pleine

évolution. Dans ce qui suit, nous examinerons tout d’abord cinq enquêtes, dont deux

dans de petits villages du Languedoc (Douzens, 600 habitants, et Lacaune,

3 000 habitants) et trois dans des villes (Aix-en-Provence, Marseille et Biarritz) et nous

comparerons ensuite les résultats avec l’enquête LVTI, en cours à Toulouse (cf. supra)5.

Corpus, 15 | 2016

140

Page 142: Corpus de français parlé et français parlé des corpus

14 La Figure 1 présente une comparaison des taux de présence du schwa en position

interne (p. ex. : tellement) et finale (p. ex. : une telle menteuse) dans les données tirées des

deux types de conversations PFC (guidées et libres).

Figure 1. Taux de présence de schwas en position interne et finale : comparaison de donnéesconversationnelles tirées de cinq enquêtes effectuées dans le sud de la France

Régions

Taux de présence du schwa

Position interne VCeC Position finale VCe#C

Douzens 94.9 % 78.7 %

Lacaune 97 % 78.8 %

Aix-Marseille 74.5 % 19 %

Marseille 65.2 % 17.3 %

Biarritz 71.8 % 26.4 %

15 En position finale, une différence considérable peut être observée entre, d’un côté,

Douzens et Lacaune, soit les deux villages, et, de l’autre, les trois points d’enquête

urbains, avec une tendance à l’effacement plus marquée dans ces dernières. Une

tendance similaire semble émerger pour la position interne – avec Marseille, qui paraît

être aux avant-postes –, mais le changement semble encore y être dans sa phase

initiale. Ces observations confirment qu’il existe une tendance au nivellement vers

l’usage septentrional dans les villes du Sud de la France. Cette conclusion est confortée

par l’observation que ce sont les jeunes locuteurs qui constituent le fer de lance du

changement, comme on peut l’observer dans la Figure 2, établie à partir des mêmes

cinq points d’enquête.

Figure 2. Taux de présence de schwas en position interne et finale : comparaison en fonction del’âge de données conversationnelles tirées de cinq enquêtes effectuées dans le Sud de la France

Age

Taux de présence du schwa

Position interne VCeC Position finale VCe#C

< 26 ans 21.2 % 31.4 %

26-59 ans 47.8 % 21.7 %

> 59 ans 66.9 % 78.7 %

16 Les jeunes sont les plus innovateurs, sauf pour la position finale où la tranche du milieu

semble plus en avance. En réduisant les groupes d’âge à deux tranches, à savoir moins

de 40 ans et plus de 40 ans, une différence majeure apparaît : le taux de présence du

schwa pour les locuteurs de moins de 40 ans chute à 30.3 %, alors qu’il est de 67.4 %

Corpus, 15 | 2016

141

Page 143: Corpus de français parlé et français parlé des corpus

pour les locuteurs de plus de 40 ans. Cela semble par conséquent suggérer que le

changement a déjà pris place sur deux générations.

17 L’enquête LVTI en cours à Toulouse, qui s’appuie pour l’instant sur les résultats de

21 locuteurs analysés suivant le protocole PFC, confirme les résultats ci-dessus, comme

le montre la Figure 3.

Figure 3. Taux de présence de schwas en position interne et finale : comparaison en fonction del’âge de données conversationnelles de l’enquête de Toulouse

Age

Taux de présence du schwa

Position interne VCeC Position finale VCe#C

20-23 ans 17 % 10 %

27-35 ans 21 % 15 %

53-67 ans 86 % 44 %

79-95 ans 95 % 56 %

18 Une baisse significative du taux de réalisation du schwa peut être observée chez les plus

jeunes locuteurs. Globalement, la position finale semble plus touchée par

l’affaiblissement du schwa que la position interne, qui offre une image plus contrastée.

Il faut relever également que, parmi les 21 locuteurs analysés, deux jeunes – l’un de 23,

et l’autre de 29 ans – réalisent un schwa après une consonne orthographique finale en

position pré-consonantique ou pré-pausale. On observe ainsi, chez ces deux locuteurs,

un basculement vers un système correspondant à celui en vigueur dans les variétés

septentrionales pour la position finale de mot, système dans lequel l’opposition entre

lac et laque semble donc menacée.

19 En position interne, les analyses acoustiques réalisées sur les séquences des jeunets vs

des genêts dans la lecture de la liste de mots PFC démontrent la quasi-identité

acoustique de la première voyelle de jeunets et de celle de genêts avec les valeurs

formantiques suivantes : pour jeunets, F1 = 300 Hz, F2 = 1 700 Hz et F3 = 2 200 Hz et pour

genêts, F1 = 340 Hz, F2 = 1 800 Zh et F3 = 2 200 Hz. Si l’on compare ces valeurs aux

moyennes formantiques de Calliope (1989), on observe que ces voyelles sont à rattacher

à un [ø] prototypique, par opposition à [œ] ou [ə]. Sur la base des données d’Aix-

Marseille, Coquillon & Turcsan (2012) obtiennent, pour cette position, un taux de

présence global de 91 % et montrent que seuls quelques mots fréquents peuvent être

réalisés sans schwa, tels que, par exemple, petit, serai, semaine. Durand, Slater & Wise

(1987) considèrent que, cette voyelle n’étant que très rarement soumise à alternance, il

n’y a donc pas lieu de la considérer comme un schwa phonologique, et c’est ce que les

données méridionales semblent refléter. Les données de Toulouse confirment

également cette tendance puisque les 47 items où la voyelle n’est pas réalisée dans cette

position sont tous des mots très fréquents. Cela rejoint les observations d’Eychenne

(2006), dans son étude effectuée au Pays basque, qui montre lui aussi l’importance de la

fréquence lexicale, qui nous oriente vers des cadres privilégiant les usages, tels que

celui de Bybee (2001).

Corpus, 15 | 2016

142

Page 144: Corpus de français parlé et français parlé des corpus

20 En résumé, les variétés méridionales offrent un continuum qui part de lois

« néogrammairiennes » du type /ə/ → Ø / — (#) V, et passe par des effacements à la

finale de mot qui ne sont pas liés à l’identité lexicale du mot (contexte VCe#C ou

VCe##), pour arriver à des alternances affectant les syllabes initiales de quelques mots

fréquents (semaine vs s(e)maine). Une bonne interprétation des changements en cours

exige une meilleure compréhension des contextes phonologiques et de la nature faible

de certaines positions au sein des mots. Le changement en cours ne semble néanmoins

pas uniquement explicable en termes phonologiques classiques. En dehors de la

relation de subordination sociolinguistique des variétés méridionales au français

septentrional, qui est centrale, certains de ces changements impliquent la fréquence et

relèvent plus du contact entre variétés avec emprunts de formes in toto que de

réorganisations de paramètres phonologiques.

4. Le schwa dans les variétés suisses romandes

21 Certains éléments évoqués dans l’analyse des variétés du Midi semblent pouvoir

trouver un éclaircissement dans les données des points d’enquête PFC suisses romands

(où trois points d’enquête sont achevés – Nyon, Neuchâtel et Genève –, et un est en

cours de vérification – Martigny), notamment en ce qui concerne la syllabe initiale de

mot. Si, d’une manière générale, au niveau de l’inventaire phonologique, les variétés de

Suisse romande ne diffèrent que très peu des variétés hexagonales septentrionales

(Andreassen, Maître & Racine, 2010 ; Racine & Andreassen, 2012 ; Racine, Andreassen &

Benetti, à paraître), elles sont souvent citées comme comportant un taux plus élevé

d’effacement du schwa en syllabe initiale de polysyllabes (Walter, 1982). En effet, des

occurrences telles que une ch’nille, quat(r)’ s’mestres ou encore une f’melle, si elles sont

tout à fait normales et fréquentes en Suisse romande, posent cependant problème à

toute théorie phonologique qui, directement ou indirectement, réfère les effacements à

la bonne formation des groupes consonantiques attestés à l’initiale de mots. En suivant

cette hypothèse, les données romandes semblent par conséquent fournir un cadre

propice à l’approfondissement de la question de la chute du schwa en position initiale

de mot et plus spécifiquement celle du rôle de la fréquence lexicale sur le maintien ou

l’effacement du schwa dont le pouvoir explicatif – au cœur de l’approche de Bybee

(2001) centrée sur les usages – a déjà été évoqué par différents auteurs (Racine &

Grosjean, 2002 ; Eychenne, 2006 ; Pustka, 2007 ; Racine, 2008).

22 Avant de nous concentrer uniquement sur la position initiale, nous commençons notre

examen du schwa suisse romand d’abord par la question de sa qualité vocalique en

syllabe initiale (p. ex. chemise) et médiane (p. ex. dégeler). Les codages schwa effectués

dans le cadre de PFC ne fournissant aucune indication sur la nature phonétique de la

voyelle concernée, des études acoustiques plus poussées s’avèrent par conséquent

indispensables. Depuis Dell (1973), de nombreux travaux générativistes ont défendu,

pour le schwa, une identité avec la voyelle [œ]. Toutefois, comme nous l’avons vu

précédemment, cela ne semble pas être le cas pour les locuteurs méridionaux, et la

situation est encore différente en Suisse romande.

23 Bürki et al. (2008) ont comparé les réalisations du schwa dans la liste de mots et le texte

lu de trois points d’enquête PFC – Brunoy (Ile-de-France), Québec (ville) et Nyon (Suisse

romande). Les schwas de syllabe initiale (p. ex. chemise, petit) et médiane (p. ex.

indiqueraient, dégeler) de 9 mots présentant une alternance dans les données (présence/

Corpus, 15 | 2016

143

Page 145: Corpus de français parlé et français parlé des corpus

absence du schwa) – soit 294 occurrences au total, dont 150 produites avec schwa – ont

été comparés aux réalisations des voyelles /i, u, a, œ, ø/. Les résultats montrent d’une

part qu’à Nyon la qualité phonétique de la voyelle de ces mots diffère de celle de mots

tels que neuf ou deux. Le schwa présente en effet une aperture intermédiaire par

rapport aux deux autres voyelles, tout en étant moins antérieur que celles-ci. Au niveau

de l’arrondissement, il est plus proche de [œ] que de [ø]. Les données montrent d’autre

part qu’il se distingue du schwa de Brunoy, celui-ci étant plus fermé, tout comme

semble l’être l’ensemble du système vocalique de cette variété d’Ile-de-France, par

rapport aux deux autres régions. Ainsi, le schwa des locuteurs nyonnais se différencie à

la fois de celui des deux autres variétés et des deux autres voyelles moyennes

antérieures [œ] et [ø]. Si l’on suit l’hypothèse de Walter (1976), cette étude montre par

conséquent que les locuteurs nyonnais possèdent un vrai schwa phonétique, différent

des deux autres voyelles moyennes antérieures. Cette position semble très dynamique

dans les variétés romandes puisque l’on peut fréquemment y observer des formes qui

certes apparaissent dans les variétés septentrionales mais de manière beaucoup moins

systématique. Racine et Grosjean (2002), Racine (2007) et Racine (2008) montrent que,

comme nous l’avons relevé pour expliquer les données méridionales, en Suisse

romande, la fréquence lexicale des mots est une variable importante (p. ex. schwa

davantage maintenu dans demeure que dans demande), de même que la fréquence

estimée de production des deux variantes, avec et sans schwa, et que ces deux facteurs

semblent constituer de meilleurs prédicteurs des productions de nos locuteurs que le

contexte segmental environnant. Au niveau de la fréquence estimée des variantes,

Racine (2008) observe un décalage dans les jugements français (région de Nantes) et

suisses (région de Neuchâtel) fournis pour 378 substantifs avec un schwa en syllabe

initiale (p. ex. la semaine). Les Suisses romands acceptent en effet mieux l’effacement du

schwa dans ce type de mots que les Français, avec des différences parfois très saillantes

pour certains mots : ainsi, si dans le mot femelle, l’alternance (femelle/f’melle) est tout à

fait autorisée à Neuchâtel – et de manière générale en Suisse romande –, cela ne semble

pas du tout être le cas à Nantes.

24 Nous terminons cet examen du schwa suisse en abordant la question de sa durée en

position initiale. Dans une étude basée sur les productions de 16 locuteurs suisses

romands, Racine & Grosjean (2002) ont obtenu des résultats intéressants. Ils ont tout

d’abord montré qu’il s’agit d’une voyelle relativement brève, avec une durée relative

qui s’échelonne entre 6.11 % et 24.92 % de la durée totale du mot. Leurs résultats

révèlent également l’existence d’une corrélation entre la présence du schwa et sa

durée : pour un mot donné, plus le taux de présence est élevé, plus le schwa, lorsqu’il

est produit, est long. Ainsi pour le mot menu, qui obtient un taux de présence de

81.25 %, la durée moyenne du schwa – lorsqu’il est présent – représente 20.29 % de la

durée totale du mot. Pour le mot repassage, en revanche, le taux de présence n’est que

de 26.67 % et la durée du schwa ne représente que 7.42 % de la durée totale du mot. Ces

observations rejoignent celles d’autres travaux sur le français hexagonal qui ont

montré que le schwa est sujet à une réduction spectrale et temporelle (voir Bürki et al.,

2007 et, pour des données similaires pour l’anglais, voir Patterson et al., 2003), tout

comme d’autres voyelles du français (voir p. ex. Su, 2003 et Adda-Decker et al., 2005).

25 Dans la continuité de ces travaux, nous avons mené une étude comparative sur les

données PFC des deux conversations de trois points d’enquête suisses, Martigny,

Neuchâtel et Nyon. Douze locuteurs d’âge moyen (entre 42 et 59 ans) ont été

sélectionnés, quatre dans chaque enquête (2 femmes et 2 hommes). Dans les parties

Corpus, 15 | 2016

144

Page 146: Corpus de français parlé et français parlé des corpus

transcrites des deux conversations PFC (10 minutes par conversation), tous les mots

contenant un schwa en syllabe initiale, réalisé ou non, ont été délimités

(579 occurrences au total représentant 154 mots différents). Sur une base auditive et

visuelle, la présence du schwa a été déterminée par deux phonéticiennes

expérimentées. En outre, lorsque le schwa était présent, sa durée a été délimitée

également sur une base acoustique et visuelle. À l’aide d’un script Praat, la durée du

schwa a été calculée en fonction de la durée totale du mot (= durée relative). Des analyses

statistiques ont ensuite été conduites afin de déterminer si la région (Martigny,

Neuchâtel, Nyon) a un effet sur le taux de présence du schwa ainsi que sur sa durée

relative.

26 Tout d’abord, le taux de présence global du schwa dans l’ensemble du corpus s’élève à

29.02 %. Hansen (1994), dans son étude réalisée à Paris, obtient quant à elle, en

conversation, un taux de présence du schwa de 37 %. Ce résultat semble donc confirmer

qu’en syllabe initiale de mot, le schwa a davantage tendance à chuter en Suisse

romande que dans les variétés hexagonales septentrionales, ce qui est cohérent avec les

observations de Walter (1982) et de Racine (2008). Ensuite, les résultats montrent que la

durée relative moyenne du schwa dans l’ensemble du corpus est de 19.39 %, avec des

valeurs s’échelonnant entre 5.02 % et 37.17 %. (vs 6.11 % – 24.92 % dans l’étude de

Racine & Grosjean, 2002). En comparaison, sur la base de données radiophoniques

françaises, Bürki et al. (2011), obtiennent une durée relative moyenne du schwa de 15 %.

Ces résultats confirment donc que le schwa est une voyelle relativement brève

comparée à d’autres voyelles du français (Fougeron et al., 2007b, Gendrot & Adda-

Decker, 2012).

27 Lorsque l’on examine les données en fonction de la région, les résultats montrent un

effet global de cette variable sur le taux de présence du schwa (p <0.001), avec un taux

plus élevé pour Martigny et Nyon (avec respectivement 30.91 % et 38.76 %, n.s.)

comparé à Neuchâtel (18.39 %, p <0.001 pour chaque comparaison : Martigny-Neuchâtel

et Nyon-Neuchâtel).

28 Les données montrent également un effet global de la région sur la durée relative du

schwa (p <0.01), avec des schwas plus courts pour les locuteurs de Martigny et de Nyon

(avec respectivement 17.96 % et 19.37 %, n.s.) comparés à ceux des locuteurs

neuchâtelois (22.55 %, p <0.05 pour la différence Martigny-Neuchâtel et p <0.01 pour

celle entre Nyon et Neuchâtel)6.

29 Ces résultats révèlent donc des différences régionales importantes. Les données

neuchâteloises présentent un taux de présence significativement moins élevé que celui

des deux autres régions, tout en se différenciant de ces dernières également par la

durée du schwa, plus long dans cette variété. Les locuteurs de Nyon et de Martigny

semblent donc maintenir davantage le schwa que les Neuchâtelois, mais avec des

schwas plus variables, qui peuvent parfois être très courts. Cela semble indiquer que, si

les Neuchâtelois préfèrent un système dichotomique (présence vs absence), les

locuteurs de Martigny et de Nyon ont plutôt recours à un système continu, dans lequel

le schwa est réduit de manière graduelle. Ces résultats questionnent l’analyse

phonologique traditionnelle du schwa français et sont susceptibles d’offrir une

opportunité de l’affiner. Dans la plupart des approches traditionnelles, l’alternance

voyelle/zéro est vue comme un processus catégoriel et dichotomique, à savoir que soit

la cible articulatoire de la voyelle est présente (p. ex. semaine), soit elle est absente (p.

ex. s’maine). De plus, l’alternance voyelle/zéro est traditionnellement considérée

Corpus, 15 | 2016

145

Page 147: Corpus de français parlé et français parlé des corpus

comme un processus phonologique et non phonétique, même si des travaux récents ont

montré l’existence d’une certaine variabilité acoustique pour le schwa, qui peut être

fortement réduit (Bürki et al., 2011). Dans ce sens, les données romandes sont

intéressantes puisque, d’une part, les Neuchâtelois semblent refléter la dichotomie de

l’analyse phonologique traditionnelle, avec alternance schwa/zéro, alors que les

données des locuteurs de Nyon et de Martigny se conforment davantage à une analyse

plus phonétique, avec un processus de réduction graduelle. En outre, au niveau

psycholinguistique, ces résultats apportent des données intéressantes dans le débat qui

oppose les tenants de l’approche abstractionniste à ceux de l’approche exemplariste, en

favorisant plutôt la deuxième approche ou une approche intermédiaire, très en vogue

actuellement, celle des modèles hybrides (Nguyen, Wauquier & Tuller, 2009).

5. Conclusion

30 Après plus de quinze ans d’existence, le programme PFC offre une base de données

conséquente (plus d’un million de mots). Si, comme nous l’avons mentionné

précédemment, le protocole tel qu’il a été appliqué jusqu’ici a ses limites, notamment

en ce qui concerne le nombre restreint de locuteurs par point d’enquête, et que des

études à plus large échelle sont donc nécessaires afin de compléter le panorama – ce

qui est justement l’objectif du projet LVTI –, il nous paraît toutefois important de

souligner que l’exploitation des données recueillies dans ce cadre ne se limite pas aux

aspects phonétiques et phonologiques. En effet, les conversations peuvent également

être exploitées d’un point de vue lexical, syntaxique ou discursif, comme le montrent

par exemple les travaux de Boutin & Kouamé (2010), Rossi-Gensane (2010), Skattum

(2011), Buscail (2013) ainsi que pour la diffusion des savoirs (voir p. ex. Gess et al., 2012

et Detey et al., 2010).

31 En outre, l’un des objectifs de base du programme était aussi de fournir du matériel

exploitable pour l’enseignement et l’apprentissage du français. Cette perspective

didactique est développée dans deux volets récents du programme : dans le cadre du

projet « PFC-Enseignement du français » (PFC-EF ; Detey et al., 2009 ; Detey & Lyche, à

paraître) et, d’autre part, dans le projet « Interphonologie du français contemporain »

(IPFC ; Detey et al., à paraître ; Racine & Detey, ce volume). PFC-EF propose une

exploitation des données du corpus à des fins didactiques et se situe donc dans la

continuité des travaux lancés il y a plus d’un demi-siècle par la parution du Français

fondamental (Gougenheim et al., 1956). Le projet IPFC, qui constitue quant à lui le volet

non natif de PFC, est davantage orienté vers la recherche puisqu’il vise à constituer une

base de données de français produit par des apprenants non natifs de différentes L1

afin d’étudier l’acquisition phonologique du français L2 (pour une présentation

détaillée de ce volet, voir Racine & Detey, ce volume).

32 Pour conclure, concernant plus précisément le schwa, les analyses présentées ci-dessus

illustrent que la méthodologie PFC offre une approche qui permet de renouveler les

données dans la diversité des usages, de les explorer sous divers angles et de modéliser

les systèmes dans leur dynamique interne. En refusant de placer notre travail au sein

de cases étanches (phonétique, phonologie, sociolinguistique, dialectologie,

psycholinguistique), nous pensons contribuer à la construction d’une véritable

linguistique de l’oral. C’est pour cela que nous défendons un programme qui, partant

Corpus, 15 | 2016

146

Page 148: Corpus de français parlé et français parlé des corpus

d’enquêtes de terrain, mène à des analyses qui puisent dans plusieurs traditions pour

offrir une vision plus globale de la phonologie du français.

BIBLIOGRAPHIE

Adda-Decker M., Boula de Mareüil P., Adda G. & Lamel L. (2005). « Investigating syllabic

structures and their variation in spontaneous French », Speech Communication 46 : 119-139.

Andreassen H. N., Maître R. & Racine I. (2010). « La Suisse », in S. Detey, J. Durand, B. Laks &

C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement.

Paris : Ophrys, 211-233.

Andreassen H. N. & Racine I. (à paraître). « Variation in Switzerland : the behaviour of schwa in

Martigny, Neuchâtel and Nyon », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken

French. Oxford : Oxford University Press.

Baude O. (2006). Corpus oraux. Guide des bonnes pratiques. Centre de ressources pour la description

de l’oral (CRDO). Paris : CNRS Éditions.

Boersma P. & Weenink D. (2014). Praat : doing phonetics by computer. http://www.praat.org.

Boutin B. A. & Kouamé K. (2010), « Analyse énonciative comparée des systèmes hypothétiques en

si en français de Côte d’Ivoire et en sε en baoulé dans un discours fictionnel », Autour du verbe, Le

français en Afrique 26 : 71-84.

Bürki A., Fougeron C., Gendrot C. & Frauenfelder U. (2007). « De l’ambiguïté de la chute du schwa

en français », Schwa(s), Actes des 5es Journées d’études linguistiques 2007, Université de Nantes,

27-28 juin 2007, 83-88.

Bürki A., Fougeron C., Gendrot C. & Frauenfelder U. (2011). « Phonetic reduction versus

phonological deletion of French schwa : some methodological issues », Journal of Phonetics 39 :

279-288.

Bürki A., Racine I., Andreassen H. N., Fougeron C. & Frauenfelder U. (2008). « Timbre du schwa en

français et variation régionale : une étude comparative », Actes des 27es Journées d’études sur la

parole, juin 2008, Avignon.

Buscail L. (2013). Étude comparative des pronoms démonstratifs neutres anglais et français à l’oral :

référence indexicale, structure du discours et formalisation en Grammaire notionnelle dépendancielle.

Thèse de doctorat, Université de Toulouse-Le-Mirail.

Bybee J. L. (2001). Phonology and Language Use. Cambridge : Cambridge University Press.

Calliope (1989). La parole et son traitement automatique. Paris : Masson.

Coquillon A.-L. & Durand J. (2010). « Le français méridional : éléments de synthèse », in S. Detey,

J. Durand, B. Laks & C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources

pour l’enseignement. Paris : Ophrys, 185-197.

Coquillon A.-L. & Turcsan G. (2012). « An overview of the phonological and phonetic properties of

Southern French. Data from two Marseille surveys », in R. Gess, C. Lyche & T. Meisenburg (éd.)

Corpus, 15 | 2016

147

Page 149: Corpus de français parlé et français parlé des corpus

Phonological Variation in French : Illustrations from Three continents. Amsterdam/ Philadelphia : John

Benjamins, 105-127.

Côté M.-H. (2012). « Laurentian French (Québec) : extra vowels, missing schwas and surprising

liaison consonants », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French :

Illustrations from Three continents. Amsterdam/Philadelphia : John Benjamins, 235-274.

Courdès-Murphy L. (2013). Contribution à l’étude de la phonologie du français contemporain : le français

parlé à Toulouse. Mémoire de M1, Université de Toulouse-Le-Mirail.

Dell F. (1973). Les règles et des sons. Introduction à la phonologie générative. Paris : Hermann.

Detey S., Durand J., Laks B. & Lyche C. (2010). Les variétés du français parlé dans l’espace francophone :

ressources pour l’enseignement. Paris : Ophrys.

Detey S., Durand J., Laks B. & Lyche C. (à paraître). « The PFC Programme and its methodological

framework », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford :

Oxford University Press.

Detey S. & Lyche C. (à paraître). « A framework for the pedagogical use of a corpus of spoken

French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford

University Press.

Detey S., Lyche C., Tchobanov A., Durand J. & Laks B. (2009). « Ressources phonologiques au

service de la didactique de l’oral : le projet PFC-EF », Mélanges CRAPEL 31 : 223-236.

Detey S., Racine I., Kawaguchi Y. & Zay F. (à paraître). « Variation among non native speakers :

Japanese and Spanish learners of French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties

of Spoken French. Oxford : Oxford University Press.

Durand J. (2009). « On the scope of linguistics : data, intuitions, corpora », in Y. Kawaguchi,

M. Minegishi & J. Durand (éd.) Corpus Analysis and Variation in Linguistics. Amsterdam/

Philadelphia : John Benjamins, 25-52.

Durand J. (2014). « À la recherche du schwa : données, méthodes et théories », Actes du CMLF 2014,

4e Congrès mondial de linguistique française, EDP Sciences, 23-43.

Durand J. & Eychenne J. (2004). « Le schwa en français. Pourquoi des corpus ? », Corpus 3 : 311-356.

Durand J., Eychenne J. & Lyche C. (2013). « On levelling and counter-levelling in French : a

phonological perspective », in M. C. Jones & Hornsby (éd.) Language and Social Structure in Urban

France. Leeds : Maney, 58-68.

Durand J., Laks B. & Lyche C. (2009). Phonologie, variation et accents du français. Paris : Hermès.

Durand J., Laks B. & Lyche C. (2014). « French phonology from a corpus perspective : the PFC

programme », in J. Durand, U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology.

Oxford : Oxford University Press, 486-497.

Durand J. & Przewozny A. (2012). « La phonologie de l’anglais contemporain : usages, variétés et

structure », Revue française de linguistique appliquée 17 (1) : 25-36.

Durand J., Slater C. & Wise H. (1987). « Observations on schwa in Southern French », Linguistics

25(2) : 983-1004.

Eychenne J. (2006). Aspects de la phonologie du schwa en français contemporain. Optimalité, visibilité

prosodique, gradience. Thèse de doctorat, Université de Toulouse-Le Mirail.

Corpus, 15 | 2016

148

Page 150: Corpus de français parlé et français parlé des corpus

Eychenne J., Lyche C., Durand J. & Coquillon A.-L. (2014). « Quelles données pour la liaison en

français : la question des corpus », in C. Soum-Favaro, A.-L. Coquillon & J.-P. Chevrot (éd.) La

liaison : approches contemporaines. Berne : Peter Lang, 33-60.

Eychenne J. & Paternostro R. (à paraître). « Analyzing transcribed speech with Dolmen », in

S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University

Press.

Féry C. (2003). Liaison and syllable structure in French. Manuscrit.

Fougeron C., Gendrot C. & Bürki A. (2007a). « On the phonetic identity of French schwa compared

to /ø/ and /œ/ », Schwa(s), Actes des 5es Journées d’études linguistiques 2007, Université de

Nantes, 27-28 juin 2007 : 191-197.

Fougeron C., Gendrot C. & Bürki A. (2007b). « On the acoustic characteristics of French schwa »,

Proceedings of the 16th International Congress of Phonetic Sciences, Saarbrücken, Germany : 941-944.

Gendrot C. & Adda-Decker M. (2012). « Influence du contexte consonantique et de la durée des

voyelles sur la centralisation des voyelles orales en français », in M. Embarki & C. Dodane (éd.) La

coarticulation : des indices à la représentation. Paris : l’Harmattan, 159-171.

Gess R., Lyche C & Meisenburg T. (2012). Phonological Variation in French : Illustrations from Three

Continents. Amsterdam/Philadelphia : John Benjamins.

Gougenheim G., Michéa R., Rivenc P. & Sauvageot A. (1956). L’élaboration du français élémentaire :

étude sur l’établissement d’un vocabulaire et d’une grammaire de base. Paris : Didier.

Hansen A. B. (1994). « Étude du E caduc — stabilisation en cours et variations lexicales », Journal of

French Language Studies 4 : 25-54.

Hansen A. B. (2012). « A study of young Parisian speech : Some trends in pronunciation », in

R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French : Illustrations from Three

Continents. Amsterdam/ Philadelphia : John Benjamins, 151-172.

Laks B. & Calderone B. (2014). « La liaison en français contemporain : approches lexicales et

exemplaristes », in C. Soum-Favaro, A.-L. Coquillon & J.-P. Chevrot (éd.) La Liaison : approches

contemporaines. Berne : Peter Lang, 61-89.

Lyche C. (à paraître). « Approaching variation in PFC : the schwa level », in S. Detey, J. Durand,

B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Nguyen N., Wauquier S. & Tuller B. (2009). « The dynamical approach to speech perception : from

fine phonetic detail to abstract phonological categories », in F. Pellegrino, E. Marsico, I. Chitoran

& C. Coupé (éd.) Approaches to Phonological Complexity. Berlin : Mouton de Gruyter, 193-217.

Patterson D., LoCasto P. C. & Connine C. M. (2003). « Corpora analyses of frequency deletion in

conversational American English », Phonetica 60 : 45-68.

Pustka E. (2007). Phonologie et variétés en contact. Aveyronnais et Guadeloupéens à Paris. Tübingen :

Narr.

Racine I. (2007). « Effacement du schwa dans des mots lexicaux : constitution d’une base de

données et analyse comparative », Schwa(s). Actes des 5es Journées d’études linguistiques 2007,

Université de Nantes, 27-28 juin 2007 : 125-130.

Racine I. (2008). Les effets de l’effacement du schwa sur la production et la perception de la parole en

français. Thèse de doctorat, Université de Genève.

Corpus, 15 | 2016

149

Page 151: Corpus de français parlé et français parlé des corpus

Racine I. & Andreassen H. N. (2012). « A phonological study of a Swiss French variety : data from

the Canton of Neuchâtel », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in

French : Illustrations from Three Continents. Amsterdam : John Benjamins, 173-207.

Racine I., Andreassen H. N. & Benetti L. (à paraître). « Swiss French », in S. Detey, J. Durand,

B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Racine I. & Grosjean F. (2002). « La production du E caduc facultatif est-elle prévisible ? Un début

de réponse », Journal of French Language Studies 12 (3) : 307-326.

Rossi-Gensane N. (2010). « Oralité, syntaxe et discours », in S. Detey, J. Durand, B. Laks & C. Lyche

(éd.) Les Variétés du français parlé dans l’espace francophone : Ressources pour l’enseignement. Paris :

Ophrys, 83-106.

Skattum I. (2011). « Si j’étais riche… constructions hypothétiques », Le français en Afrique 26 :

49-70.

Su T.-T. (2003). Étude sur la disparition des phonèmes dans la parole spontanée du français et du

mandarin de Taïwan. Thèse de doctorat, Université Sorbonne Nouvelle-Paris 3.

Verluyten S. P. (1988). La Phonologie du schwa français. Amsterdam and Philadelphia : John

Benjamins.

Walter H. (1976). La Dynamique des phonèmes dans le lexique français contemporain. Paris : France-

Expansion.

Walter H. (1982). Enquête phonologique et variétés régionales du français. Paris : PUF.

Walter H. (1990). « Une voyelle qui ne veut pas mourir », in J. N. Green & W. Ayres-Bennett (éd.)

Variation and Change in French. New York : Routledge, 27-36.

NOTES

1. Même si nous utilisons en alternance les termes « projet » et « programme », ce dernier nous

semble plus représentatif de la diversité des recherches effectuées dans le cadre de PFC.

2. C’est le cas notamment pour la liaison où, comme le relèvent Eychenne et al. (2014 : 34),

certains exemples, tels que le savant [t] anglais ou le sot [t] aigle, que l’on trouve notamment chez

Féry (2003), ont perduré.

3. www.projet-pfc.net

4. À ce titre, mentionnons ici qu’un formulaire de consentement spécifiant la nature des

enregistrements ainsi que leurs usages possibles doit être signé par chaque informateur,

préalablement à tout enregistrement. Dans ce sens, le protocole est conforme aux principes

éthiques définis pour la France par Baude (2006).

5. Une partie des données et des réflexions qui s’ensuivent ont bénéficié des commentaires des

participants à CMLF 2014, à Berlin, ainsi que ceux des relecteurs de Durand et al. (2013) et de

Durand (2014). Qu’ils en soient ici remerciés. Nous remercions également Léa Courdès-Murphy

pour le partage des données de Toulouse, collectées dans le cadre du projet LVTI (voir Courdès-

Murphy, 2013).

6. Pour une présentation plus détaillée de ces données ainsi qu’une discussion approfondie des

résultats, voir Andreassen & Racine (à paraître).

Corpus, 15 | 2016

150

Page 152: Corpus de français parlé et français parlé des corpus

RÉSUMÉS

L’objectif de cet article est de faire le point sur le programme de recherche PFC (« Phonologie du

français contemporain : usages, variétés et structure »), plus de quinze ans après son lancement et

d’illustrer le travail mené dans ce cadre par la question du schwa, phénomène bien connu dans le

domaine de la variation phonologique et central à la phonologie du français. Après avoir

brièvement présenté le programme, nous abordons la question du schwa en français et

expliquons son traitement dans PFC. Nous illustrons ensuite le travail effectué en nous penchant

tout d’abord sur les variétés méridionales, que nous opposons aux variétés septentrionales, avant

d’aborder la question du schwa dans les variétés suisses romandes.

In this paper, we present the research programme “Phonology of Contemporary French : usage,

varieties and structure” (PFC). After more than 15 years of existence, the PFC corpus has become a

reference in the field of oral French. The methodology adopted in the programme is then

illustrated through the phenomenon of schwa, which is central to the phonology of French and

one of the foci of the PFC venture. First, we examine the behaviour of schwa in the Southern

varieties of French (vs. Northern varieties) and then we present an experimental study on schwa

in three varieties of Swiss French.

INDEX

Mots-clés : schwa, corpus, français parlé, phonétique, phonologie, PFC, variation diatopique,

variétés suisses romandes, variétés méridionales

Keywords : schwa, corpus, oral French, phonetics, phonology, PFC, diatopic variation, Swiss

French, Southern French

AUTEURS

ISABELLE RACINE

ELCF, Université de Genève

JACQUES DURAND

Université de Toulouse 2, UMR5263 et IUF

HELENE N. ANDREASSEN

UiT, Université arctique de Norvège

Corpus, 15 | 2016

151

Page 153: Corpus de français parlé et français parlé des corpus

La liaison dans un corpusd’apprenants : Le projet« Interphonologie du FrançaisContemporain » (IPFC)Liaison in the Interphonology of Contemporary French (IPFC) learner corpus

Isabelle Racine et Sylvain Detey

Nous tenons à remercier Marie-José Béguelin, Fédérica Diémoz et Mathieu Avanzi pour

l’organisation du colloque « Corpus de français parlé et français parlés des corpus », à Neuchâtel,

les 8 et 9 mai 2014, journées qui sont à la base de cette publication. Nous remercions également

Yuji Kawaguchi qui codirige le projet IPFC avec nous, ainsi que Julien Eychenne pour le

développement de Dolmen-IPFC. Le travail présenté ici n’aurait pas été possible sans le précieux

concours de Marion Didelot, Tanjema Majeed, Cécile Mollet, Marie-Laure Sandoz et Roberto

Paternostro, qui ont transcrit, codé et vérifié les données. Enfin, nous tenons à remercier

également tous nos collègues impliqués dans IPFC pour leur dynamisme qui contribue à faire

vivre ce projet, ainsi que tous les apprenants qui ont donné de leur temps pour la constitution de

ce corpus.

1 Si l’apport de la linguistique de corpus à l’étude du français parlé par des locuteurs

natifs n’est plus à démontrer, comme en témoignent les différents chapitres qui

constituent ce volume, il en va autrement lorsqu’il s’agit de la parole de locuteurs non

natifs. Dans le domaine de l’acquisition du français langue étrangère ou seconde (ci-

après L2)1, les études basées sur de grands corpus ne sont en effet pas légion2, et c’est

encore moins le cas lorsque l’on se concentre sur les aspects phonétiques et

phonologiques.

2 Les principaux modèles théoriques d’acquisition phonologique d’une L2 sont en effet le

plus souvent fondés sur des données issues de parole « de laboratoire » qui sont trop

restreintes tant au niveau du style de parole que du nombre de locuteurs et de

structures étudiés (Zampini, 2008). Comme le mentionne Gut (2009, 2014), l’approche

par corpus permet en partie de dépasser ces limitations et d’élargir le regard porté sur

Corpus, 15 | 2016

152

Page 154: Corpus de français parlé et français parlé des corpus

l’acquisition phonologique d’une L2, en intégrant notamment la dimension de

comparabilité inter-tâches et inter-apprenants d’une même L2 ou de L2 différentes.

3 Afin de combler ce retard en la matière, de nombreux projets de corpus L2 ont vu le

jour ces dix dernières années et ce pour différentes langues : en néerlandais L2 (Neri et

al., 2006), en polonais L2 (Cylwik et al., 2009), en allemand L2 et en anglais L2 dans un

contexte européen (Gut, 2009) ou asiatique (Visceglia et al., 2009), et ce, non seulement

sur le plan segmental mais aussi suprasegmental (Trouvain & Gut, 2007 ; Meng et al.,

2009). Ce champ est toutefois resté peu exploité en ce qui concerne le français L2, et

c’est ce qui a motivé le lancement, en 2008, du projet « Interphonologie du français

contemporain » (Detey & Kawaguchi, 2008 ; Racine et al., 2012 ; Detey & Racine, 2012,

Detey et al., à paraître3, ci-après IPFC), qui constitue l’une des extensions récentes du

programme « Phonologie du français contemporain : usages, variétés et structure »

(PFC ; Durand, Laks & Lyche, 2009, 2014 ; Racine, Durand & Andreassen, ce volume).

Après sept ans d’existence, IPFC assure donc, conjointement à d’autres projets plus

récents (le corpus Coreil, Delais-Roussarie & Yoo, 2010 et le corpus Phodifle, Landron et

al., 2011), la présence du français aux côtés des travaux menés dans d’autres langues.

4 L’objectif du présent article est double : d’une part, il vise à offrir une brève

présentation ainsi qu’un état des lieux du projet IPFC après sept ans d’existence et,

d’autre part, à illustrer l’intérêt d’un tel corpus pour l’étude de l’acquisition de la

phonologie du français L2, ce que nous nous proposons de faire par le biais d’un

phénomène qui constitue un passage obligé dans l’enseignement du français langue

étrangère (ci-après FLE), à savoir la liaison. Dans la deuxième partie de cet article, nous

examinerons donc la question de l’acquisition de la liaison en français L2 et de ses

enjeux pour l’enseignement. Nous expliquerons comment la liaison est traitée dans le

projet IPFC avant de présenter une analyse des productions de liaison issues de la

lecture du texte par des apprenants hispanophones et japonophones. Par ce biais, nous

montrerons en quoi les données IPFC permettent d’enrichir la réflexion sur la liaison

en L2, qui devrait permettre, à terme, un renouvellement du matériel pédagogique

pour l’enseignement de cette question.

1. Le projet « Interphonologie du françaiscontemporain »

5 L’objectif du projet IPFC est de constituer, analyser et mettre à disposition un corpus de

recherche de FLE varié. La base de données consiste en un ensemble de points

d’enquête, rassemblant des populations d’apprenants de profils linguistiques aussi

similaires que possible (même variété de L1, même niveau de compétence linguistique

en français d’après les descripteurs du Cadre européen commun de référence pour les

langues (CECRL) et, si possible, parcours d’apprentissage similaire). Dans la lignée de

PFC, un focus particulier a été mis sur l’analyse de la variation et sur la comparabilité

des données. Le protocole de recueil de données est par conséquent identique pour

toutes les L1 et est resté le plus proche possible de celui de PFC au niveau des tâches,

sans exclure évidemment une adaptation de ses modalités à des populations

d’apprenants (pour une description du protocole PFC, voir Racine, Durand &

Andreassen, ce volume).

Corpus, 15 | 2016

153

Page 155: Corpus de français parlé et français parlé des corpus

6 Le recueil de données est constitué de six tâches : 1) la répétition d’une liste spécifique

de mots produits par un locuteur natif, 2) la lecture de la liste de mots PFC, 3) la lecture

de la même liste spécifique qui a été répétée dans la première tâche, 4) la lecture du

texte PFC, 5) un entretien guidé avec un natif, le plus souvent un enseignant, et 6) une

interaction semi-contrainte entre deux apprenants.

7 La liste spécifique comprend à la fois des difficultés qui sont partagées par l’ensemble

des apprenants, telles que les voyelles nasales ou antérieures arrondies, ainsi que des

difficultés plus spécifiques à chaque population d’apprenants ciblée, comme par

exemple les occlusives sonores en initiale de mots pour les apprenants suisses

alémaniques ou les groupes consonantiques pour les japonophones. La tâche de

répétition a été incluse de manière à contourner les effets orthographiques induits par

une tâche de lecture (Detey, 2005 ; Vendelin & Peperkamp, 2006 ; Bassetti, 2006).

L’entretien guidé, quant à lui, comporte des questions fermées et ouvertes, qui sont

adaptées au niveau de l’apprenant ainsi qu’au contexte dans lequel se déroule son

apprentissage (homoglotte vs hétéroglotte). L’interaction semi-contrainte débute par

une brève présentation de l’un des apprenants sur un sujet spécifique, suivie d’une

série de questions-réponses qui se transforme généralement en discussion libre entre

les deux intervenants. Les rôles sont ensuite inversés. Un questionnaire biographique

complète le protocole.

8 Si le projet IPFC a débuté avec la constitution d’un corpus d’apprenants japonophones

et d’un corpus d’apprenants hispanophones, d’autres chercheurs s’y sont depuis

associés, et le projet regroupe actuellement quinze équipes travaillant avec des

apprenants de L1 différentes (allemand, anglais canadien, arabe, coréen, danois,

espagnol, grec, italien, japonais, néerlandais, norvégien, portugais brésilien, russe,

suédois et turc). De nouvelles équipes s’y adjoignent régulièrement. Ainsi, des projets

avec des apprenants malais et tchèques sont par exemple en cours d’élaboration. En

parallèle, le travail sur les L1 déjà représentées dans le projet s’élargit. C’est le cas pour

l’italien où, outre les corpus de Milan, Trieste et Rome, un corpus avec des apprenants

tessinois est en cours de constitution, de même que pour l’allemand, où des données

d’apprenants autrichiens et suisses allemands sont également collectées depuis peu4.

9 L’ensemble du corpus ainsi recueilli représente environ une heure de données par

apprenant. Les enregistrements sont transcrits orthographiquement avec alignement

au signal – sous Praat (Boerma & Weenink, 2014) –, selon des conventions spécifiques

adaptées à la parole en L2 (cf. Racine et al., 2011), notamment concernant des cas

d’ambiguïté au niveau morpho-lexical ou phonético-phonologique. Divers types

d’analyse sont ensuite appliqués aux données. Pour les mots en isolé, une évaluation

experte vs non experte, éventuellement complétées par des analyses acoustiques (pour

des exemples concernant les voyelles nasales et arrondies, voir Detey et al., 2010 ;

Racine et al., 2010 ; Racine, Detey & Kawaguchi, 2012 ; Racine, 2012). Ce type

d’évaluation n’étant pas adapté à la parole continue – la dimension morpho-

grammaticale est en effet susceptible de biaiser l’évaluation de la production de

surface – nous avons choisi d’appliquer, dans la lignée de ce qui a été fait dans PFC pour

la liaison et le schwa, une approche par le biais d’un codage alphanumérique de

différents paramètres (Detey, 2012 ; Detey et al., 2014a ; Detey et al., 2014b ; Detey et al., à

paraître). Le code alphanumérique, spécifique à chaque phénomène ciblé, est inséré

manuellement sur la base d’une évaluation perceptive, dans la transcription

orthographique, dans des tires séparées (une par phénomène ciblé).

Corpus, 15 | 2016

154

Page 156: Corpus de français parlé et français parlé des corpus

10 Une triple motivation a guidé ce choix : i) dans le quotidien des locuteurs apprenants, la

parole non native est évaluée de manière catégorielle et non pas en termes de détails

phonétiques fins. Les analyses acoustiques, qui fournissent des informations fines sur

les caractéristiques acoustiques du signal, ne sont donc pas adéquates. Seule une

évaluation perceptive humaine, en termes de catégories phonologiques, permet

d’atteindre cet objectif. L’analyse du signal peut toutefois constituer une étape

ultérieure en vue d’obtenir des informations plus précises sur un ensemble particulier

de stimuli, par exemple des productions ayant été évaluées comme très éloignées de la

cible visée ; ii) le recours à un codage alphanumérique ciblant certains paramètres

précis permet d’éviter certains pièges liés à la transcription phonétique. En effet, s’il est

possible d’évaluer le caractère nasalisé ou non d’une voyelle, l’adéquation de son

timbre par rapport à une cible donnée ou la présence/absence d’un appendice

consonantique postvocalique, il n’est pas toujours possible de sélectionner un symbole

phonétique qui représente de manière adéquate la réalisation globale de cet élément

par un apprenant ; iii) l’idée fondamentale de l’approche par corpus est de décrire, de

manière aussi automatique que possible, sur la base d’un ensemble conséquent de

données, les tendances globales qui se dégagent de la parole en L2, en prenant en

compte le contexte de production et sans précatégoriser – et pré-interpréter – les

productions interlangagières de l’apprenant sur la base des catégories phonémiques de

la L2 ou de la L1, puisqu’il s’agit justement d’un système en construction dont les

formes peuvent être potentiellement non identifiables dans les deux systèmes en

contact, source et cible.

11 Une fois les données codées5, l’analyse s’effectue par le biais du concordancier Dolmen,

développé par J. Eychenne (cf. Eychenne & Paternostro, à paraître), dans le cadre

duquel des interfaces spécifiques pour les phénomènes ciblés dans IPFC ont été

développées, à savoir, pour l’instant, les voyelles orales et nasales, les consonnes, les

groupes consonantiques et la liaison. Dolmen permet d’obtenir de manière automatique

des statistiques descriptives concernant certaines caractéristiques des productions non

natives.

12 En conclusion, cette procédure de codage alphanumérique constitue, à nos yeux, une

étape intermédiaire entre des analyses acoustiques fines et une catégorisation

phonologique plus grossière, en termes de substitution, d’insertion ou d’effacement

(Detey, 2012, 2014). La démarche que nous avons adoptée et développée dans IPFC a

inspiré des travaux similaires d’analyse de corpus pour d’autres langues cibles (pour

l’espagnol, voir Carranza, Cucchiarini, Llisterri, Machuca & Rios, 2014 ; pour l’anglais,

voir Lacoste, Herry-Bénit & Kamiyama, 2013). Dans le cadre du projet IPFC, des analyses

des productions de voyelles nasales et arrondies (Detey, Racine & Kawaguchi, 2014 ;

Detey et al., 2014a et 2014b) d’apprenants japonophones et hispanophones ont été

conduites selon cette procédure. La question de l’acquisition de la liaison L2 par des

apprenants de différentes L1 est également en cours d’examen par ce biais dans le

projet (voir, par exemple, les contributions dans Racine et Detey (2015) pour les

apprenants allemands (Pustka), canadiens anglophones (Tennant), espagnols (Racine),

grecs chypriotes (Valetopoulos), italiens (Falbo, Janot, Murano & Paternostro), japonais

(Detey, Kawaguchi & Kondo) et norvégiens (Andreassen & Lyche)). C’est à travers ce

phénomène phonologique spécifique du français que nous avons choisi d’expliciter de

manière plus concrète la démarche adoptée dans le projet IPFC.

Corpus, 15 | 2016

155

Page 157: Corpus de français parlé et français parlé des corpus

2. La question de la liaison : enjeux pour le FLE6

13 La liaison est, comme le rappellent Durand & Lyche (à paraître), un phénomène de

sandhi externe qui implique la présence – ou l’absence – d’une consonne entre deux

mots produits conjointement, le premier mot étant appelé « mot liaisonnant ». Selon la

littérature, les consonnes de liaison possibles sont au nombre de huit ([z, n, t, ʁ, p, v, k,

ɡ])7, les trois premières couvrant la plus grande majorité des occurrences. La consonne

de liaison peut apparaître lorsque le deuxième mot commence par une voyelle (p. ex. :

« un escargot » [œnɛskaʁɡo]), mais est absente lorsque le deuxième mot commence

par une consonne (p. ex. : « un stylo » [œstilo]). En outre, cette consonne se rattache le

plus souvent – mais pas obligatoirement – à l’attaque de la syllabe suivante, qui

appartient donc au deuxième mot. Lorsqu’il y a resyllabation de la consonne finale, la

liaison est enchaînée (p. ex. : « un escargot » [œ-nɛs-kaʁ-ɡo]). Elle est produite sans

enchaînement lorsque cette resyllabation n’a pas lieu (p. ex. : « un escargot » [œn-ɛs-

kaʁ-ɡo]). Ainsi, lorsqu’elle est enchaînée, la liaison, qui reflète un état ancien de la

langue où toutes les consonnes étaient prononcées (pour un historique, cf. Mallet,

2008), contribue à renforcer la tendance à la syllabation ouverte et la prédilection du

français pour les syllabes de type CV (Delattre, 1946).

14 La réalisation de la liaison est soumise à variation et dépend, comme le rappellent

Eychenne et al. (2014) et Durand & Lyche (à paraître) de facteurs phonologiques – y

compris prosodiques –, lexicaux, (morpho)syntaxiques ainsi que sociolinguistiques.

Parmi ces derniers, ces auteurs relèvent notamment le registre, l’âge, la provenance du

locuteur, le niveau d’instruction ou encore le degré de connaissance de l’orthographe.

En outre, lorsque la liaison est réalisée, elle peut parfois avoir un effet sur la voyelle

précédant la consonne de liaison, soit en l’ouvrant (p. ex. : « premier élève » sera ainsi

produit [pʁəmjɛʁelɛv], avec une forme masculine ne se différenciant plus de la forme

féminine « première »), soit en la dénasalisant (p. ex. : « bon après-midi » sera ainsi

produit [bɔnapʁɛmidi], avec une forme masculine dont la prononciation est identique

à sa contrepartie féminine « bonne »)8.

15 Si l’on se place du point de vue d’un apprenant, la question de la liaison est

extrêmement complexe, notamment en raison du fait que sa réalisation va à l’encontre

de certains principes que l’apprenant a dû – ou est en train – d’intégrer, comme le

souligne Howard (2013). Il a ainsi dû apprendre à ne pas prononcer la consonne finale

graphique d’un grand nombre de mots, ce qui constitue une difficulté accrue pour les

apprenants dont la L1 dispose d’une très bonne correspondance entre prononciation et

orthographe. Or, dans le cas de la liaison, cette consonne finale habituellement non

prononcée peut l’être dans certaines conditions, de surcroît avec une réalisation qui ne

correspond pas toujours à la consonne graphique, et le plus souvent en se resyllabant

avec la voyelle initiale du mot suivant (p. ex. : « grand », avec une consonne finale non

prononcée qui, si elle se réalise en liaison, l’est en [t], p. ex. : « grand animal » [ɡʁɑ-ta-

ni-mal]).

16 La liaison en [n] renforce ce phénomène. En effet, l’acquisition des voyelles nasales du

français constitue déjà en soi une difficulté majeure pour la plupart des apprenants. La

dimension graphique ne leur simplifie pas la tâche puisque, outre le fait que les

voyelles nasales possèdent des graphies multiples, l’apprenant doit acquérir des

graphèmes complexes dans lesquels la consonne nasale ne se prononce pas (p. ex. :

« plein » [plɛ]). Or, dans le cas de la liaison en [n], la consonne nasale graphique se

Corpus, 15 | 2016

156

Page 158: Corpus de français parlé et français parlé des corpus

prononce, et la voyelle qui précède peut perdre sa nasalité (p. ex. : « plein hiver » [plɛn

ivɛʁ]), mais pas de manière systématique (« rien à faire » [ʁjɛnafɛʁ]).

17 À cela s’ajoute le fait que, comme mentionné précédemment, la liaison est soumise à

variation, variation dont l’apprenant doit acquérir la maîtrise, et dont Wauquier (2009)

distingue deux types : une variation conditionnée par le contexte d’abord, qui fait que

certaines liaisons sont systématiquement réalisées, réalisées de manière variable ou pas

réalisées – liaisons catégoriques, variables ou erratiques, selon la terminologie adoptée

par Durand & Lyche (2008), appelées également obligatoires, facultatives ou interdites

dans une perspective plus normative –, et, dans le cas des liaisons variables, une

variation libre, qui reflète le choix du locuteur de réaliser ou non la liaison,

généralement en fonction de facteurs d’ordre sociolinguistique.

18 Les difficultés posées par la liaison à l’apprenant sont donc multiples mais peuvent

cependant, nous semble-t-il, être réparties en deux catégories distinctes : 1) les

problèmes posés par le phénomène de liaison lui-même, qui sont de l’ordre de ce que

l’on pourrait qualifier de microplanification : nature de la consonne de liaison à réaliser

(en lien avec la graphie), placement de cette consonne dans la structure syllabique

(avec resyllabation avec la voyelle initiale du mot suivant ou non), modification

éventuelle de l’environnement immédiat (dénasalisation/ouverture de la voyelle

précédente) ; 2) les problèmes posés par la variation inhérente à la liaison, qui relèvent

davantage d’une planification à un niveau macro, cette fois-ci, et qui peuvent être

résumés ainsi : identifier le contexte – sur la base de facteurs phonologiques,

prosodiques, lexicaux, (morpho)syntaxiques et sociolinguistiques – afin de déterminer

si la liaison doit – ou peut – ou non être réalisée.

19 L’essentiel des explications et des exercices consacrés à la liaison dans les manuels de

FLE spécialisés dans le domaine de la prononciation se rapportent plutôt à ce deuxième

type de difficultés, lié aux contextes de réalisation de la liaison. Les questions qui

relèvent de la microplanification sont généralement mentionnées mais de manière

sommaire, avec peu ou pas d’exercices ciblés et sans conscientisation des difficultés

pour l’apprenant.

20 Les contextes de réalisation de la liaison sont généralement divisés en trois catégories –

liaisons obligatoires, facultatives et interdites – et présentés sous forme de tableaux ou

de listes basées sur des généralisations d’ordre morphosyntaxique (p. ex. : « la liaison

est obligatoire entre le déterminant et le nom qui le suit »), suivies d’exemples. Les

autres facteurs de variation – d’ordre sociolinguistique, lexical ou prosodique – ne sont

généralement pas mentionnés, hormis la distinction, pour les liaisons facultatives,

entre registre courant/standard et soutenu. On peut relever que les explications sont

parfois opaques, que le nombre de règles énoncées est plutôt élevé (selon les manuels,

entre 6 et 9 pour chacune des catégories « liaisons obligatoires » et « liaisons

interdites »), avec des divergences d’un manuel à l’autre.

21 On constate également que certaines règles énoncées ne semblent pas correspondre à

la réalité des usages actuels. Ainsi, par exemple, la liaison est présentée comme

obligatoire après les prépositions monosyllabiques suivantes : « en », « dans », « chez »,

« sans », « sous » (Abry & Chalaron, 1994 : 110). Or, Eychenne et al. (2014 : 44), en se

basant sur les données issues du corpus PFC, montrent que, si la liaison est quasi

catégorique après « en » (taux de réalisation : 99.35 %), elle l’est moins après « sans »

(93.13 %) et encore moins après « chez » (75.68 %). Le dernier cas illustre, selon les

auteurs, le rôle primordial de la prosodie : la liaison est en effet catégorique dans le

Corpus, 15 | 2016

157

Page 159: Corpus de français parlé et français parlé des corpus

contexte « chez + clitique », alors qu’elle est variable à 50 % dans le contexte « chez +

syntagme nominal ». Eychenne et al. (2014 : 34) expliquent ce décalage entre les

descriptions traditionnelles et les usages – mis en avant par les travaux sur la liaison

basés sur des corpus oraux (entre autres Ågren, 1973 ; Encrevé, 1988 ; De Jong, 1994 ;

Durand & Lyche, 2008)9 – par le fait que, si de nombreux travaux ont été consacrés à la

liaison dans la seconde moitié du XXe siècle, peu d’entre eux ont pris en compte les

données authentiques. La plupart des analyses classiques en linguistique ont été

élaborées sur la base de descriptions normatives destinées à faciliter l’apprentissage du

phénomène par des apprenants étrangers – les auteurs citent notamment Delattre

(1951) et Fouché (1959). Or, ce sont ces mêmes descriptions qui sont à la base des

classements qui figurent généralement dans les manuels de phonétique. On peut

ajouter que, hormis la question de l’authenticité des données sur lesquelles s’appuient

ces descriptions, le décalage entre descriptions et usages réels peut également

s’expliquer par le fait que l’on ne s’exprime plus aujourd’hui de la même manière qu’à

l’époque où elles ont été élaborées. De Jong (1994) a en effet mis en évidence

l’importance du facteur âge : les locuteurs jeunes de son corpus réalisent un taux de

liaison significativement inférieur par rapport à leurs aînés, ceci étant particulièrement

marqué entre la tranche des 18-29 ans et la tranche des 30-49 ans, ce qui semble

indiquer qu’un changement majeur a eu lieu au milieu des années soixante10, les

descriptions traditionnelles mentionnées – Delattre (1951) et Fouché (1959) – y étant

donc antérieures.

22 Comme le soulignent Eychenne et al. (2014), les travaux basés sur des corpus oraux ont

montré que l’on ne peut expliquer la liaison en se basant uniquement sur des principes

d’association mécanique mais que d’autres facteurs, tels que par exemple la fréquence

lexicale du mot liaisonnant et la prosodie, doivent être pris en compte. Le travail réalisé

sur la liaison dans le cadre du projet PFC a permis d’affiner encore les descriptions des

usages réels. Durand & Lyche (2008) peuvent ainsi réduire à quatre contextes les

liaisons systématiquement réalisées dans les usages : déterminant + substantif (p. ex. :

« un animal »), proclitique + verbe (« ils aiment », « ils y dorment souvent »), verbe +

enclitique (p. ex. : « dit-il », « fais-en ») et expressions figées (p. ex. : « de mieux en

mieux », « de temps à autre »). Les données PFC montrent également que la liaison

variable est très peu réalisée en conversation spontanée, que les liaisons sont

quasiment systématiquement produites avec enchaînement et que, du point de vue des

facteurs externes, la liaison semble essentiellement influencée par l’âge et par l’origine

géographique des locuteurs ainsi que par le registre (Eychenne et al., 2014).

23 Si, d’un point de vue linguistique, comme le relèvent Eychenne et al. (2014 : 56), il

semble qu’on ne peut plus aujourd’hui se satisfaire de données « fabriquées » et que l’on

se doit d’intégrer les résultats des études sur corpus dans les modélisations

phonologiques, la même conclusion semble s’imposer dans le domaine de

l’enseignement du FLE : les descriptions des manuels de phonétique doivent être

renouvelées afin de mieux correspondre aux usages réels en vigueur. À ce titre, on peut

déjà mentionner les ouvrages de Lauret (2007) et d’Abry & Chalaron (2011), qui

proposent quant à eux une description des contextes de liaison catégorique qui

correspond aux quatre contextes décrits par Durand & Lyche (2008) où la liaison est

systématiquement réalisée.

24 Pour compléter ce panorama de la liaison, il paraît important d’examiner également la

question du point de vue des productions des apprenants, afin de déterminer ce qui

Corpus, 15 | 2016

158

Page 160: Corpus de français parlé et français parlé des corpus

leur pose problème. Un certain nombre de travaux se sont penchés sur cette question

et ont analysé les occurrences de liaison dans les productions d’apprenants de FLE (De

Moras, 2011 ; Harnois-Delpiano et al., 2012 ; Howard, 2005, 2013 ; Mastromonaco, 1999 ;

Thomas, 2002, 2010). On peut tout d’abord relever l’hétérogénéité des travaux qui

portent sur cette question et qui ont examiné les productions des liaisons par des

apprenants – en grande majorité anglophones – de niveaux variés (débutants à

avancés), dans des contextes d’apprentissage divers – notamment avec ou sans séjour

dans une région francophone – et avec des tâches distinctes (production de séquences

isolées, description d’images, texte lu, entretien guidé et parole spontanée). Les

résultats sont néanmoins assez homogènes et montrent d’une part un taux

généralement élevé de réalisation des liaisons obligatoires chez les apprenants avancés,

avec – lorsqu’une dimension longitudinale est intégrée, comme par exemple dans

l’étude de Howard (2013) – une progression dans le taux de réalisation de certaines de

ces liaisons obligatoires, notamment pour celles entre déterminant et substantif et

après les pronoms sujets. Certains contextes semblent par contre poser plus de

problèmes. Howard (2005, 2013) relève en effet des taux moins élevés après les pronoms

clitiques et un taux très faible de réalisation de la liaison entre un adjectif et le

substantif qui le suit. Toutefois, il faut rappeler que cette dernière catégorie n’apparaît

pas comme catégorique dans les données de corpus de Durand & Lyche (2008). La

comparaison avec les natifs doit donc être considérée avec précaution car les études

portant sur les apprenants n’ont généralement pas constitué de corpus de données

natives comparables11 et se basent donc sur la littérature dans le domaine. Or, comme le

souligne De Moras (2011), les différentes catégories de liaison ne sont pas définies de

manière uniforme dans la littérature. De plus, comme nous l’avons vu précédemment,

la prise en compte des données de corpus, qui questionnent la classification

traditionnelle en obligatoire/facultative/interdite et soulignent l’importance de

certains facteurs, est encore relativement récente.

25 Les travaux qui ont examiné les productions des liaisons par des apprenants

fournissent également des indications concernant les difficultés au niveau de ce que

nous avons appelé la microplanification. Mastromonaco (1999), Harnois-Delpiano et al.

(2012) et Thomas (2002) observent en effet des erreurs de type [ɡʁɑdami] pour « grand

ami » ou [ɡʁɑnɔm] pour « grand homme » qui semblent découler d’une prononciation

orthographique et qui n’apparaissent pas chez les enfants natifs (Wauquier, 2009).

Mastromonaco (1999) et De Moras (2011) mentionnent la difficulté particulière

engendrée par les liaisons en [n] liées à la question des voyelles nasales. Un autre

phénomène intéressant est le taux important de liaisons réalisées sans enchaînement

par les apprenants, qui est de 7 % chez Mastromonaco (1999) – sans distinction de

tâches (lecture, description et conversation) – de 8.5 % chez Thomas (2002) et de 8.85 %

– pour les liaisons obligatoires uniquement – chez De Moras (2011), alors que, comme

mentionné auparavant, ce type de réalisation est quasiment absent des données de

conversation du corpus PFC (Eychenne et al., 2014), et il semble également l’être des

données d’acquisition en L1 (Wauquier, 2009). Pour Thomas (2002), cela peut refléter

soit une hésitation devant un mot difficile, soit l’influence de la tendance à la

syllabation fermée de l’anglais, la L1 des apprenants de son étude, hypothèse également

avancée par De Moras (2011).

26 Il semble ainsi indispensable d’affiner davantage les connaissances dans le domaine de

l’acquisition de la liaison en FLE, afin de déterminer si les difficultés observées dans les

travaux portant sur des apprenants anglophones peuvent être généralisées aux

Corpus, 15 | 2016

159

Page 161: Corpus de français parlé et français parlé des corpus

apprenants d’autres L1 ou sont induites par des caractéristiques spécifiques aux

langues germaniques, telles que la tendance à la syllabation fermée. De nouvelles

données d’apprenants de L1 plus diversifiées doivent être collectées et la comparabilité

non seulement avec les productions natives mais également entre les différentes

populations d’apprenants doit être améliorée, de même qu’en termes de tâche(s)

effectuée(s).

3. Le traitement de la liaison dans IPFC

27 Sur la base de ce qui a été décrit dans la première partie de ce chapitre, le projet IPFC

semble être en mesure de répondre aux besoins mentionnés ci-dessus et par

conséquent constituer un cadre adéquat pour approfondir les recherches dans le

domaine de l’acquisition de la liaison en FLE.

28 Sur le modèle de la méthodologie adoptée dans PFC, la liaison y est traitée par le biais

d’un codage alphanumérique inséré dans une tire spécifique, sous Praat (Boersma &

Weenink, 2014). Le code PFC pour la liaison a été modifié afin de s’adapter aux

caractéristiques des productions non natives et aux difficultés générées par la liaison.

Pour pouvoir repérer les liaisons « orthographiques » (p. ex. : [ɡʁɑdami] pour « grand

ami » ou [ɡʁɑnɔm] pour « grand homme ») observées dans les travaux antérieurs en

FLE, il est en effet indispensable que la consonne cible soit codée, ce qui n’est pas le cas

dans le code PFC, des erreurs de ce type n’apparaissant pas chez les natifs. Le code IPFC

pour la liaison comprend donc sept champs. Les quatre premiers portent sur des

éléments descriptifs : 1) nature de la consonne de liaison cible, 2) catégorie syntaxique

du mot liaisonnant, 3) catégorie syntaxique du mot qui suit, 4) nombre de syllabes du

mot liaisonnant et nature – orale ou nasale – de la voyelle du mot liaisonnant. Les trois

derniers champs ciblent l’évaluation perceptive de la liaison : 5) réalisation de la liaison

et, si oui, avec ou sans enchaînement, 6) nature et caractéristiques de la consonne de

liaison (correspond à la cible ou non, etc.), 7) présence d’une pause, d’une hésitation ou

d’un coup de glotte. Ces données sont ensuite décodées par le biais d’une interface

spécifique du concordancier Dolmen, qui permet d’obtenir facilement des statistiques

descriptives, telles que le nombre de liaison en [n] réalisées, le nombre de liaisons

produites avec enchaînement, etc.

29 Cette procédure est actuellement appliquée à grande échelle dans le projet IPFC (voir

Racine & Detey, 2015). Dans ce qui suit, nous l’illustrons en présentant les résultats

d’une étude préliminaire portant sur des productions d’apprenants avancés

hispanophones et japonophones.

4. Une illustration : la liaison en lecture de texte chezles apprenants hispanophones et japonophones

4.1 Méthode

30 Trente-sept apprenants avancés (B2-C1 du CECRL), 20 Espagnols et 17 Japonais, ainsi

que 10 natifs suisses romands ont pris part à cette étude préliminaire. Les apprenants

étaient répartis en deux groupes : avec séjour prolongé en milieu francophone vs sans

séjour. Dans le groupe d’hispanophones, 10 apprenants (8 femmes et 2 hommes, âge

Corpus, 15 | 2016

160

Page 162: Corpus de français parlé et français parlé des corpus

moyen : 27.0) étudiaient le français – ou en français – à l’Université de Genève et

vivaient dans un environnement francophone depuis au moins douze mois. Les

10 autres (8 femmes et 2 hommes, âge moyen : 26.6) étudiaient le français à Madrid, à

l’Université ou dans une école de langue officielle. Aucun d’entre eux n’avait effectué

de séjour de plus de trois semaines en milieu francophone. Pour le groupe de

japonophones, 7 apprenants (5 femmes et 2 hommes, âge moyen : 24.7) étudiaient le

français à TUFS (Tokyo University of Foreign Studies) et avaient effectué pendant leurs

études un séjour prolongé (de 6 mois à 1 an) en milieu francophone. Les 10 autres

(8 femmes et 2 hommes, âge moyen : 20.2) étaient également étudiants de français à

TUFS mais n’avaient effectué aucun séjour en milieu francophone. Ces données ont été

comparées avec celles d’un groupe contrôle constitué de 10 francophones natifs suisses

romands (8 femmes et 2 hommes, âge moyen : 27.3), enregistrés dans le cadre de PFC.

31 Les participants disposaient de 5 minutes pour prendre connaissance du texte PFC

intitulé « Le Premier ministre ira-t-il à Beaulieu » et le préparer, avant de le lire à voix

haute. Rappelons que, dans le protocole PFC, ce texte a été conçu spécifiquement pour

étudier la liaison et le schwa et contient donc 35 sites potentiels de liaison (17 sites de

liaisons obligatoires, 14 de liaisons facultatives et 4 de liaisons interdites selon la

classification de Delattre, 1951). 1 295 sites potentiels de liaison ont ainsi été codés

selon le code liaison IPFC par une locutrice native et vérifiés par un deuxième

évaluateur12.

4.2 Résultats et discussion

32 Les analyses montrent tout d’abord que si les deux populations d’apprenants

hispanophones ne se distinguent pas des natifs au niveau du taux global de réalisation

des liaisons dans le texte (59.43 % pour les apprenants sans séjour, 58.83 % pour ceux

avec séjour et 56 % pour les natifs, ns13), les deux populations d’apprenants

japonophones réalisent moins de liaisons que les natifs (44.63 % pour les apprenants

sans séjour, 47.93 % pour ceux avec séjour vs 56 % pour les natifs, p < 0.01). Ce résultat,

pour les hispanophones, contraste également avec les travaux portant sur des

apprenants anglophones (Howard, 2005 ; Mastromonaco, 1999 ; Thomas, 2002), dans

lesquels le taux de réalisation des apprenants était généralement inférieur à celui des

natifs. Si l’on se base uniquement sur ce premier résultat, les hispanophones

sembleraient donc a priori plus performants que les deux autres populations

d’apprenants, au niveau du taux global de liaison réalisées.

33 Nous avons également analysé les productions en fonction des contextes obligatoires

définis par Delattre (1951) ainsi que par Durand & Lyche (2008). Les résultats montrent

que, si l’on se base sur la classification de Delattre (1951), le taux de réalisation de la

liaison est significativement moins élevé dans les quatre populations d’apprenants que

chez les natifs. Pour les hispanophones, on trouve 90.00 % de réalisation de la liaison

pour les hispanophones sans séjour et 92.29 % pour ceux avec séjour, les deux groupes

ne se différenciant pas entre eux mais effectuant moins de liaisons obligatoires que les

natifs (99.41 %, p < 0.05). Les deux groupes d’apprenants japonophones réalisent

également moins de liaisons que les natifs, avec 72.48 % pour les apprenants sans

séjour, contre 85.10 % pour ceux avec séjour (p < 0.01). À noter que les japonophones

sans séjour réalisent significativement moins de liaisons obligatoires que le groupe avec

Corpus, 15 | 2016

161

Page 163: Corpus de français parlé et français parlé des corpus

séjour (p < 0.05), le séjour en milieu francophone semblant donc avoir un effet positif au

niveau de la réalisation des liaisons obligatoires.

34 Si l’on examine ces mêmes chiffres en fonction de la classification de Durand & Lyche

(2008), établie sur la base du corpus PFC – et qui semble donc correspondre, comme

mentionné précédemment, davantage aux usages actuels en vigueur –, on observe que

seuls les japonophones se différencient des natifs avec un taux de réalisation de 75.28 %

pour le groupe sans séjour et 86.03 % pour celui avec séjour, contre 99.17 % pour les

natifs (p < 0.001). Si l’on se base sur ces quatre contextes uniquement, les

hispanophones ne se distinguent plus des natifs, avec 93.33 % pour le groupe sans

séjour et 93.24 % pour celui avec séjour (ns). Les hispanophones semblent donc

également, au niveau des liaisons catégoriques, plus performants que les japonophones.

35 Comme les apprenants anglophones, les hispanophones et les japonophones réalisent

des liaisons avec une consonne inattendue, très souvent présente orthographiquement

dans le mot (p. ex. : [ɡʁɑnɔnœʁ] « grand honneur » ou [siʁkɥitabitɥɛl]14 « circuits

habituels »). On observe 9.46 % de productions de ce type chez les hispanophones sans

séjour (dont 72 % le sont avec [n]) et 7.22 % chez les apprenants avec séjour (dont 52 %

en [n]). Ces chiffres sont beaucoup moins élevés chez les japonophones, avec seulement

5.20 % chez les apprenants sans séjour (dont 68 % en [n]) et 2.10 % (dont 0 % en [n])

chez ceux avec séjour. Les apprenants japonophones ayant effectué un séjour en milieu

francophone se rapprochent donc davantage des natifs, qui, eux, ne réalisent aucune

liaison avec une consonne inhabituelle.

36 Les apprenants hispanophones et japonophones produisent également des liaisons non

enchaînées (p. ex. : [ɔn-ɑn-a-vy] « on en a vu », [tʁu-veʁ-o] « trouver au ») dans des

taux comparables à ceux observés chez les apprenants anglophones (7 % chez

Mastromonaco, 1999, 8.5 % chez Thomas, 2002 et 8.85 % chez De Moras, 2011). On

trouve ainsi 7.98 % de liaisons non enchaînées chez les hispanophones sans séjour et

7.51 % chez ceux avec séjour. Si l’on observe un taux comparable pour les apprenants

japonophones sans séjour, avec 6.93 %, ce chiffre diminue drastiquement chez les

japonophones avec séjour, avec seulement 1.68 % de liaisons non enchaînées. Les

japonophones avec séjour se rapprochent donc à nouveau des natifs, qui eux ne

produisent aucune liaison sans enchaînement dans la lecture du texte. Pour les autres

trois groupes, ces résultats concordent avec les observations effectuées sur les

apprenants anglophones dans les travaux précédents et semblent donc montrer que les

difficultés ne peuvent être expliquées par la tendance à la syllabation fermée des

langues germaniques, l’espagnol et le japonais ayant, comme le français, une

prédilection pour les syllabes ouvertes.

37 Nos données révèlent également parfois un cumul des deux phénomènes, consonne

orthographique et liaison non enchaînée (p. ex. : [ɡʁɑn-ɔ-nœʁ] « grand honneur »), et

ce plus fréquemment chez les hispanophones. Il paraît difficile toutefois dans ce cas –

et ce même s’il s’agit d’apprenants avancés – de déterminer s’il s’agit réellement d’une

liaison non enchaînée ou plutôt de la prononciation d’une consonne graphique, les

apprenants produisant également en conversation des formes telles que [ɡʁɑn-pʁɔ-

blɛm] « grand problème ». Afin de mieux comprendre ces formes, une analyse parallèle

des réalisations des consonnes graphiques finales semble donc indispensable,

notamment pour les apprenants dont la L1 dispose d’une très bonne correspondance

entre prononciation et orthographe, ce qui est le cas de l’espagnol. À noter également

que la non-différenciation entre les deux groupes d’apprenants hispanophones et les

Corpus, 15 | 2016

162

Page 164: Corpus de français parlé et français parlé des corpus

natifs, au niveau du taux global de réalisation des liaisons de l’ensemble du texte, qui

avait été interprétée dans un premier temps comme une meilleure performance des

hispanophones par rapport aux autres populations d’apprenants (japonophones et

anglophones) pourrait également s’expliquer par le fait qu’il ne s’agit pas réellement de

liaisons réalisées mais plutôt de consonnes graphiques finales prononcées. Ce résultat

surprenant doit donc être considéré avec prudence et être complété avec une analyse

des réalisations de ces dernières.

38 Ces résultats mettent également en évidence l’intérêt d’élargir les analyses des

productions de liaison à un plus grand nombre de populations d’apprenants, puisque le

comportement des apprenants hispanophones et japonophones n’est pas identique. En

effet, si les apprenants hispanophones ne se différencient pas des natifs au niveau du

taux global de liaisons réalisées ainsi que du taux de liaisons catégoriques réalisées

(basé sur les 4 catégories de Durand & Lyche, 2008), ils réalisent, dans des proportions

comparables aux apprenants anglophones des études précédentes, des liaisons avec une

consonne orthographique et des liaisons non enchaînées, avec parfois un cumul des

deux phénomènes. Le schéma n’est pas identique pour les apprenants japonophones,

puisque l’on observe d’une part des taux de réalisation globale de la liaison ainsi que

des taux de liaisons catégoriques significativement moins élevés que les natifs. D’autre

part, les taux de liaisons avec une consonne orthographique ainsi que ceux de liaisons

non enchaînées semblent globalement légèrement inférieurs à ceux des

hispanophones, avec surtout une amélioration notable en fonction du séjour : les

apprenants japonophones ayant effectué un séjour prolongé en milieu francophone

s’approchent des taux observés chez les natifs pour ces deux phénomènes.

5. Conclusion

39 Sur le plan didactique, ces résultats préliminaires montrent que les questions liées à la

microplanification ne sont pas anodines, y compris pour des apprenants dont la L1

partage la prédilection du français pour les syllabes ouvertes, et qu’il semble nécessaire

de les traiter de manière approfondie, notamment en les conscientisant, dans

l’enseignement du FLE. De Moras (2011) observe en effet que le taux de liaisons

enchaînées dans la catégorie des liaisons obligatoires augmente sensiblement après que

les apprenants ont suivi un cours sur la liaison.

40 Les différences observées entre les apprenants hispanophones et japonophones

soulignent également la nécessité d’élargir les analyses à d’autres populations. Les

futurs travaux devront également intégrer la dimension inter-tâches, afin de

déterminer l’impact de la tâche effectuée. Une analyse récente des productions de

douze apprenants hispanophones montre en effet que les taux de liaisons avec une

consonne orthographique ainsi que ceux de liaisons non enchaînées sont beaucoup

moins élevés en conversation par rapport à ceux observés dans la lecture du texte.

Cette tendance semble confirmée par des observations similaires effectuées chez les

apprenants italophones (12 débutants et 12 avancés) examinés dans cette même étude

(voir Racine et al., 2014). Les deux phénomènes observés (liaisons avec une consonne

orthographique et liaisons non enchaînées) semblent donc intrinsèquement liés aux

processus cognitifs impliqués dans la tâche de lecture, qui sont différents de ceux mis

en œuvre dans la parole spontanée. Enfin, ajoutons encore que les différences

observées (inter-populations et inter-tâches) dans le cadre de la liaison rejoignent les

Corpus, 15 | 2016

163

Page 165: Corpus de français parlé et français parlé des corpus

observations effectuées sur les aspects segmentaux (voyelles nasales et voyelles

arrondies).

41 Ces premières données montrent donc que la méthodologie adoptée dans le projet IPFC

devrait permettre de disposer de données de liaison diversifiées, en termes de L1 et de

tâches, rendant possible des comparaisons à grande échelle. Cet approfondissement et

cette diversification des travaux portant sur l’acquisition de la liaison en FLE, combinés

à une meilleure prise en compte des usages réels en vigueur, rendue possible par le

travail conséquent issu de la linguistique de corpus devraient en outre, à terme,

permettre un renouvellement adéquat du matériel pédagogique pour l’enseignement

de la liaison.

BIBLIOGRAPHIE

Abry, D. & Chalaron, M. (1994). 350 Exercices de phonétique. Paris : Hachette.

Abry D. & Chalaron M. (2011). Les 500 Exercices de phonétique. Paris : Hachette.

Ågren J. (1973). Enquête sur quelques liaisons facultatives dans le français de conversation radiophonique.

Uppsala : Acta Universitatis Uspaliensis.

Baralo M. (1999). La adquisición del español como lengua extranjera. Madrid : Arco libros.

Bassetti B. (2006). « Orthographic input and phonological representations in learners of Chinese

as a Foreign Language », Written Language and Literacy 9 (1) : 95-114.

Boersma P. & Weenink D. (2014). Praat : doing Phonetics by Computer. http://www.praat.org.

Carranza M., Cucchiarini C., Llisterri J., Machuca M. J. & Ríos A. (2014). « A corpus-based study of

Spanish L2 mispronunciations by Japanese speakers », Proceedings of Edulearn14, 6th International

Conference on Education and New Learning Technologies. Barcelone, Espagne : 3696-3705.

Coquillon A.-L. & Durand J. (2010). « Le français méridional : éléments de synthèse », in S. Detey,

J. Durand, B. Laks & C. Lyche (éd.) Les Variétés du français parlé dans l’espace francophone : Ressources

pour l’enseignement, Paris : Ophrys, 185-197.

Côté M.-H. (2012). « Laurentian French (Quebec) : Extra vowels, missing schwas and surprising

liaison consonants », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French :

Illustrations from three continents. Amsterdam/Philadelphia : John Benjamins, 235-274.

Cylwik N., Wagner A. & Demenko G. (2009). « The EURONOUNCE corpus of non-native Polish for

ASR-based Pronunciation Tutoring System », Proceedings of SlaTE 2009 – 2009 ISCA Workshop on

Speech and Language Technology in Education. Birmingham, UK.

De Jong D. (1994). « La sociophonologie de la liaison orléanaise », in C. Lyche (éd.), French

Generative Phonology : Retrospective and Perspectives. AFLS/ESRI : 95-130.

De Moras N. (2011). Acquisition de la liaison et de l’enchaînement en français L2 : Le rôle de la fréquence.

PhD. Dissertation, University of Western Ontario.

Corpus, 15 | 2016

164

Page 166: Corpus de français parlé et français parlé des corpus

Debrock M. & Flament-Boistrancourt D. (1996). « Le corpus LANCOM : Bilan et perspectives », ITL

– Review of Applied Linguistics 111-112 : 1-36.

Delais-Roussarie E. & Yoo H.-Y. (2010). « The COREIL corpus : a learner corpus designed for

studying phrasal phonology and intonation », in K. Deziubalska-Kolaczyk, M. Wrembel & M. Kul

(éd.) Proceedings of New Sounds 2010. Poznan, 100-105.

Delattre P. (1946). « Pour imiter un disque de français parlé », The French Review 20 (1) : 43-48.

Delattre P. (1951). Principes de phonétique française à l’usage des étudiants anglo-américains.

Middlebury College.

Detey S. (2005). Interphonologie et représentation orthographiques. Du rôle de l’écrit dans l’enseignement/

apprentissage du français oral chez des étudiants japonais. Thèse de Doctorat, Université de Toulouse

Le Mirail.

Detey S. (2012). « Coding and L2 phonological corpus : from perceptual assessment to non-native

speech models – an illustration with French nasal vowels », in Y. Tono, Y. Kawaguchi &

M. Minegishi (éd.) Developmental and Crosslinguistic Perspectives in Learner Corpus Research.

Amsterdam/Philadelphia : John Benjamins, 229-250.

Detey S. (2014). « Vers une évaluation par codage perceptif sur corpus de la production des

liquides françaises /R/ et /l/ des apprenants japonais en singleton et en groupe consonantique »,

Flambeau 40, 1-17.

Detey S. & Kawaguchi Y. (2008). « Interphonologie du français contemporain (IPFC) : récolte

automatisée des données et apprenants japonais », Journées PFC. Phonologie du français

contemporain : variation, interfaces, cognition. Paris, 11-13 décembre 2008.

Detey S. & Racine I. (2012). « Les apprenants du français face aux normes de prononciation :

quelle(s) entrée(s) pour quelle(s) sortie(s) ? », Revue française de linguistique appliquée 17(1) : 81-96.

Detey S., Racine I., Eychenne J. & Kawaguchi Y. (2014a). « Corpus-based L2 phonological data and

semi-automatic perceptual analysis : the case of nasal vowels produced by beginner Japanese

learners of French », Proceedings of Interspeech 2014. Singapore, 14-18 Septembre : 539-544.

Detey S., Racine I. & Kawaguchi Y. (2014b). « Des modèles prescriptifs à la variabilité des

performances non-natives : les voyelles nasales des apprenants japonais et espagnols dans le

projet IPFC », in J. Durand, G. Kristoffersenm B. Laks avec la collaboration de J. Peuvergne (éd.) La

Phonologie du français : Des normes aux périphéries (Festschrift pour Chantal Lyche). Paris : Presses

universitaires de Paris-Ouest, 197-226.

Detey S., Racine I., Kawaguchi Y. & Zay F. (à paraître). « Variation among non-native speakers :

Japanese and Spanish learners of French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties

of Spoken French. Oxford : Oxford University Press.

Detey S., Racine I., Kawaguchi Y., Zay F., Buehler N. & Schwab S. (2010). « Évaluation des voyelles

nasales en français L2 en production : de la nécessité d’un corpus multitâches », in F. Neveu,

J. Durand, T. Klingler, S. Prévost & V. Muni-Toké (éd.) Actes de CMLF’10. Paris : ILF, 1289-1301.

Durand J., Laks B. & Lyche C. (2009). Phonologie, variation et accents du français. Paris : Hermès.

Durand J., Laks B. & Lyche C. (2014). « French phonology from a corpus perspective : the PFC

programme », in J. Durand, U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology.

Oxford : Oxford University Press, 486-497.

Durand J. & Lyche C. (2008). « French liaison in the light of corpus data », Journal of French and

Language Studies 18 (1) : 33-66.

Corpus, 15 | 2016

165

Page 167: Corpus de français parlé et français parlé des corpus

Durand J. & Lyche C. (à paraître). « Approaching variation in PFC : the liaison level », in S. Detey,

J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.

Encrevé P. (1988). La liaison avec et sans enchaînement. Paris : Seuil.

Eychenne J., Lyche C., Durand J. & Coquillon A.-L. (2014). « Quelles données pour la liaison en

français : la question des corpus », in C. Soum-Favaro, A.-L. Coquillon & J. P. Chevrot (éd.) La

Liaison : approches contemporaines. Berne : Peter Lang, 33-60.

Eychenne J. & Paternostro R. (à paraître). « Analyzing transcribed speech with Dolmen », in

S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University

Press.

Fouché P. (1959). Traité de prononciation française. Paris : Klincksieck. 2e édition.

Gut U. (2009). Non-native Speech : a Corpus-based Analysis of Phonological and Phonetic Properties of L2

English and German. Wien : Peter Lang.

Gut U. (2014). « Corpus phonology and second language acquisition », in J. Durand, U. Gut &

G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology. Oxford : Oxford University Press,

286-301.

Harnois-Delpiano M., Cavalla C. & Chevrot J.-P. (2012). « L’acquisition de la liaison en L2 : étude

longitudinale chez des apprenants coréens de FLE et comparaison avec enfants francophones

natifs », in F. Neveu, V. Muni Toke, P. Blumenthal, T. Klingler, P. Ligas, S. Prévost & S. Teston-

Bonnard (éd.) Actes du Congrès mondial de linguistique française (CMLF 2012). Paris : Institut de

linguistique française, 1575-1589.

Howard M. (2005). « L’acquisition de la liaison en français langue seconde – Une analyse

quantitative d’apprenants avancés en milieu guidé et en milieu naturel », CORELA, Numéros

thématiques, Colloque AFLS.

http://corela.edel.univ-poitiers.fr/index.php?id=1127.

Howard M. (2013). « La liaison en français langue seconde : une étude longitudinale

préliminaire », Language, Interaction, and Acquisition 4 (2) : 190-231.

Lacoste V., Herry-Bénit N. & Kamiyama T. (2013). « The Interphonology of Contemporary

English : An introduction ». Conférence annuelle du projet PAC : Spoken English corpora : from

annotation to interphonologies. Aix-en-Provence, 30 mai-1er juin 2013.

Laks B. (2013). « Diachronie de la liaison dans la parole publique », Journées PFC 2013 Phonologie

du français contemporain : Regards croisés sur les corpus oraux. Paris, 5-7 décembre 2013.

Landron S., Paillereau N., Nawafleh A. et al. (2011). « Le corpus PhoDiFLE : un corpus commun de

français langue étrangère pour une étude phonétique des productions de locuteurs de langues

maternelles plurielles », CJC Praxiling2011. Montpellier.

Lauret B. (2007). Enseigner la prononciation du français, questions et outils. Paris : Hachette.

Mallet G. (2008). La liaison en français : Description et analyses dans le corpus PFC. Thèse de Doctorat,

Université Paris Ouest Nanterre la Défense.

Mastromonaco S.M. (1999). Liaison in French as a Second Language. Doctor of Philosophy. PhD

Dissertation, University of Toronto.

Meng H., Tseng C.-Y., Kondo M., Harrison A. & Viscelgia T. (2009). « Studying L2 suprasegmental

features in Asian Englishes : a position paper », Proceedings of Interspeech 2009. Brighton, UK.

Corpus, 15 | 2016

166

Page 168: Corpus de français parlé et français parlé des corpus

Myles F. & Mitchell R. (2007). French Learner Language Oral Corpora (FLLOC). University of

Southampton, 13.3 GB.

Neri A., Cucchiarini C. & Strik H. (2006). « Selecting segmental errors in L2 Dutch for optimal

pronunciation training », IRAL 44 : 357-404.

Perdue C. (1993). Adult Language Acquisition : Crosslinguistic Perspectives. Volume 1, Field Methods.

Cambridge : Cambridge University Press.

Racine I. (2012). « Spanish learners’productions of French close rounded vowels : a corpus-based

perceptual study » in Y. Tono, Y. Kawaguchi & M. Minegishi (éd.) Developmental and Crosslinguistic

Perspectives in Learner Corpus Research. Amsterdam/Philadelphia : John Benjamins, 205-228.

Racine I. (2014). « Une approche par corpus de la liaison chez les apprenants hispanophones de

français langue étrangère : quelles conséquences pour l’enseignement du FLE ? », Flambeau 40,

18-37.

Racine I. & Detey S. (2012). « La liaison dans IPFC : premiers regards sur les données

hispanophones et japonophones », Colloque Du français et de l’anglais aux langues du monde :

variation, structure et théorie du langage. Montpellier, 28-30 juin 2012.

Racine I. & Detey S. (2015). « L’apprentissage de la liaison en français par des locuteurs non

natifs : éclairage des corpus oraux », Bulletin VALS-ASLA 102.

Racine I., Detey S., Buehler N., Schwab S., Zay F. & Kawaguchi Y. (2010). « The production of

French nasal vowels by advanced Japanese and Spanish learners of French : a corpus-based

evaluation study », in K. Deziubalska-Kolaczyk, M. Wrembel & M. Kul (éd.) Proceedings of New

Sounds 2010 – Sixth International Symposium on the Acquisition of Second Language Speech. Poznan :

Adam Mickiewicz University, 367-372.

Racine I., Detey S. & Kawaguchi Y. (2012). « Les voyelles /y-u/ dans IPFC : évaluation perceptive

de productions natives, hispanophones et japonophones », Actes de JEP 2012. Grenoble : 385-392.

Racine I., Detey S., Zay F. & Kawaguchi Y. (2012). « Des atouts d’un corpus multitâches pour

l’étude de la phonologie en L2 : l’exemple du projet “ Interphonologie du français contemporain”

(IPFC) », in A. Kamber & C. Skupiens (éd.) Recherches récentes en FLE. Berne : Peter Lang, 1-19.

Racine I., Paternostro R., Falbo C., Janot P. & Murano M. (2014). « La liaison chez les

hispanophones et les italophones : du texte lu à la conversation », Rencontres FLORAL 2014 «

Corpus oraux et enseignement de la prononciation en FLE & Interphonologie et corpus oraux ». Paris, 8-9

décembre 2014.

Racine I., Zay F., Detey S. & Kawaguchi Y. (2011). « De la transcription de corpus à l’analyse

interphonologique : enjeux méthodologiques en FLE », in G. Col & S. N. Osu (éd.) Travaux

linguistiques du CerLiCO 24 (Actes du 24e colloque du CERLICO « Transcrire, écrire, formaliser », Université

de Tours, juin 2010). Rennes : PUR, 13-30.

Thomas A. (2002). « La variation phonétique en français langue seconde au niveau universitaire

avancé », AILE 17 : 101-121.

Thomas A. (2010). « La complexité en FLE2 universitaire avancé », in U. Paprocka-Piotrowska,

C. Martinot & S. Gerolimich (éd.) Actes du colloque La complexité en langue et son acquisition. Paris :

Université Descartes, 149-152.

Trouvain J. & Gut U. (2007). Non-Native Prosody. Phonetic Description and Teaching Practice. Berlin/

New York : Mouton de Gruyter.

Corpus, 15 | 2016

167

Page 169: Corpus de français parlé et français parlé des corpus

Visceglia T., Tseng C.-Y., Kondo M., Meng H. & Sagisaka Y. (2009). « Phonetic aspects of content

design in AESOP (Asian English Speech cOrpus Project) », Proceedings of Oriental-COCOSDA.

Urumuqi, Chine.

Vendelin I. & Peperkamp S. (2006). « The influence of orthography on loanword adaptations »,

Lingua 116 : 996-1007.

Wauquier S. (2009). « Acquisition de la liaison en L1 et L2 : stratégies phonologiques ou

lexicales ? », in J.-Y. Dommergues (éd.), Phonétique, bilinguisme et acquisition, Aile-Lia 2 : 93-130.

Zampini M. L. (2008). « L2 speech production research : Findings, issues, and advances. », in

J. G. Hansen Edwards, & M. L. Zampini (éd.) Phonology and Second Language Acquisition.

Amsterdam : John Benjamins, 219-249.

NOTES

1. Bien que les termes « langue seconde » (L2) et « langue étrangère » (LE) ne soient pas

synonymes (Baralo, 1999), ils sont utilisés ici de manière interchangeable, tout comme les termes

« langue maternelle » et « langue première » (L1).

2. Parmi ceux-ci, on peut par exemple mentionner le corpus ESF (European Science Foundation

Second Language, Perdue, 1993), le projet LANCOM (LANgue et COMmunication, Debrock & Flament-

Boistrancourt, 1996) et le projet FLLOC (French Learner Language Oral Corpora, Myles & Mitchell,

2007).

3. www.cblle.tufs.ac.jp/ipfc/

4. Une description détaillée des différentes enquêtes ainsi que la liste des publications liées sont

disponibles sur le site du projet : (http://cblle. tufs.ac.jp/ipfc/).

5. Tous les codages sont effectués par des locuteurs natifs. Pour certains phénomènes, un double

– voire triple – codage à l’aveugle est effectué. Une fonction de Dolmen permet de comparer

aisément les codages effectués par des codeurs différents. Pour un exemple plus détaillé de cette

procédure de double codage et du traitement des données, voir Detey et al. (2014a).

6. Les réflexions et analyses présentées dans cette section ont bénéficié des commentaires des

participants à une conférence organisée a Montpellier, en 2012 (Racine & Detey, 2012), ainsi que

de ceux des relecteurs anonymes du manuscrit de Racine (2014). Qu’ils en soient ici remerciés.

7. Ce nombre est toutefois soumis à la variation diatopique, le français laurentien connaissant

par exemple des liaisons en [l] (Côté, 2012).

8. À noter, toutefois, que cette dénasalisation n’est pas systématique (dans « mon animal », la

voyelle reste nasale, de même que dans « en effet » ou « un entrepôt ») et qu’elle est également

soumise à la variation diatopique, étant en effet plus fréquente par exemple dans le français

méridional (cf. Coquillon & Durand, 2010).

9. Pour un résumé récent des apports de ces différents corpus, voir Eychenne et al. (2014).

10. Selon Laks (2013), ce changement coïnciderait avec le mouvement de mai 68.

11. Certains auteurs ont tout de même constitué un groupe témoin de natifs qui sert de

référence. C’est le cas de De Moras (2011) par exemple.

12. Les deux évaluateurs sont des linguistes, enseignants de FLE spécialisés en phonétique.

13. Une analyse ANOVA montre que cette différence n’est pas significative (ns).

14. Les transcriptions phonétiques ne cherchent pas à reproduire fidèlement la prononciation

des apprenants, ce point n’étant pas le propos ici.

Corpus, 15 | 2016

168

Page 170: Corpus de français parlé et français parlé des corpus

RÉSUMÉS

Ce chapitre présente le projet « Interphonologie du français contemporain » (IPFC), qui vise à

constituer et analyser une large base de données de français langue étrangère produit par des

apprenants de diverses L1. Nous illustrons ensuite la méthodologie adoptée dans le projet à

travers le phénomène de la liaison. Après avoir exposé les enjeux de la liaison pour le français L2,

nous présentons une étude préliminaire des réalisations de liaisons par des apprenants

hispanophones et japonophones en lecture de texte et montrons en quoi le projet IPFC est

susceptible de fournir des données diversifiées en termes d’apprenants et de tâches, ce qui

devrait, à terme, permettre un renouvellement des données pour l’enseignement de la liaison en

français L2.

In this chapter, we present the project “Interphonology of Contemporary French” (IPFC). The

aim of the project is to constitute and analyse a large database of L2 French, produced by learners

of different origins. The methodology adopted in the project is then illustrated through the

phenomenon of liaison. First we describe the challenges of liaison for L2 French learners and

then we present a preliminary study of the realisations of liaison produced by Spanish and

Japanese learners of French in the text reading task. We conclude by showing that the IPFC

project provides an adequate framework to deepen our knowledge of L2 liaison, which in turn

should help us to renew the pedagogical material used to teach liaison in L2 French.

INDEX

Mots-clés : corpus, interphonologie, français parlé, français langue étrangère, acquisition

phonologique, liaison, IPFC, apprenants hispanophones, apprenants japonophones

Keywords : corpus, interphonology, spoken French, French as a foreign language, phonological

acquisition, liaison, IPFC, Spanish learners, Japanese learners

AUTEURS

ISABELLE RACINE

ELCF, Université de Genève

SYLVAIN DETEY

SILS, Université Waseda

Corpus, 15 | 2016

169

Page 171: Corpus de français parlé et français parlé des corpus

Le CFPP2000 : constitution, outils etanalyses. Le cas des interrogativesindirectesThe spoken Parisian French corpus in the 2000’: constitution, tools and analyses.

The case of indirect interrogatives clauses

Sonia Branca-Rosoff et Florence Lefeuvre

1 L’objet de cet article est de préciser quel type de français apparaît dans le Corpus de

français parlé parisien des années 2000, constitué par Sonia Branca-Rosoff, Serge

Fleury, Florence Lefeuvre et Mat Pirès1. Ce corpus atteint, en mars 2015, 602 000 mots

pour 42,5 heures d’enregistrement, réparties en 32 interviews, qui couvrent la plupart

des arrondissements de l’est et du centre de Paris ainsi que quelques villes de la petite

couronne. La diversité des locuteurs interrogés doit permettre de préciser l’ampleur de

la variation observable dans cet usage oral du français contemporain, que nous

appelons la langue commune. Dans cet article, nous nous appuierons sur l’exemple des

interrogatives indirectes (percontatives) pour situer ce registre qui ne se confond ni

avec le français standard, tel qu’il est décrit dans les grammaires et les dictionnaires, ni

avec les variétés les plus vernaculaires.

1. L’hypothèse de la langue commune

2 Les choix qui ont présidé à la confection du CFPP2000 expliquent les formes de français

parlé observables dans le corpus. Le CFPP2000 est un corpus d’entretiens semi-préparés

(l’enquêteur disposant d’une grille de questions qui n’a pas été communiquée

auparavant à l’enquêté) sur le thème du rapport des locuteurs à leur quartier et à la

ville de Paris en général. Ce corpus ne relève donc pas de l’observation participante, où

l’enquêteur cherche à disparaître pour ne pas modifier les échanges ordinaires du

groupe qu’il observe. Les universitaires qui ont réalisé l’enquête n’ont pas davantage

adopté « la neutralité » distante, recommandée un temps, notamment en sociologie,

puisqu’ils n’hésitent pas à s’impliquer dans l’échange, ce qui rapproche les entretiens

Corpus, 15 | 2016

170

Page 172: Corpus de français parlé et français parlé des corpus

du CFPP2000 de « vrais » dialogues. L’enquêteur adopte une attitude empathique, mais

il pousse parfois ses interlocuteurs dans leurs retranchements, rappelant ainsi qu’il est

extérieur à leur groupe. Ce dispositif, marqué par l’asymétrie des pôles d’interlocution,

a certainement des conséquences en ce qui concerne la production des opinions ; ainsi,

lorsqu’il s’agit d’immigration, les enquêtés tiennent compte des positions défavorables

à la critique des migrants qu’ils prêtent à l’enquêteur.

3 Ce dispositif a aussi des conséquences sur les activités langagières développées lors de

l’entretien. Il entraîne, par exemple, le recours à des séquences argumentatives, car le

locuteur, qui ne peut compter sur une étroite connivence avec l’enquêteur, entre

souvent dans l’exposé de ses motifs et plus généralement dans un discours de

justification. De même, il comporte une sur-utilisation des marques de réflexivité2. La

volonté d’agir sur le point de vue de l’enquêteur s’accompagne, chez beaucoup

d’enquêtés, de retours sur leurs formulations comme chez cette Ivryenne des « classes

moyennes », soucieuse de n’être pas confondue avec la « racaille » des cités et de

préserver les avantages procurés par une école d’élite, mais qui vit dans une banlieue

communiste dont elle partage en principe les options généreuses :

(1) on faisait partie de l’école + entre guillemets privilégiée d’Ivry hein (mm) detoute façon ça faut faut que ça soit bien clair (mm) + et euh nos enfants avaient uneun très bon niveau qui se vendait très bien sur Paris + nous on peut dire notre filson l’a vendu sur son livret scolaire hein c’est + on l’a vendu dans trois collègesparisiens [IV-02]

4 La locutrice revient sur la brutalité de l’étiquette « école privilégiée » qu’elle pourrait

attribuer à une fiction d’énonciateur tenant du politiquement correct – soit

l’enquêtrice, soit le public virtuel des lecteurs de l’interview – avant de proposer un

« très bon niveau » qui induit une orientation argumentative moins négative.

5 Le dispositif d’enquête a aussi des effets en ce qui concerne le registre, question

centrale, lorsqu’il s’agit des interrogatives indirectes. Les locuteurs n’usent pas

librement de la variété qu’ils emploient dans leur milieu vernaculaire, si celle-ci

s’écarte sensiblement de la variété utilisée par l’enquêteur. Les traits pouvant être

perçus comme trop marqués sont inhibés au profit de traits où langue de l’interviewé et

langue de l’intervieweur convergent3 : enquêtés et enquêteur vont avoir recours à une

« langue commune ». Pour désigner cette variété, nous aurions pu utiliser la notion de

standard très employée en sociolinguistique, mais les entretiens s’en distinguent sur de

nombreux points. Nous conservons le terme standard pour renvoyer aux normes

sociales instituées, telles qu’on les trouve dans les grammaires et les dictionnaires. De

ce fait, le terme ne recouvre pas les normes émergentes déviantes que l’on rencontre

dans le corpus CFPP2000 – comme nous le montrerons à propos des interrogatives

indirectes. Le corpus ne peut davantage servir à décrire les différents vernaculaires

(français dit « des cités », jeux bilingues…) ou les argots de métiers qui circulent dans la

capitale. Il est centré sur la variété qui émerge dans la situation d’intercommunication

cadrée comme « Entretiens-sur-la-ville-de-Paris-recueillis-par-des-universitaires-et-

destinés-à-être-mis-en-ligne », une variété que les enquêtés jugent convenable dans

une situation où ils sont bien avertis que leurs discours seront diffusés dans l’espace

public, puisqu’ils doivent signer une autorisation de mise en ligne après anonymisation.

6 Pour résumer, le corpus permet d’aborder le comportement des locuteurs, en se

référant non pas aux prescriptions des grammaires et des dictionnaires (il s’agit

justement d’en mesurer l’efficacité) ou aux déclarations subjectives de ces locuteurs (on

Corpus, 15 | 2016

171

Page 173: Corpus de français parlé et français parlé des corpus

sait qu’elles sont souvent très normatives), mais en dégageant des « normes descriptives

», statistiques, qui correspondent à une description objective des comportements des

locuteurs. Dans la variété de CFPP2000, il s’agit d’un français oral, délesté d’un certain

nombre de traits communautaires, l’accommodement réalisé entre les deux partenaires

aboutissant à une variété qui présente une homogénéité suffisante pour qu’il y ait un

échange. Plutôt que d’une variété, il faudrait d’ailleurs parler d’un espace de variation,

où les locuteurs se rapprochent tantôt du pôle familier, tantôt du pôle standard. Le

corpus implique actuellement 58 locuteurs4. C’est dire qu’il n’est pas encore parvenu au

stade de la représentativité statistique. Toutefois, il ouvre sur la diversité des usages.

7 Les métadonnées permettent de tenir compte de la variation due à la situation sociale

des locuteurs. Ces renseignements a priori peuvent être utilement complétés par la

lecture de l’entretien afin de dégager les identités sociolinguistiques revendiquées par

les locuteurs qui peuvent influencer leurs comportements.

8 Le corpus CFPP2000 permet par conséquent d’observer la diffusion d’une forme en

tenant compte du sexe, de l’âge et du statut des locuteurs. Dans un corpus

synchronique, une progression en cours se repère notamment aux emplois plus

nombreux dans la jeune génération que dans la génération ancienne. Labov (1976) parle

à ce propos de changement en temps apparent.

2. Les percontatives ou interrogatives indirectes :critères de reconnaissance

9 Dans ce travail, nous laissons de côté le problème des rapports entre questions,

propositions relatives et interrogations indirectes. Nous ne discutons pas des choix

théoriques impliqués par l’usage de telle ou telle terminologie. Nous adopterons celle

de Le Goffic (1993), qui parle de percontatives. Nous savons bien que chaque terme

renvoie à une définition différente de ce type de structures, mais dans la mesure où le

lecteur peut identifier ce dont nous parlons, ce choix n’a pas paru trop gênant. Trois

critères de reconnaissance (cf. Lefeuvre 2006) nous ont permis de relever les

percontatives dans le CFPP2000 : le type de verbes introducteur, le type de mots en qu-

et le rôle de la préposition.

2.1 Une approche sémantique : le verbe introducteur

10 D’après R. Martin 1984, le verbe introducteur doit évoquer un univers de croyance et la

non-explication de la valeur de p dans la subordonnée5. Pour G. Serbat (1985 : 9) :

Le verbe introducteur n’a pas besoin d’être lui-même percontatif. Il suffit qu’il soitcompatible avec la conception ou l’énoncé d’une donnée problématique autrementdit il suffit qu’il appartienne aux classes larges « savoir » ou « dire ».

11 Le Goffic (p. 265), quant à lui, retient trois types de verbes : i) verbe d’action sur autrui

(demander), ii) verbes déclaratifs et iii) verbes de connaissance :

(2) les gens m’ont beaucoup demandé quand il est mort [14-01](3) donc je lui ai dit où il était [IV-01] (4) je sais pas où c’est [03-01]

12 B. Defrancq (2005, p. 170), signale, en repartant de la liste des verbes introducteurs

donnée dans L. Karttunen 1978, que les interrogatives indirectes « s’associent toutes à

des verbes référant d’une façon ou d’une autre à un procès qui a trait à l’information »,

Corpus, 15 | 2016

172

Page 174: Corpus de français parlé et français parlé des corpus

même si « l’inverse n’est pas vrai : tous les verbes de ce type ne s’associent pas à une

[interrogative enchâssée] ».

2.2 Les mots en qu-

13 Il se révèle parfois difficile de distinguer les percontatives des intégratives qui

regroupent relatives sans antécédent et circonstancielles en comme, quand, si, que. Pour

s’assurer qu’il s’agit bien d’une percontative, les grammairiens ont proposé différents

tests de substitution dont nous rappelons quelques-uns ci-dessous.

2.2.1 comment ≠ comme

14 D’après P. Le Goffic, le verbe introducteur percontatif accepte des subordonnées en

comment et non en comme (1993 : 45). Ainsi pour :

(5) je sais pas où c’est [03-01]

15 où peut être remplacé par comment et non par comme :

(6) Je sais pas comment c’est / *comme c’est

16 Ce qui montre que savoir se construit bien avec des percontatives.

2.2.2 quel

17 Le verbe introducteur percontatif accepte des subordonnées en quel (Le Goffic

1987 : 84)6 :

(7) je sais pas quel est cet individu

2.2.3 insertion de est-ce que

18 M. Pierrard ajoute le test de l’insertion de est-ce que dans la subordonnée. Si l’insertion

est possible, il s’agit d’une percontative (« interrogative indirecte », 1988 : 32) :

(8) je sais pas où on irait jouer au foot [KB-01](9) je sais pas où est-ce qu’on irait jouer au foot

2.3 L’intégrative et la préposition impliquée

19 L’intégrative (relative sans antécédent) dépend de la préposition impliquée par le verbe

introducteur, à la différence de la percontative ou interrogative indirecte :

(10) Je pense à qui tu sais (relative sans antécédent, ex. tiré de Léard 1992)(11) je ne sais (mm) même pas de quoi ils vivaient (interrogative indirecte, CFPP2000[14-02])

20 Cela dit, il existe des structures intégratives dont la préposition dépend bien du verbe

de la subordonnée :

(12) C’est à quoi je pense (ex. tiré de Lefeuvre 2006 : 151)

21 D’autre part, dans le discours informel, ces tests sont moins pertinents. Ainsi peut-on

trouver est-ce que dans des subordonnées qui ne sont pas ici des percontatives mais des

intégratives (ou relatives sans antécédent) basées sur la structure de clivées :

(13) je suis déjà allé où est-ce que j’ai envie d’aller [SO-02](14) tu entendras pas quelqu’un dire : “c’est qu’est-ce que je t’ai dit” [12-02](15) je pensais plutôt à qu’est-ce qui se passe dans la cour de récréation [11-02]

Corpus, 15 | 2016

173

Page 175: Corpus de français parlé et français parlé des corpus

22 En effet, les verbes aller, être, penser n’introduisent pas de percontatives et ne peuvent

pas se construire avec quel :

(16) *Je suis déjà allé dans quel lieu tu es allé*C’est dans quel lieu tu es allé*Je pensais à quel lieu tu es allé

23 En outre, certains verbes comme parler peuvent être pris comme des verbes

introducteurs de percontatives, alors qu’ils ne le sont pas dans un discours standard.

C’est ce que l’on a dans cet exemple qui renferme est-ce que et qui est proféré d’un seul

tenant, sans pause ni décrochage intonatif, ce qui aurait pu faire penser à un abandon

de construction et un redémarrage avec une interrogative directe. Il faut donc

considérer qu’il s’agit d’une subordonnée dépendant du verbe parler et introduite par

comment :

(17) parler comment est-ce qu’on vit euh + comment est-ce qu’on vit en tant que Parisienneavec euh voilà avec deux enfants [11-01]

24 D’après ces deux indices (présence de comment et de est-ce que), il s’agit d’une

interrogative indirecte mais le verbe parler n’est pas un verbe reconnu comme un verbe

introducteur de percontatives en français standard. Nous avons le choix entre deux

types d’analyse : soit il s’agit d’un verbe qui est transformé en verbe introducteur de

percontative, proche de dire, soit il s’agit d’une subordonnée qui est une intégrative

adverbiale (circonstancielle en comment), paraphrasable par de la façon dont on vit (cf.

Lefeuvre 2009).

25 Voyons à présent quels types de percontatives figurent dans le CFPP2000.

3. Les types de percontatives dans le CFPP2000

26 Cinq types d’interrogatives indirectes apparaissent dans le CFPP, avec des fréquences

variées.

3.1 Les percontatives attendues selon les grammaires du françaisstandard

27 Il s’agit des percontatives qui se présentent sans inversion, sans est-ce que, avec le mot

en qu- en début de subordonnée, comme elles sont décrites par exemple dans Riegel et

al. 2009 (838).

28 Deux schémas sont attestés dans le CFPP. Le schéma S-V :

(18) je sais pas où c’est chez (Özgur [H 32 ans, élevé dans le 3e arrondissement, 03-01])(19) et et quand on sait où d’où on vient on se dit “je suis là j’ai beaucoup de chance”[Pierre-Marie Simo, H 34 ans, Camerounais d’origine, arrivé en France, dans le 18e

arrondissement populaire, à 9 ans, 18-01]

29 Et le schéma avec postposition du GN sujet :

(20) je sais pas où est la préfecture [SBR enq, F, 65 ans]

30 Nous n’avons pas relevé toutes les structures standard car leur décompte aurait

nécessité de faire des requêtes longues pour chaque verbe introducteur, mais elles sont

bien attestées et chez des locuteurs d’origine sociale variée (cf. plus bas le sondage pour

les percontatives introduites par je (ne) sais pas).

Corpus, 15 | 2016

174

Page 176: Corpus de français parlé et français parlé des corpus

31 Il y a ainsi 11 occurrences de je ne sais pas ce que chez des locuteurs jeunes comme Paul

Simo, âgé de 18 ans (je sais pas ce que je vais faire, [18-01]), et chez des locuteurs âgés

comme J. Pelletier qui vit en banlieue et a un faible bagage scolaire (je sais pas ce que la

vie me réserve [IV-01]).

3.2 Les percontatives en est-ce que

32 Cette structure, refusée par les grammairiens normatifs, est également bien ancrée

dans les usages des locuteurs parisiens. Le CFPP2000 comporte 27 percontatives en est-

ce que. Les verbes introducteurs se répartissent dans les trois catégories signalées plus

haut :

33 – type demander (4 exemples) :

(21) ils me demandent un peu euh + + où est-ce que j’aime bien aller dîner machin et tout +(Raphaël Larivière, H. 23 ans, vit dans le 7e, quartier le plus bourgeois de Paris,étudiant en médecine [07-04])

34 – type dire, énonciation (3 exemples) :

(22) vous ne signalez pas qu’est-ce que vous faites (Thérèse Le Vern, F 70 ans, enfancejusqu’à 10 ans, île de la Réunion [12-03])

35 – type savoir, épistémique (20 exemples) :

(23) euh c’est vrai que quand on s’cachait derrière les voitures on prenait rapidementl’réflexe de regarder où est-ce qu’on se cachait (Özgur, H. 32 ans, ingénieur du son pourl’audiovisuel, élevé à Paris dans le 3e arr. [03-01])

36 Le verbe introducteur le plus fréquent est savoir (11 occurrences), qui apparaît

massivement avec la négation : 7 je sais pas, 2 je sais plus ; contre seulement 2 savoir

affirmatifs, comme dans l’exemple cité plus haut. L’affinité entre la négation et la

structure en est-ce que est un bon indicateur d’une probable influence de l’interrogative

indépendante. La forme affirmative du verbe savoir n’a pas de signification

interrogative et, dans ce cas, le locuteur a tendance à ne pas s’aligner sur

l’interrogative directe en est-ce que. Au contraire, lorsque, sémantiquement, ne pas

savoir exprime une question, le locuteur adopte davantage la structure syntaxique en

est-ce que, caractéristique de la question.

37 Même si cette structure n’est pas répertoriée dans les grammaires ou est considérée

comme ne relevant pas du bon usage (Riegel et al., 2009 : 838), elle existe depuis au

moins quatre siècles. De grands auteurs du XVIIe siècle en ont usé sans soulever la

réprobation des puristes de l’époque :

(24) Il faut voir de quoi est-ce qu’elle est malade (Molière, Le Médecin malgré lui)(25) me demandant qu’est-ce que c’était que des tambours qui battaient (Cardinal de Retz,ex. tiré de Lefeuvre 2014) (26) Dites-nous qui est-ce que nous pouvons choisir pour notre roi (Fénelon, ex. tiré deLefeuvre 2014)

38 Plusieurs linguistes, comme B. Defrancq (2000, p. 135 pour Corpaix) ou C. Blanche

Benveniste (1997, p. 41), signalent que la structure est bien attestée dans d’autres

corpus. C. Blanche Benveniste estime même qu’on ne devrait plus parler de faute à son

propos. Dans le même sens, nous notons que, sauf exception7, les locuteurs, en usent

sans se corriger. Le type « standard » est cependant le plus fréquent, ce que permet

d’observer la comparaison d’énoncés introduits par je (ne) sais pas, structure dont nous

avons dit qu’elle favorise est-ce que :

Corpus, 15 | 2016

175

Page 177: Corpus de français parlé et français parlé des corpus

Tableau 1. Fréquence des percontatives

Percontatives suivant l’ordre S-V

(ou VS)

Percontatives renfermant est-

ce qu-

je (ne) sais pas qui 4 1

je (ne) sais pas où 7 3

je (ne) sais pas pourquoi 8 0

je (ne) sais pas comment 23 0

je (ne) sais pas ce qu- /qu’est-

ce qu-24 2

je (ne) sais pas quand 0 0

total 66 6

39 Je (ne) sais pas quand n’apparaît pas dans le corpus, mais en revanche nous avons trouvé

un exemple avec l’introducteur je sais même plus :

(27) je sais même plus quand est-ce qu’il est devenu à la mode [Anita Musso, 46 ans,licence, auxiliaire de vie a grandi dans le 11e, 11-01]

40 Il faut noter l’influence des mots en qu-. Où favorise l’emploi de est-ce que. Comment et

pourquoi l’inhibent.

3.3 Les percontatives qui renferment deux mots en qu-

41 Seulement deux exemples de ce type ont été répertoriés, tous avec comment :

(28) je sais pas comment que ça se passe dans les autres pays + mais je trouve qu’en(Valentine Testanier, 60 ans, [12-03])(29) moi ce qui m’intéressait et ce qui m’intéresse toujours + + c’est + l’humain + le vécu desgens (mm) savoir comment qu’on va pouvoir les + les sortir de cette foutue merde + où on esten ce moment (mm) (Jacqueline Pelletier, 65 ans, [IV-01])

42 Nous n’avons pas trouvé d’exemples en quand qu- ni où qu-. Notons que ce schéma est

également rare en ce qui concerne les interrogatives (directes). Nous n’en avons trouvé

dans le CFPP que cinq, produites par le même locuteur (cf. Lefeuvre & Rossi-Gensane,

2015) :

(30) comment que c’était j’en sais rien (Marie-Hélène Matera, 67 ans, secrétaireretraitée, enfant d’immigrés italien, [MO-02])(31) et ben y a eu euh euh comment qu’il s’appelle + aidez-moi Mireille (Marie-HélèneMatera, [MO-02])(32) + qui fabriquait bon euh comment que ça s’appelle ben des bougies (Marie-HélèneMatera, [MO-02])(33) dans les dans les autres unités par exemple dans la distribution ou dans : comment queça s’appelle la distribution puis l’autre c’est quoi déjà ? bougies (Marie-Hélène Matera,[MO-02])(34) si un souvenir me me me tente tu sais des fois un vieux moulin à la main là commentque ça s’appelle (Marie-Hélène Matera, [MO-02])

Corpus, 15 | 2016

176

Page 178: Corpus de français parlé et français parlé des corpus

43 Dagnac (2014) rappelle la forte stigmatisation de ce type de structure qui serait en

déclin. Defrancq (2005) n’évoque pas ce schéma pour les percontatives. Ce schéma

semble bien inscrit en langue, puisque l’on peut trouver quelques percontatives en

comment que à l’oral représenté (3 occurrences de sais pas comment que, toutes 3 sur la

première moitié du XXe siècle) :

(35) J’sais pas comment que tu te démerdes, mais t’es toujours d’attaque ! (Frantext, Genet,le Miracle de la rose, 1947)(36) Je ne sais pas comment que ça se fait. (Frantext, Péguy, Le Mystère de la charité deJeanne d’Arc, 1910)

Ce type de percontative est attesté sur Frantext à partir de 1879,(37) Dis-moi un peu comment que tu t’y prendrais ! (Huysmans, Les Sœurs Vatard, 1879)

les dernières occurrences trouvées datant de 1966 :(38) Ceux d’entre nous qui avaient encore la force de parler se soulevèrent sur un coude etdemandèrent comment que ça s’était passé. (Pérec, Quel Petit Vélo à guidon chromé aufond de la cour ?, 1966)

44 On peut donc faire l’hypothèse que ce schéma, pour les percontatives, est effectivement

en déclin.

45 En revanche, il est davantage présent dans le CFPQ (corpus de français parlé québécois

de 471 575 mots) ; pour les interrogatives (directes), 18 exemples sur les 50 relevés avec

comment en position frontale adoptent cette structure (cf. Lefeuvre & Rossi-Gensane,

2015) :

(39) comment qu’ils appellent ça dans les bu un bureau de travail/ là dans les::: (CFPQ,sous‐ corpus 15, CFPQ)

et nous avons trouvé 11 exemples de percontatives amorcées par comment que :(40) hum hum hum hum hum hum hum et pour dire hein que tu sais pas comment que ça çapeut brimer un enfant (sous-corpus 20, CFPQ)

3.4 Les percontatives avec inversion

46 F. Gadet (1997, 108) relève des énoncés comme :

(41) Je me demande quand part-il

47 Ce type d’énoncés avec inversion semble typique de conduites d’hypercorrection. Le

locuteur en « fait trop » : il essaie de produire une forme d’interrogation qui relève d’un

usage soutenu en inversant le verbe et le sujet, mais en alignant la percontative sur la

forme la plus normée d’interrogative, il oublie qu’il n’y a pas d’inversion dans la

subordonnée. De fait, on entend parfois ces formes à la radio ou à la télévision et on les

trouve à l’écrit dans des copies d’étudiant. Dans la situation d’enregistrement du

CFPP2000, les locuteurs n’ont pas jugé utile d’avoir recours au registre le plus soutenu.

De fait ces structures ne sont pas attestées.

3.5 Les percontatives avec le mot en qu- in situ

48 Nous avons relevé seulement deux exemples de percontatives in situ dans le CFPP2000,

et tous les deux chez des locuteurs d’origine maghrébine qui vivent dans des cités

ghettoïsées de la même banlieue populaire, Saint-Ouen :

(42) euh il me dit “ben écoute t’as encore trois trois autres entretiens entretien médicalpsychologique et un autre entretien je sais plus c’était quoi la fin et plus un test un test [mm]euh + un test un questionnaire (Youcef, 29 ans, actuellement sans emploi, titulaire d’unmaster de géographie, [SO-02])

Corpus, 15 | 2016

177

Page 179: Corpus de français parlé et français parlé des corpus

(43) non juste le le le le montrer euh euh la la la vie c’est quoi euh de se lever à six heures[mm] du matin récurer les toilettes avec les brosses à dents euh (Abdel, 25 ans,manutentionnaire au journal Le Parisien, CFPP2000, [SO-02])

4. Analyse des données

49 Le tableau ci-dessus montre que de nombreux locuteurs du CFPP2000 alternent entre

deux variantes de percontatives qu’ils traitent comme appartenant toutes les deux à la

langue commune. Les interrogatives indirectes en est-ce que ne sont pas cantonnées à

un type de locuteur. On les trouve par exemple chez R. Larivière, un étudiant en

médecine de 23 ans, qui habite le quartier le plus bourgeois de Paris, le 7e :

(44) Je sais pas où est-ce que je vais

50 et dans la bouche de M. L. Orsin, qui a grandi dans le 11e (un quartier assez populaire),

mais qui est fille d’instituteur et qui est elle-même devenue professeure des écoles,

métier en rapport avec la transmission des normes linguistiques :

(45) Je sais pas où est-ce que vous auriez été.

4.1 Les formes in situ et l’influence des français périphériques

51 En revanche, ce n’est pas le cas des percontatives in situ. Les deux formes répertoriées

proviennent de locuteurs jeunes qui ont grandi dans la même banlieue défavorisée :

(46) euh il me dit “ben écoute t’as encore trois trois autres entretiens entretien médicalpsychologique et un autre entretien je sais plus c’était quoi la fin et plus un test un test [mm]euh + un test un questionnaire (Youcef, 29 ans, actuellement sans emploi, titulaire d’unmaster de géographie, [SO-02])(47) non juste le le le le montrer euh euh la la la vie c’est quoi euh de se lever à six heures[mm] du matin récurer les toilettes avec les brosses à dents euh (Abdel, 25 ans,manutentionnaire au Parisien [SO-02])

52 Des exemples relevés à la volée montrent qu’il s’agit d’une structure que l’on entend

chez d’autres locuteurs d’origine maghrébine. L’exemple suivant est prononcé par une

femme de ménage d’origine algérienne dans un entretien en cours de transcription :

(48) quand il manque des bonbons vous savez c’est qui (adulte, Samia, originealgérienne, 49 ans, scolarité jusqu’en 6e, arrivée en France à 22 ans)

53 En français hexagonal, cette structure apparaît chez de jeunes enfants, mais a toutes les

chances de disparaître par la suite, lorsqu’ils appartiennent à des milieux favorisés :

(49) tu sais son nom de famille c’est quoi (enfant d’enseignant, 4 ans)(50) je sais c’est qui mes copines (enfant d’enseignant, 8 ans)

54 Elle a cependant été observée chez des élèves plus âgés qui sont scolarisés dans des

établissements classés en Zone d’éducation prioritaire (Paris, CM2 / 6e). On en trouve de

nombreuses attestations dans un corpus rassemblé par B. Lesort (2002) qui a été

recueilli dans une école très ghettoïsée de Paris : presque tous les parents des classes

observées viennent d’Afrique Noire, d’Asie ou du Maghreb. La plupart des percontatives

utilisées par les enfants (prononcées sans pause, ni rupture intonative d’aucune sorte)

sont des formes in situ :

(51) je sais pas c’est quoi (Abdoulay)(52) je sais pas c’est comment (Idriss)(53) je sais pas c’est combien d’heures techno (Idriss)(54) y’a piscine, techno, après je sais pas y a quoi là-bas (Idriss)(55) je sais pas ça veut dire quoi (Malamine)

Corpus, 15 | 2016

178

Page 180: Corpus de français parlé et français parlé des corpus

(56) je demande à la maîtresse si j’ai pas compris, elle m’aide après elle me dit c’est quoi,après elle m’explique (Malamine)

55 Une comparaison avec d’autres corpus d’oral spontané permet de mieux situer les

emplois du CFPP2000. D’après Defrancq (2005), Corpaix ne renferme pas ce type

d’exemples. Nous n’en avons pas trouvé non plus dans OFROM.

56 En revanche, ils sont nombreux en français québécois. Le corpus CFPQ recueilli par

G. Dostie en comporte beaucoup : Pour les seuls sous-corpus 17, 18, 19, nous avons

relevé 12 percontatives de ce type :

(57) ils savent c’est quoi t’sais (CFPQ, sous-corpus 19)(58) t’as dit c’est quoi c’est Good lu- (CFPQ, sous-corpus 17)(59) mais les gens justement ils le savent PAS c’est quoi (CFPQ, sous-corpus 19)

57 G. Ledegen (2007) signale l’existence de ce type d’exemples dans le français de la

Réunion, et E. Biloa, dans le français du Cameroun. Il note ainsi qu’ils sont « nombreux

chez les écrivains camerounais transcrivant le français oralisé / oral », et cite par

exemple (Nganang, 2001 : 23).

58 En 2015, des témoignages littéraires ou tirés du Net indiquent que les percontatives in

situ suscitent facilement des jugements négatifs en France, comme le montrent les deux

exemples suivants.

59 Le premier provient d’une pièce de théâtre de la Comédie Saint-Michel. Le personnage

du loup emploie cette structure, alors que le Petit Chaperon rouge propose la variante

acceptée par la norme :

(60) — j’sais pas c’est qui (le loup) — je ne sais pas qui c’est (reprise par le petit chaperon rouge) (Le petit Chaperon rouge,avril 2014)

60 L’auteur stigmatise le loup en lui faisant parler une langue incorrecte.

61 De même, sur Internet, un internaute, pour railler l’inculture de Nabilla, une vedette de

téléréalité qui, semble-t-il, ignore qui est Jean Valjean8, résume son registre de langue

par une percontative in situ :

(61) www.public.fr ›. Les Anges de la téléréalité 4 : Nabilla : “Je connais Jean Valjean mais jesais pas c’est qui, c’est un clochard ?”

62 L’inculture de Nabilla est, semble-t-il, rendue encore plus manifeste par cette

stylisation syntaxique.

63 Un autre message montre bien la différence d’évaluation des deux formes, puisqu’un

commentateur, qui se voit comme un redresseur du mauvais français, fustige l’emploi

de « je sais pas c’est quoi » et, ce qui ne manque pas de piquant, semble recommander

l’usage de « qu’est-ce », sans prendre soin de différencier indépendante et enchâssée :

(62) à propos de je sais pas c’est quoi : heavendoor ns Forumeur alchimiste, 49 a C’est ladifférence entre la langue écrite et parlé… C’est vrai que toutes les langues évoluent… pastoujours dans le bon sens d’ailleurs… Normalement à la place de “c’est quoi” nous devrionsdire et écrire “Qu’est –ce ?” forme interrogative… (Coups de blues - FORUM Ados-Santeforum.ados.fr)

4.2 Hypothèses

64 Comment expliquer l’apparition des percontatives in situ, et quelle évolution future

pouvons-nous prévoir ? Nous pouvons proposer des hypothèses complémentaires. Et

non exclusives.

Corpus, 15 | 2016

179

Page 181: Corpus de français parlé et français parlé des corpus

4.2.1 Une évolution naturelle du français

65 Les percontatives in situ semblent assez récentes en français hexagonal : B. Conein et

F. Gadet ont écrit qu’elles appartiennent aux « traits populaires héréditaires » (1998,

p. 121), mais nous n’en avons trouvé aucun exemple dans les textes des XVIIe siècle - XXIe

siècle de la base Frantext.

66 Parallèlement, ce n’est qu’à partir des années 1930 que l’on repère dans Frantext des

interrogatives indépendantes où le syntagme interrogatif est in situ : 500 exemples de

c’est quoi, de 1970 à nos jours vs 37 exemples de 1927 à 1970 et 1 seul exemple (1881) de

1600 à 1926 :

(63) C’est quoi, ton boulot ? (Arnaud Claude, Qu’as-tu fait de tes frères ?, 2010, Frantext)

67 On pourrait dès lors se demander si les percontatives in situ ne constituent pas une

étape qui suit logiquement le développement des interrogatives indépendantes in situ

que le corpus Frantext permet de documenter surtout à partir de 1927 : on pourrait

prévoir que, dans une échéance plus ou moins longue, s’installeront dans tous les

registres du français des percontatives in situ.

68 Dans la lignée des explications de H. Frei (1920), on peut noter que l’alignement des

percontatives sur les interrogatives directes va dans le sens d’une plus grande

expressivité et d’une plus grande économie. La forme en est-ce que a l’intérêt d’être

pragmatiquement marquée (et dans un premier temps) de produire un effet d’emphase9

; d’autre part, les structures des percontatives s’alignent sur les structures des

interrogatives (directes), ce qui permet aux locuteurs d’unifier leurs façons de poser

des questions.

69 De même que les interrogatives en qu’est-ce que ont pu donner des percontatives en

qu’est-ce que (cf. plus haut), de même les interrogatives in situ aboutiront logiquement à

des percontatives in situ.

70 Les percontatives ne sont pas dans ce cas introduites par un mot subordonnant ;

l’absence d’élément introducteur « subordonnant » n’empêche pas la relation de

dépendance entre la proposition enchâssée et le verbe introducteur mais leur

subordination s’établit en discours. Cela peut suggérer que les percontatives

canoniques, du type :

(64) bon on sait quand quelqu’un a besoin de quelque chose [IV-01]

71 s’établissent également en discours et que quand n’est pas en fait subordonnant dans

cet emploi (cf. Le Goffic 1993 : 43 : « la subordonnée, enchâssée directement, conserv[e]

un caractère proche d’une indépendante »).

4.2.2 Renforcement du phénomène

72 Ce développement récent est peut-être renforcé par l’immigration massive qui a eu lieu

en France à partir des années 60. La présence de cette structure dans les français

périphériques (français de la Réunion, du Québec, Cameroun) peut s’expliquer elle-

même par une tendance à la parataxe plus forte dans les usages périphériques ou par

l’influence qu’ils auraient reçue des français régionaux (mais les attestations

manquent).

Corpus, 15 | 2016

180

Page 182: Corpus de français parlé et français parlé des corpus

4.2.3 La question de la rapidité des changements en cours

73 Nous serons prudentes pour faire des pronostics sur l’évolution. D’une part, la

percontative en est-ce que et le tour normé coexistent depuis trois siècles au moins.

Cette coexistence constitue un exemple de plus des variations sur la longue durée

constatables dans toutes les langues. Le langage est par nature hétérogène et comporte

beaucoup de variations semblables. Il n’y a donc pas de raison de supposer un

effondrement proche et d’ailleurs, dans le CFPP2000, les occurrences normées semblent

dominer.

74 Pour autant, l’usage des structures in situ – qui permettent elles aussi d’aligner les

percontatives sur les structures directes – devrait se poursuivre. Le seul frein que l’on

peut imaginer est celui de la pression scolaire. Jusqu’à récemment, l’institution scolaire

cherchait à imposer des formes de subordination « classique » où un subordonnant

marquait la frontière entre un élément introducteur et un élément enchâssé et

indiquait la relation de dépendance entre les deux. Cet idéal est évidemment troublé

par les cas où l’on observe une relation de dépendance entre une proposition enchâssée

et le verbe dont elle dépend en l’absence d’élément introducteur, ce qui conduit jusqu’à

aujourd’hui à stigmatiser ces formes.

5. Conclusion

75 En 2014, les interrogatives indirectes en « est-ce que » font partie du français commun

que décrit CFPP2000. Les interrogatives indirectes in situ sont encore aux marges du

système, comme l’indique le fait que leur usage suffit pour caricaturer un locuteur sur

Internet.

BIBLIOGRAPHIE

Bell A. (1984). « Language Style as Audience Design », Language in Society 13 : 145-204.

Biloa E. Des traits syntaxiques et morphosyntaxiques du français au Cameroun, www.unice.fr/bcl/

ofcaf/27/BILOA.pdf.

Blanche Benveniste C. (1997). Approches de la langue parlée en français. Paris : Ophrys.

Branca-Rosoff S. (2015). « Dieu est dans les détails. L’expression entre guillemets et ses usages »,

in J. Angermuller & G. Philippe (dir.) Analyse du discours et dispositifs d’énonciation. Autour des

travaux de Dominique Maingueneau. Limoges.

Branca-Rosoff S., Fleury S., Lefeuvre F. & Pires M. (2012). Discours sur la ville. Présentation du Corpus

de français parlé parisien des années 2000 (CFPP2000). cfpp2000.univ-paris3.fr/Corpus.html

Corpus de français parlé au Québec (CFPQ), dir. Gaétane Dostie, CATIFQ, Université de Sherbrooke,

2006. http://re-cherche.flsh.usherbrooke.ca/cfpq/

Corpus, 15 | 2016

181

Page 183: Corpus de français parlé et français parlé des corpus

Dagnac A. (2014). « La variation des interrogatives en français », https://hal.archives-

ouvertes.fr/hal-00988751, document préparatoire pour la GGF (Abeillé & Godard).

Defrancq B. (2005). L’interrogative enchâssée, Structure et interprétation. Bruxelles : De Boeck

Duculot.

Defrancq B. (2000). « Un aspect de la subordination en français parlé : l’interrogation indirecte »,

Études romanes 47 : 131-141.

Frei H. (1929). La Grammaire des fautes. Genève : Reprints Slatkine.

Gadet F. (éd.) (1997). La variation en syntaxe (= Langue française, 115). Paris : Larousse.

Hadermann P. (1993). Étude morphosyntaxique du mot où. Paris/Louvain-la-Neuve : Duculot.

Karttunen L. (1978). « Syntax and semantics of questions », in Hiz H. (éd.) Questions. Dordrecht :

D. Reidel.

Léard J.-M. (1992). Les Gallicismes, Étude syntaxique et sémantique. Paris/Louvain-la-Neuve : Duculot.

Ledegen G. (2007). « L’interrogative indirecte in situ à la Réunion : elle connaît elle veut quoi », in

A. Abecassis et al. (éd.) Le français parlé du XXIe siècle : normes et variations géographiques et sociales.

Lefeuvre F. (2015). « Analyse grammaticale et sur corpus de l’expression c’est quoi (?) », in Dostie &

Hadermann (éd.) La dia-variation en français actuel. Études sur corpus, approches croisées et ouvrages de

référence. Bern : Peter Lang, coll. Sciences pour la communication, 39-62.

Lefeuvre F. (2006). Quoi de neuf sur quoi ?. Rennes : PUR.

Lefeuvre F. (2009). « Catégorisation de comment subordonnant », Travaux de linguistique, Études

sur comment 58 : 63-88.

Lefeuvre F. (2014). Étude grammaticale du français classique à partir de textes. PSN.

Lefeuvre F. & Rossi-Gensane N. (2015). « Interrogation », in P. Larrivée & F. Lefeuvre (dir.) Projet

Fracov. http://www.univ-paris3.fr/index-des-fiches-227311.kjsp? RH=1373703153287

Le Goffic P. (1993). Grammaire de la phrase française. Paris : Hachette.

Le Goffic P. (1987). « Sur l’ambiguïté des relatives / interrogatives indirectes en ce qui, ce que », in

Fuchs (éd.) L’Ambiguïté et la paraphrase : opérations linguistiques, processus cognitifs, traitements

automatisés. Centre de publication de l’Université de Caen, 83-88.

Lesort B. (2002). « Entretiens semi-directifs réalisés avec une classe de CM2 », in E. Bautier,

S. Branca-Rosoff & J.-P. Terrail, Décrochage scolaire : genèse et logique des parcours. https://

halshs.archives-ouvertes.fr/halshs-00808806

Martin R. (1985). L’Interrogation comme universel du langage.

Nganang A. P. (2001). Temps de chien. Paris : Serpent à plumes.

Pierrard M. (1989). La Relative sans antécédent. Louvain : Peeters.

Serbat G. (1985). « Le verbe introducteur de la subordonnée interrogative en latin », in Valentin

(éd.) L’Interrogation. Presses de l’Université de Paris-Sorbonne, 3-16.

NOTES

1. Avec le soutien de la Ville de Paris, de la DGLFLF et, récemment, d’Ortolang.

2. Voir Branca-Rosoff, 2015.

Corpus, 15 | 2016

182

Page 184: Corpus de français parlé et français parlé des corpus

3. Voir les théories de l’accommodation développées tout d’abord par A. Bell, 1984.

4. Ce faible nombre s’explique parce que nous avons préféré transcrire des entretiens longs

(souvent de plus d’une heure) qui permettent entre autres de repérer des phénomènes

fréquemment attestés chez une personne.

5. Tantôt le locuteur est dans l’ignorance (je ne sais pas quand, où, comment, etc.) ; tantôt, il laisse

son interlocuteur dans l’incertitude en ne déterminant pas la valeur de vérité de p (je sais où,

quand, comment…).

6. Cf. également Hadermann, 1993 : 126-130.

7. À l’exception d’un locuteur universitaire qui se reprend après une amorce : « je sais pas

qu’est-ce qui te + quel axe euh est pour toi significatif » [SU-01].

8. Héros des Misérables, roman supposé connu de tous les collégiens français.

9. Foulet, 1919, a bien noté qu’en ancien français les formes qu’est-ce que, qui est-ce qui n’étaient

pas encore grammaticalisées et qu’elles avaient une valeur d’insistance qui a pu aider à leur

diffusion. Le même phénomène se reproduirait pour l’interrogative indirecte.

RÉSUMÉS

L’article permet de préciser quelques spécificités du corpus CFPP2000 et montre à partir de

l’exemple des interrogatives indirectes (percontatives) comment ce corpus peut contribuer à une

description de ce que nous appelons « la langue commune ». Dans un premier temps, nous

rappelons les choix qui ont présidé à la confection du CFPP2000. Puis nous examinons les types

d’interrogatives indirectes qui apparaissent dans le CFPP2000, avec des fréquences variées. Les

interrogatives indirectes selon la norme grammaticale dominent. Cependant les interrogatives

indirectes en « est-ce que » sont bien représentées et elles apparaissent chez des locuteurs de

toutes les origines sociales montrant que le corpus CFPP2000 ne se confond pas avec ce standard

des grammaires. En revanche, les percontatives in situ sont très rares et plusieurs indices

montrent qu’il s’agit encore de formes stigmatisées.

This paper gives some different points about the parisian french spoken corpora (CFPP2000) and

shows, from indirect interrogatives clauses (“percontatives”), how this corpora can be exploited

for a description of the “common language”. First, the choices of the making of the corpora are

mentioned. Then the diffents kinds of the indirect interrogatives clauses in the parisian french

spoken corpora are evoked. The indirect interrogatives clauses based on grammatical norm are

the more frequent. The indirect interrogatives clauses with “est-ce que” occur regularly in the

speeches of speakers of all social origins, what shows that the parisian french spoken corpora

differs from grammatical norm. On the other hand, the indirect interrogatives clauses in situ are

very rare; many clues show that they are stigmatized structures.

INDEX

Mots-clés : corpus, interrogative indirecte, percontative, langue commune

Keywords : corpus, indirect interrogative, percontative, common language

Corpus, 15 | 2016

183

Page 185: Corpus de français parlé et français parlé des corpus

AUTEURS

SONIA BRANCA-ROSOFF

SYLED, ED268, Paris 3 Nouvelle Sorbonne

FLORENCE LEFEUVRE

SYLED, ED268, Paris 3 Nouvelle Sorbonne

Corpus, 15 | 2016

184

Page 186: Corpus de français parlé et français parlé des corpus

Construire un corpus pour desfaçons de parler non standard :« Multicultural Paris French »Constructing a corpus for non standard ways of speaking: MPF

Françoise Gadet et Emmanuelle Guerin

1 L’observation de parlers non standard suppose un recueil de données illustrant des

pratiques réglées selon des normes locales, en marge des règles reconnues comme

légitimes. Afin de constituer un tel corpus, il faut commencer par questionner les

conditions auxquelles ces pratiques prennent place. L’opposition traditionnelle entre

situation formelle vs informelle (en supposant qu’on sache la circonscrire), suffit-elle à

garantir l’émergence de faits de langue marginaux ? Peut-on déterminer en amont les

types de locuteurs concernés ? Pour s’assurer que l’on a affaire à des données non

standard, la sélection de locuteurs et de situations d’interaction (entretiens avec un

chercheur, échanges entre pairs, prises de parole publique…) doit ainsi être

problématisée. Autrement dit, il n’est pas certain que l’identité des locuteurs dans

certains contextes suffise pour actualiser un type de parler donné. Partant, un corpus

de données non standard semble une entreprise à peu près irréalisable.

2 Nous présentons ici un corpus tenant compte de ces difficultés, MPF (Multicultural Paris

French). Si, comme les autres corpus, il n’est pas exempt d’a priori catégoriels (choix de

territoires socialement et géographiquement déterminés, choix de locuteurs), ceux-ci

sont réévalués au fur et à mesure de l’observation des données recueillies. Le projet a

été mis en place dans le cadre d’une ANR (09 FRBR-037-01, avec une contrepartie

britannique, Multicultural London English). Après la fin de l’ANR, le projet continue en

s’étant recentré sur le français et non plus sur la comparaison1. Le corpus ainsi

constitué en région parisienne récuse la sélection des enquêtés à travers les seuls

critères de catégories externes tels qu’ils sont assurés par la tradition de corpus

antérieurs ou par des points de vue privilégiant des quadrillages sociodémographiques,

où les questionnements sociolinguistiques ne sont pas constitutifs. On a ainsi fait en

Corpus, 15 | 2016

185

Page 187: Corpus de français parlé et français parlé des corpus

sorte que la réalisation d’un grand corpus soit un moment de réflexion théorique et

méthodologique, accordant une place centrale à la sociolinguistique.

1. Le corpus MPF, les principes à ses fondements, sesmodalités de recueil

3 Suite à l’immigration qu’a connue la région parisienne depuis la fin du XIXe siècle

(Noiriel, 2002 ; Blanc-Chaléard, 2001 ; Rabaud, 2014), on peut aujourd’hui parler d’une

« Île-de-France multiculturelle », qui se matérialise linguistiquement à travers des

effets de contacts de langues sur le français tel qu’il y est parlé. On peut ainsi

considérer ces effets comme relevant de formes non standard du français. Dans le droit

fil de réflexions de Labov (1972) ou de Kerswill (2010) sur les locuteurs innovateurs, on

considère que les phénomènes langagiers issus des effets du contact sont observables

dans les pratiques de locuteurs répondant aux critères : « jeunes », « de milieu modeste

ou populaire », « connaissant des contacts multiculturels réguliers ».

1.1 Des corpus antérieurs

4 Toutes les métropoles occidentales ont aujourd’hui affaire à une telle immigration et à

la présence (que l’on peut désormais considérer comme pérenne) de populations

influencées plus ou moins directement par d’autres cultures. De fait, des études

(socio)linguistiques sur ce thème ont été pratiquées dans plusieurs des métropoles

européennes, surtout d’Europe du Nord, où le phénomène est un peu plus ancien qu’au

sud (voir les travaux de Cheshire et al., 2011, sur Londres ; Wiese, 2013, sur Berlin ;

Kotsinas, 1998, sur Stockholm ; Quist, 2008, sur Copenhague ; Jaspers, 2008, sur Anvers…2). La France, quant à elle, a pris un gros retard dans l’étude des effets linguistiques

pouvant ainsi être induits sur le français, alors même qu’elle est l’un des plus anciens

pays d’immigration d’Europe (depuis la seconde moitié du XIXe siècle, où la plupart des

autres pays européens étaient des terres d’émigration). Le projet MPF a été constitué

avec l’objectif de contribuer à combler ce retard.

5 Ce n’est pas qu’il n’existe aucun corpus sur Paris, mais d’une part il y en a peu, d’autre

part ceux qui existent n’intègrent pas la question des contacts comme un facteur de

dynamique langagière. Parmi les quelques corpus sur la région parisienne (petits ou de

taille moyenne), les recueils de données ont en général été construits pour cibler un

seul aspect de la langue : soit le niveau phonique – voir Jamin (2004), Fagyal (2010) –,

soit le plan lexical – voir les nombreux dictionnaires, dont aucun ne s’appuie

réellement sur un corpus (en tous cas visible et publié), même si, dans le meilleur des

cas, ils mettent en jeu des relevés et des observations systématiques. Parmi les corpus

plus grands sur Paris, on peut évoquer le récent CFPP2000 (Branca-Rosoff et al., 2011).

Bien que constitué « en premier lieu pour étudier les modifications qui interviennent

dans ce qu’on peut considérer comme un parisien véhiculaire en tension entre le pôle

du standard et le pôle du vernaculaire », il exclut volontairement la question du

contact. Le corpus MPF adopte une autre position, puisque les effets du contact y sont

considérés comme constitutifs d’une forme de vernaculaire. Des corpus à objectifs

sociolinguistiques ont aussi été recueillis dans d’autres grandes villes françaises,

comme Grenoble (Billiez, 1992), Orléans3, Marseille ou Lille (Pooley, 2012)4 ; voir aussi

Jamin & Trimaille (2008), Jamin et al. (2006) pour des comparaisons entre villes.

Corpus, 15 | 2016

186

Page 188: Corpus de français parlé et français parlé des corpus

6 MPF s’inscrit ainsi dans le paysage des corpus de français avec un positionnement

original puisqu’il est multi-objectif et situe les contacts de langue comme intégrant la

réflexion sur la dynamique des pratiques langagières.

1.2 La méthodologie adoptée dans MPF

7 Pour constituer le corpus MPF, on a renoncé à la  problématique du vernaculaire

théoriquement abordée dans l’opposition entre situations formelles et informelles

(Labov, 1972) pour privilégier la qualité des interactions entre les protagonistes, qui

correspondait mieux à nos hypothèses. Les options sous-jacentes à ce choix concernent

les facteurs susceptibles de produire de la variation et de la diversification langagières

dans une même langue : les facteurs décisifs relèvent-ils des situations ? Des genres ?

Des caractéristiques sociodémographiques des locuteurs ? Des interactions ? Ces

questions ne sont pas indépendantes les unes des autres, et la méthodologie adoptée

tient compte de leur imbrication.

8 Nous étions conscients du caractère partiel des réponses apportées par un quadrillage

sociodémographique (Eckert, 2012) et nous voulions acter dans le corpus même le fait

que la réalité sociolinguistique est bien plus complexe (Gadet & Guerin, 2012 ; Gadet,

2013). Les informateurs ont ainsi été sélectionnés sur réseaux, soit préalables aux

enregistrements, soit construits pour l’occasion à travers une immersion prolongée,

avec l’idée de se rapprocher de l’immédiat communicatif authentique, c’est-à-dire

d’interactions entre locuteurs entretenant une réelle connivence. La réflexion

méthodologique a ainsi débouché sur une démarche innovante, privilégiant la qualité

des échanges conversationnels et le contenu de ce qui est dit, plutôt qu’une illusoire

représentativité sociodémographique, quadrillant surtout des facteurs aisément

quantifiables en dichotomie ou en continuum, comme le sexe, l’âge, la classe sociale, et

éventuellement l’origine ethnique – tous facteurs dont il reste à montrer qu’ils

constitueraient bien une clef de la production de diversité langagière (voir Gadet &

Wachs, 2015, pour une critique de ce point de vue).

9 Bien que MPF joue aussi sur les identités pré-assignées par le chercheur (jeunes, de

milieux populaires, multiculturels), le profil des informateurs tient compte de

métadonnées éclairant notamment la relation préalable enquêteur/enquêté, et les

circonstances de l’enregistrement. C’est l’identité en interaction (Greco et al., 2014) qui

prévaut sur les caractéristiques objectivables et quantifiables. Quand cela a été possible,

on a fait faire, parallèlement à l’entretien (dit « de proximité » quand l’enquêteur est

parvenu à établir une interaction connivente), un enregistrement écologique 5 afin de

disposer de matériau pour étudier la variation intra-locuteur : il s’agit

d’enregistrements effectués en l’absence de l’enquêteur – parfois en sa présence, mais

sans qu’il se trouve alors en posture d’enquêteur (conversations entre pairs, non

provoquées). Toutefois, différents obstacles, plus ou moins prévisibles du point de vue

méthodologique, ont conduit à ce que le nombre d’enregistrements écologiques soit

plus réduit que celui des entretiens.

10 Le recueil du corpus a été soutenu d’une mise au point du vocabulaire, la plupart des

termes s’avérant problématiques, qu’ils soient issus de la réflexion linguistique, de la

reprise sociale (en particulier médiatique) ou encore d’ordre sociologique/

ethnographique : jeunes (si l’on convient que ce qui aboutit à de la différentiation

sociolinguistique dépasse largement le sociodémographique – voir Cheshire, 2005), la

Corpus, 15 | 2016

187

Page 189: Corpus de français parlé et français parlé des corpus

catégorisation ethnique qui tend à ne pas se dire (voir une critique de ce point de vue bien

français dans Lagrange, 2010), la caractérisation par le type d’habitat (banlieue, quartier,

cité, ghetto… et même le fréquent langue de la rue) ; mais aussi quant à la façon de parler :

langue des jeunes ou parlers jeunes… (voir Gadet & Hambye, 2014).

2. Le traitement du corpus

11 Il n’y a pas lieu de distinguer les exigences pour le recueil et celles des étapes du

traitement. Elles sont toutes intégrées à la réflexion qui oriente les choix

méthodologiques. Ces derniers étant le reflet du cadre théorique adopté.

2.1 En amont du recueil : les options méthodologiques

12 Tout recueil d’une certaine envergure confronte au fait que la qualité des données n’est

pas en dichotomie (entretiens en face à face vs enregistrements écologiques) : il y a des

continuums entre ces deux pôles, de plusieurs types, d’une complexité telle que les

effets n’en sont pas toujours convergents ni prévisibles.

13 Constituer un corpus multi-objectifs dont l’exploitation pourra concerner et des

phénomènes linguistiques et des contenus susceptibles d’une analyse de discours,

impose de songer non seulement à la qualité phonique des enregistrements (objectif

facile à atteindre avec les moyens actuels), mais aussi à des qualités intrinsèques du

discours, linguistiques, énonciatives, langagières et communicatives. On rend ainsi

possible le traitement de certains phénomènes, en croisant les points de vue (voir p. ex.

Guerin & Paternostro, 2013 ; ou Moreno & Paternostro, 2014).

14 Ce sont les exploitations morphosyntaxiques et discursives qui s’avèrent les plus

exigeantes pour la nature des données. Au-delà de l’évidente nécessité de diversifier les

genres discursifs pour garantir la diversité des productions (voir Blanche-Benveniste,

2010), on prendra les deux exemples d’exigences quant à la longueur et quant à la

complexité des séquences : pourquoi et comment chercher à obtenir du « discours

long » et du « discours complexe » ?

15 La sociolinguistique et l’analyse de la conversation ont établi qu’il y avait deux

occasions sociales privilégiées de production de discours long : les récits, où une

suspension conversationnelle autorise le locuteur en place à conserver la parole (voir p.

ex. Gülich & Mondada, 2001), et les argumentations. Une condition nécessaire mais non

suffisante est la longueur des tours de parole, réduite quand la parole circule vite, ce

qui est justement un indice de naturel dans la conversation ordinaire. Aussi, si l’on veut

étudier des phénomènes qui ne se manifestent qu’en discours long, il faut une collecte

ciblée. Maintenant, qu’est-ce que la longueur des séquences assure ? En tous cas pas la

diversité de phénomènes, et on peut de ce point de vue opposer les récits et les

argumentations/explications. Dans beaucoup d’échanges ordinaires, en effet, les récits

manifestent dans le format long des structures monotones, peu complexes. Ce sont

surtout les argumentations/explications qui peuvent recéler des structures complexes

et des imbrications. Mais il y en a peu dans la conversation ordinaire, car elles

répondent à des situations très particulières : discours didactique, recherche

d’explications spontanées ou sollicitées, provocation amenant à se justifier. On peut

voir à ce propos Blanche-Benveniste (2008) sur des spécialistes expliquant leur

expertise, et de nombreux exemples dans Blanche-Benveniste (2010). Lorsque l’on

Corpus, 15 | 2016

188

Page 190: Corpus de français parlé et français parlé des corpus

cherche à recueillir de la parole d’interactions en proximité communicationnelle,

obtenir des argumentations ou des explications est difficile, puisque ces situations

supposent une connivence et le partage d’un ensemble dense de savoirs et

d’expériences à l’origine de nombreux implicites.

16 Les entretiens n’excluent pas ces deux genres discursifs, surtout les récits. Thibault &

Vincent (1990 : 49), qui ont pratiqué des interviews pour le corpus de Montréal (1984),

soulignent que celles-ci tendent à produire des données « monologiques »,

contraignant l’occurrence de certaines formes. Cependant, il est difficile de corréler

cette tendance avec d’autres éléments en rapport avec la proximité/distance

communicationnelle, puisque le corpus est constitué d’entretiens traditionnels, avec

des locuteurs inconnus. Ainsi, si le genre discursif favorise l’apparition de tours de

parole longs, il reste à déterminer si d’autres paramètres peuvent rectifier la tendance :

la reconnaissance d’une connivence (comme la découverte au cours de l’entretien d’une

passion commune) aurait-elle un effet sur la production de monologues/dialogues ?

17 Quoi qu’il en soit, les modalités d’obtention des données sont liées aux attentes du

chercheur, une même propriété pouvant s’avérer qualité ou limite. Nous avons obtenu

beaucoup plus de récits, en particulier sur les rapports des jeunes avec la police, que

d’argumentations, ce qui n’est pas inattendu.

2.2 La transcription et l’état actuel du corpus MPF

18 La transcription a été effectuée sous Praat, par exigence d’alignement son-

transcription6. En droite ligne des travaux de Blanche-Benveniste, synthétisés en

particulier dans un article de 2003, on a renoncé à toute forme de trucage

orthographique7 (Cappeau et al., 2011 pour des précisions sur les choix de

transcriptions dans MPF). On peut dire, comme Baude & Dugua (2011 : 107) :

Nous avons adopté des principes de base généralement partagés à savoir unetranscription orthographique qui conserve les spécificités de l’oral (amorces,disfluences, répétitions, etc.), sans usage de la ponctuation, et avec la segmentationdes tours de paroles. (p. 105)

19 La transcription est ainsi regardée comme une notation facilitant l’accès à la source

sonore. C’est pourquoi la transcription de MPF ne cherche pas à représenter de

spécificités phoniques (voir aussi note 8).

20 Des conventions ont été établies pour les termes à la graphie peu ou pas du tout

stabilisée, en particulier pour les mots empruntés à l’arabe, pour lesquels on rencontre

jusqu’à trois ou quatre graphies différentes (par exemple zaama, aussi écrit zarma,

zaâma) : ces termes ont été répertoriés dans un petit lexique, utile tout autant pour les

transcripteurs que pour les réflexions sur le lexique (voir le point 3.1).

21 Le corpus comporte, en avril 2016, dans les 820 000 mots transcrits, révisés,

anonymisés, traduits quand il y a lieu, ce qui correspond à un peu plus de 60 heures

enregistrées. Sont considérées comme « finalisées » les données qui ont parcouru les

trois étapes de la transcription, la révision par un chercheur autre que le transcripteur

– parfois plusieurs, pour les enregistrements particulièrement complexes comportant

beaucoup de recouvrements de parole, et de l’anonymisation, pour le son et pour la

transcription. À terme, les données ainsi traitées seront mises en ligne à disposition de

la communauté scientifique. S’y ajoute une « traduction » de tous les termes considérés

comme « non-standard », qu’il s’agisse de verlan, d’argot ou d’emprunts, ces derniers

Corpus, 15 | 2016

189

Page 191: Corpus de français parlé et français parlé des corpus

provenant surtout de l’arabe (mots, parfois alternances codiques, quand l’enquêteur

parle lui aussi arabe) ainsi que de l’anglais – mais aussi des néologismes.

22 D’autres enregistrements ont été recueillis, et en sont actuellement à différents stades

de traitement. Il n’y a pour le moment pas d’annotations. Une vitrine en ligne montre

un extrait de 34 enregistrements8 : elle offre la possibilité d’écouter et de visualiser une

minute (son + transcription) d’une partie des enquêtes.

2.3 Les métadonnées et leur mise en fiches

23 Comme il est désormais de coutume, les enregistrements sont accompagnés des

consentements des enquêtés et de fiches de métadonnées, concernant à la fois les

locuteurs et les modalités d’enregistrement. Elles donnent accès à des renseignements

de différentes sortes : sociodémographiques, linguistiques et sur les circonstances de

l’enregistrement. Mais elles insistent surtout sur des facteurs autres que

sociodémographiques, qui renseignent sur la connivence des interactants lors de

l’échange. Elles donnent ainsi une idée, faute de pouvoir l’évaluer plus finement, de la

proximité communicationnelle entre interactants (informateur/enquêteur pour les

entretiens, informateurs entre eux pour les enregistrements écologiques).

24 On cherche ainsi à préciser les caractéristiques objectives des locuteurs et des

situations, de même que des spécificités de l’interaction. Dès lors, tous les items

n’appellent pas le même traitement dans les fiches de métadonnées : certaines

rubriques sont des questions ouvertes, laissant à l’enquêteur la liberté d’évaluer la

pertinence de certaines informations. Par exemple, indiquer que l’enquêteur partage

avec l’informateur un intérêt pour un style de musique, sans qu’ils entretiennent

d’intimité, peut s’avérer déterminant pour la proximité communicationnelle si le

thème de la musique est abordé. Inversement, un sujet inconnu de l’un des interactants

favorise la distance communicationnelle, même dans un échange entre proches (voir

Koch & Œsterreicher, 2001).

2.4 Classifier les enregistrements

25 Les enregistrements ont finalement été classifiés en 3 groupes, sur la base de la qualité

sonore perceptible (telle qu’elle peut être reconnue par un groupe d’évaluateurs de

l’équipe) : A) « entretiens traditionnels », B) « entretiens de proximité », et C) « corpus

écologiques » – à quoi ont été ajoutés des entretiens avec des « grands témoins »9.

26 La qualité du lien interpersonnel entre les protagonistes l’emportant sur tout autre

critère pour la sélection des enquêtés, les localisations géographiques ne sont pas

regardées comme prioritaires, et les enquêtés proviennent de 4 arrondissements

parisiens et de 27 villes de la couronne parisienne. On est ainsi très loin aussi bien des

monographies que des études de cas.

27 Si l’on peut distinguer entre ces trois types d’enregistrements, les frontières entre eux

ne sont pas étanches, et il a parfois été difficile de catégoriser, malgré les qualifications

fines des interactions. On peut citer l’exemple d’une conversation entre un membre du

projet, son conjoint et la sœur de ce dernier. A priori, cette situation aurait pu donner

lieu à un enregistrement de type B ou C. Mais l’incongruité de la présence de

l’enregistreur et du questionnement de l’enquêteur dans un contexte intime a conduit à

une production contrôlée, relevant plutôt du type A. De plus, dans un même

Corpus, 15 | 2016

190

Page 192: Corpus de français parlé et français parlé des corpus

enregistrement, il n’est pas rare que différents moments tendent vers des

catégorisations différentes. C’est pourquoi, si l’on maintient ce type de classement par

commodité, on n’ignore pas son caractère approximatif dans un continuum.

28 Le programme se prolongera avec la constitution d’une banque de données (en cours de

réalisation) qui retiendra des critères d’interrogation de trois ordres : 1) paramètres,

difficilement quantifiables, concernant la proximité/distance entre les interactants,

2) phénomènes linguistiques et langagiers, 3) aspects sociodémographiques (ville, âge,

sexe des interactants, origine ethnique…). L’architecture même de cette banque de

données reflète ainsi le fait que la priorité ne va pas aux paramètres

sociodémographiques en tant qu’ils constitueraient une clé de la diversification des

façons de parler : la complexité et l’intrication des différents facteurs doivent être

reflétées.

3. Quelques exploitations pour un corpus

29 Quant aux exploitations d’ores et déjà permises pour ce corpus, on en prendra quatre

exemples, en diversifiant les domaines et les auteurs. Ils concernent des thèses,

soutenues ou en cours, et/ ou des communications et articles. Les trois premiers

exemples portent sur des formes linguistiques, le dernier sur les représentations sur les

langues.

3.1 Plan lexical

30 Un premier domaine concerne le lexique, avec un inventaire et un classement de

termes d’argot, de verlan, d’emprunts et de néologismes. Il s’agit, au-delà de la

collection de mots, de tenter de dégager les matrices qui les sous-tendent et de les

comparer avec les dictionnaires, en particulier le Dictionnaire de la zone (collaboratif),

Keskiladi, Langue française bob, le Dico-des-mots (collaboratif), ou le Petit Momo.

31 L’étude d’un premier échantillon a montré que, selon le dictionnaire retenu pour la

comparaison, il n’y avait que de 35 % à 70 % des mots de notre corpus qui y figuraient,

certains mots du corpus (comme tchipage) n’apparaissant dans aucun dictionnaire. Ce

qui permet d’évaluer comparativement la qualité des dictionnaires, avec l’intérêt

d’exemples en usage pris dans un contexte large.

32 L’une des particularités du lexique ainsi recueilli concerne le traitement des mots

d’origine étrangère, qui ne sont pas regardés comme une classe à part. Ce choix reflète

un positionnement théorique quant aux effets des contacts de langues, renforcé par

l’étude du corpus. En effet, en écoutant les informateurs, il apparaît que l’usage de

termes d’origine étrangère ne relève le plus souvent pas de phénomènes de code-

switching ou de crossing, qui impliqueraient la conservation de leur valeur « ethnique »

initiale. Des termes comme wesh ou zaama, employés fréquemment par des

informateurs sachant l’interlocuteur arabophone (ou ayant un rapport avec l’arabe),

peuvent dans un même discours relever du code-switching ou constituer des marqueurs

discursifs d’une certaine forme de français, le « parler jeune ». En ce cas, wesh ou zaama

employés par des non-arabophones n’illustreraient du crossing que si les locuteurs

n’appartiennent pas au groupe des jeunes.

Corpus, 15 | 2016

191

Page 193: Corpus de français parlé et français parlé des corpus

33 Il semble plutôt s’agir d’usages relatifs à des éléments de l’environnement des

informateurs. En d’autres termes, ils ne sont pas à comprendre d’abord comme des

manifestations d’identité « ethnique » (réelle ou fantasmée), mais ils indexent

l’appartenance à un groupe de locuteurs du français, les jeunes, dont les normes

autorisent des formes non standard et innovantes, produits de la « distorsion » de

formes attestées (par exemple, le verlan), de la créativité de formes inédites ou du

détournement de formes provenant d’une autre langue ou propres à d’autres groupes

de locuteurs (comme le vieil argot). Le travail de Sandrine Wachs, Nacer Kaci, Nawal

Boussouira, Joanne Kanguara, Magali Floren et Zakia Ayadi a notamment été présenté

dans Wachs (2014), tentant d’établir l’extension de termes rencontrés dans MPF, de

points de vue à la fois régional et social.

3.2 Plan phonique

34 Un deuxième exemple concerne la prosodie de contours intonatifs montant-

descendant, réputés typiques d’un « accent banlieue ». Après l’annotation manuelle

d’environ 600 contours intonatifs extraits du corpus (ce qui est loin de constituer la

totalité de ces contours), Roberto Paternostro a pu montrer que, plutôt qu’à un contour

banlieue, on a affaire à un contour déjà repéré et bien attesté en français standard et

dans les usages ordinaires, où il est associé à l’expression de l’emphase. Ce qu’il y a de

particulier dans les usages des jeunes réside non dans la spécificité, mais dans la

fréquence, et dans les lieux d’apparition inhabituels de ce contour (voir Paternostro,

2013 et 2014 ; Paternostro & Goldman, 2014).

35 Une telle analyse a été rendue possible parce qu’on a pris des distances par rapport à la

précatégorisation des locuteurs, qui aurait poussé à intégrer ce contour à l’ensemble

des manifestations phoniques traditionnellement relevées pour caractériser les parlers

jeunes (voir Jamin et al., 2006), comme une certaine prononciation du r, qui selon

certaines interprétations aurait à voir avec la langue arabe. De même que ce r

renseignerait sur les influences multiculturelles des locuteurs concernés, la

surreprésentation des contours emphatiques pourrait être interprétée comme

l’expression d’une certaine violence verbale à l’image de la violence associée

communément aux pratiques des jeunes de banlieue.

36 Cependant, qu’il s’agisse d’influence de l’arabe (voir ce que nous avons vu pour le

lexique) ou de violence verbale dans une posture de mise en scène de « langue de la

rue », on peut se demander si ces interprétations ne risquent pas d’être orientées par

des a priori liés aux catégories sociales et/ou ethniques. Le corpus MPF a ainsi l’intérêt

d’étayer la possibilité d’autres interprétations, sur la base d’analyses objectives.

3.3 Morphosyntaxe et discours

37 Pour la morphosyntaxe et le discours, plusieurs exploitations sont en cours, comme le

recensement des formes verbales non conjuguées, à la fois l’inventaire (ken, marave, tèj,

il va graille…), le contexte où elles apparaissent et les contraintes que l’on peut dégager.

D’autres phénomènes syntaxiques notables concernent l’absence de clitique (comme

dans les exemples (1) ou (11)), des usages élargis de que comme en (2), ou son absence,

comme en (3) et (4), tous phénomènes déjà répertoriés dans différentes variétés de

français… D’autres phénomènes, que l’on qualifiera d’« émergents » faute de

Corpus, 15 | 2016

192

Page 194: Corpus de français parlé et français parlé des corpus

dénomination plus adéquate, concernent en particulier total, direct, obligé, grave, même

(pas), wesh, zaama, vas-y, perso (voir les exemples de (5) à (10)) :

(1) – vous faites la différence entre l’arabe littéraire et l’arabe marocain ? – non je fais pas (Wajih 4, 46410)(2) c’est bizarre que un français qui dit ça / que normalement ça doit être un arabe(Emmanuelle 2, 246) (3) moi le bled moi franchement ça fait longtemps je suis pas parti (Wajih 4, 244)(4) c’était la première fois ils y allaient (Wajih 4, 367)(5) parce que vas-y c’est un peu cher les billets et tout (Wajih 4, 254)(6) même pas je sais parler rebeu (Wajih 4, 953)(7) je sais pas c’est quoi zaama on fait trop de bruit je sais ap (Wajih 4, 1396)(8) moi perso comme j’ai dit moi ça sert à rien des longues études de toute façon(Wajih 4, 1914)(9) elles par contre ça les a grave aidées au niveau de l’anglais quoi (Aristide 2a, 292)(10) obligé à la rentrée d’octobre je me donne au moins une semaine pour oublier(Emmanuelle 4, 746)

38 On peut prendre l’exemple de genre, dans des emplois comme (11). Le nombre élevé

d’occurrences permettra d’affiner la connaissance des contraintes gouvernant ses

emplois : on en trouve par exemple 55 dans un enregistrement pris au hasard, Nacer 2,

qui dure 86 minutes :

(11) si une fois genre quelqu’un il te demande quelque chose et il voit que tu as del’argent et tu dis non j’ai pas ou je peux pas nananinanana après genre tu as uneréputation tout le monde sait que tu es tu es une radine (Nacer 2, 1651)

39 On rencontre aussi des phénomènes qui impliquent des tronçons d’énoncés plus vastes,

comme le discours rapporté (mode d’introduction, continuateurs – voir Moreno, 2014 ;

Guerin & Moreno, 2014, et ici-même les exemples (11) ou (12)), des interrogatives

indirectes sur le schéma des interrogations directes par intonation (exemples (7), (13)

ou (14)). MPF permet aussi de s’interroger sur des tendances à plus long terme de la

langue française, comme la gestion de certains accords morphologiques. Ainsi, un

travail a porté sur des cas de non-accord entre le sujet et le verbe (Benzitoun &

Cappeau, à paraître – ici, exemple (15)), supposant que le corpus MPF pourrait être

regardé comme du « français avancé » :

(12) une fois elle m’a dit euh ah non elle m’avait dit elle est où ta racli (Nacer 3, 393)(13) je sais même pas moi ça veut dire quoi (Wajih 4, 1004)(14) à chaque fois il me voit je sais ap il a quoi contre oim (Wajih 4, 1289)(15) genre les meufs qui dit je m’en bats les couilles (Roberto 2c, 386)

40 D’autres exploitations en morphologie et en syntaxe sont en cours de réalisation ou en

projet.

3.4 Les représentations sur la/les langue(s)

41 Enfin, du côté du contenu des enregistrements, et dans les enregistrements écologiques

et dans certains entretiens, nous nous sommes intéressés aux représentations sur les

langues et les identités qu’elles manifestent, qui ont d’évidents effets sur les pratiques

langagières : les discours tenus sur le français – en particulier sur la notion de « parler

normal », comme en (16), et ceux sur les langues d’origine, quel que soit le degré de

maîtrise par l’informateur :

(16) wallah je les ai pas traités je leur parlais normal wesh (Wajih 4, 4122)

Corpus, 15 | 2016

193

Page 195: Corpus de français parlé et français parlé des corpus

42 Ces pratiques sont crucialement adressées à un interlocuteur spécifiquement identifié,

comme le montre l’exemple d’un enregistrement où l’enquêteur, lui-même Algérien, se

trouve de plain-pied avec un Beur qui se dit algérien bien qu’il ne parle pas arabe et ne

soit jamais allé en Algérie (voir Gadet & Kaci, 2012 [2015]). Plusieurs des enquêteurs de

MPF étant des Maghrébins, il y a des effets pour des jeunes dont les origines

maghrébines appuient une identité en partie fantasmée (ils se disent souvent « rebeus »

et non « beurs »). On a ainsi exploré l’intrication de discours tenus sur les langues, en

particulier quant aux relations entre arabe et français. De façon générale, il apparaît

que les jeunes locuteurs, quelle que soit leur propre façon de parler, sont souvent

porteurs d’idéologie du standard dans leurs représentations du français, tout en

paraissant s’y opposer (ce qui revient à réasserter quelque chose par le fait même de le

mettre en cause – à la marge d’ailleurs ; voir Gadet & Guerin, 2015 ; Jaspers, 2011, sur

des jugements à propos du flamand dans une école de Gand).

43 Ces différents travaux et d’autres qui sont en cours visent à exploiter désormais les

possibilités de croisements entre les domaines.

4. Remarques conclusives : qu’est-ce que MPFmanifeste de spécifique ?

44 Le corpus MPF permet des réflexions qui n’auraient pas nécessairement pu prendre

place sur la base d’autres corpus.

45 Tout d’abord, à une étape de mise en place des conditions du recueil, MPF a été

l’occasion d’une réflexion sur le recueil de données, une préoccupation que les

linguistes ont trop souvent, dans l’élaboration de grands corpus, traité avec quelque

légèreté, ou comme une évidence ne méritant pas d’élaboration ; au contraire du souci

constant manifesté par les ethnologues dans l’élaboration de leurs données (voir p. ex.

les réflexions de Lepoutre, 2001, qui revient après coup sur son travail de 1997).

46 Au niveau de la collection de données et d’un point de vue avant tout formel, MPF

permet de disposer d’une ample documentation sur des catégories « émergentes » ou

« innovantes », en tous cas encore peu décrites – le terme émergent étant d’ailleurs à

manier avec précaution car difficile à définir, mais n’étant certainement pas à

confondre avec « nouveau » (qui ne serait guère adapté que pour le lexique, et

encore…). Il permet aussi de mesurer des contraintes sur des phénomènes déjà connus.

La pratique de recueil d’immédiat communicatif sur base de réseaux ouvre-t-elle l’accès

à des données différentes de celles qui sont recueillies dans des entretiens

traditionnels ? C’était en tout cas notre hypothèse. Maintenant, à quel(s) niveau(x)

linguistique(s) des effets se manifestent-ils ? Il apparaît impossible de répondre à cette

question – ce qui n’empêche pas de la soulever –, les entretiens n’étant pas réitérables

ad libitum afin de mesurer un éventuel « effet enquêteur »11.

47 L’empreinte de la sociolinguistique et de l’ethnolinguistique dans la réflexion sur MPF

est plus nette encore pour ce qui est de la considération des effets du contact des

langues. S’il apparaît en effet certain que les langues peuvent emprunter du lexique ou

des intonations d’une autre langue, il est moins évident – et cela demeure à

documenter – qu’il soit possible de « copier » des phénomènes phoniques segmentaux,

des faits syntaxiques et, probablement, encore moins des faits morphologiques. Il faut

ainsi se garder de sauter trop vite à l’hypothèse qu’on a affaire à des effets du contact,

Corpus, 15 | 2016

194

Page 196: Corpus de français parlé et français parlé des corpus

et confronter les phénomènes qui pourraient être des candidats à être traités comme

des emprunts à d’autres hypothèses, dont celle de l’évolution endogène. Toutefois, une

telle démonstration exigerait une documentation, à travers toute la francophonie, bien

plus solide que celle dont on dispose actuellement.

48 Enfin, MPF permet aussi de s’intéresser à ce qui est dit dans les enregistrements, au

contenu, au-delà du corpus conçu comme un « réservoir de données » pour pratiquer

des études linguistiques. Ainsi, on peut entrevoir la possibilité d’aborder des questions

sociolinguistiques, didactiques et même politiques (sur le système d’enseignement et

au-delà – voir Sayad, 201412), avec un éclairage sur la posture de mise en scène de soi

des jeunes, en rapport à l’intensité, à l’emphase et à la culture des rues (Lepoutre, 1997 ;

Gadet & Hambye, 2014). Des analyses plus fines à ce propos permettront sans aucun

doute de mieux comprendre la difficile quête d’identité de beaucoup de ces jeunes.

BIBLIOGRAPHIE

Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf,

linguiste ? », Corpus 10 : 99-118.

Benzitoun Ch. & Cappeau P. (2014). « Quel accord ? Retour sur les cas de ‘non accord’ entre sujet

et verbe à l’oral », Colloque Les relations d’accord dans la syntaxe du français. Fribourg, 25-26

septembre 2014.

Billiez J. (1992). « Le ‘parler véhiculaire interethnique’ de groupes d’adolescents en milieu

urbain », in E. Gouaini and N. Thiam (éd.) Des langues et des villes. Paris : Didier-Érudition, 117-126.

Blanc-Chaléard M.-Ch. (2001). Histoire de l’immigration. Paris : La Découverte.

Blanche-Benveniste C. (2003). « Réflexions sur les transcriptions de corpus de français parlé »,

Revue PAroles 22-23-24 : 91-116.

Blanche-Benveniste C. (2008). « Le français parlé au XXIe siècle. Réflexions sur les méthodes de

description : système et variations », in M. Abecassis, L. Ayosso, E. Vialleton (éd.) Le français parlé

au XXIe siècle : normes et variations dans les discours et les interactions. Volume 2. Paris : L’Harmattan,

17-39.

Blanche-Benveniste C. (2010). Le français : Usages de la langue parlée. Leuven : Peeters.

Branca-Rosoff S. et al. (2011). « Constitution et exploitation d’un corpus de français parlé

parisien », Corpus 10 : 81-98.

Cappeau P. & Gadet F. (2010). « Transcrire, ponctuer, découper l’oral. Bien plus que de simples

choix techniques », Cahiers de linguistique 35/1 : 187-202.

Cappeau P. & Gadet F. (2014). « Quand l’œil écoute… Que donnent à lire les transcriptions

d’oral ? ». Actes du colloque CILPR de Nancy, en ligne : http://www.atilf.fr/ cilpr2013/.

Cappeau P., Gadet F., Guerin E. & Paternostro R. (2011). « Réflexions sur les incidences de

quelques aspects de la transcription outillée », LINX 64-65 : 85-100.

Corpus, 15 | 2016

195

Page 197: Corpus de français parlé et français parlé des corpus

Cheshire J. (2005). « Age and generation-specific use of language », in U. Ammon, N. Dittmar,

K. Mattheier & P. Trudgill (éd.) Sociolinguistics : An Introductory Handbook of the Science of Language

and Society. Berlin : Mouton de Gruyter, 1552-1563.

Cheshire J., Kerswill P., Fox S. & Torgersen E. (2011). « Contact, the feature pool and the speech

community : the Emergence of Multicultural London English », Journal of Sociolinguistics 15-2 :

151-196.

Dico-des-mots http://dico-des-mots.com/liste-de-mots.

Dictionnaire de la zone http://www.dictionnairedelazone.fr/?index=lexique&let=0.

Eckert P. (2012). « Three waves of variation study : the Emergence of meaning in the study of

sociolinguistic variation », Annual Review of Anthropology 41 : 87-100.

Fagyal Z. (2010). L’Accent de banlieue. Paris : L’Harmattan.

Gadet F. (2008). « L’oreille et l’œil à l’écoute du social », in M. Bilger (dir.) Données orales. Les enjeux

de la transcription. Les cahiers 37. Presses universitaires de Perpignan, 35-48.

Gadet F. (2013). « Collecting a new corpus in the Paris area : intertwining methodological and

sociolinguistic reflections », in D. Hornsby & M. Jones (éd.) Language and Social Structure in Urban

France. Oxford : Legenda, 162-171.

Gadet F. (2015). « Le style et les corpus : réflexions à partir d’un corpus recueilli en région

parisienne », in K. Jeppesen Kragh & J. Lindschouw (éd.) Les Variations diasystématiques et leurs

interdépendances dans les langues romanes. Société de linguistique romane, série TraLiRo, collection

Sociolinguistique, dialectologie, variation.

Gadet F. & Guerin E. (2012). « Des données pour étudier la variation : petits gestes

méthodologiques, gros effets », Cahiers de linguistique 2012-1 : 41-65.

Gadet F. & Guerin E. (2015). « Le français en contact en région parisienne : le poids des

représentations sur les langues », in Actes du colloque de Raguse, Repères DoRIF. Revue en ligne.

Gadet F. & Hambye Ph. (2014). « Contact and ethnicity in ‘youth language’ description : in search

of specificity », in R. Nicolaï (dir.) Questioning Language Contact. Limits of Contact, Contact at its limits.

Leiden/Boston : Brill, 183-216.

Gadet F. & Kaci, N. (2012 [2015]). « Identification en première personne. Le discours d’un ‘jeune

de banlieue’ en entretien », Cahiers de praxématique, no 59, 29-44.

Gadet F. & Paternostro R. (2013). « Un accent multiculturel en région parisienne ? », Repères DORIF

3. http://www.dorif.it/ezine/.

Gadet F. & Wachs S. (2015). « Comparer des données de corpus : évidence, illusion, ou

construction ? », Langage & Société, no 154, 33-49.

Greco L., Mondada L. & Renaud P. (dir.) (2014). Identités en interaction. Limoges : Lambert Lucas.

Guerin E. & Moreno A. (2014). « Le discours rapporté dans les interactions orales et écrites. Au-

delà d’une opposition de surface », Actes du colloque CILPR de Nancy. En ligne : http://www.atilf.fr/

cilpr2013/

Guerin E. & Paternostro R. (2014). « What is langue des jeunes and Who speaks it », in H. Tyne et

al. (éd.) French through Corpora : Ecological and Data-driven Perspectives in French Language Studies.

Actes du colloque AFLS de Nancy 2011. Cambridge Scholars Publishing.

Gülich E. & Mondada L. (2001). « Analyse conversationnelle », in Lexikon der Romanistischen

Linguistik. Tübingen : Max Niemeyer Verlag, 196-250.

Corpus, 15 | 2016

196

Page 198: Corpus de français parlé et français parlé des corpus

Jamin M. (2004). « ‘Beurs’ and accent des cités : a case study of linguistic diffusion in La

Courneuve », Contemporary French and Francophone Studies 8-2 : 169-176.

Jamin M. & Trimaille C. (2008). « Quartiers pluriethniques et plurilingues en France : berceaux de

formes supra-locales (péri-)urbaines ? », in M. Abecassis, L. Ayosso & V. Alleton (éd.) Le français

parlé au XXIe siècle. Normes et variations géographiques et sociales, Volume 1. Paris : L’Harmattan,

225-246.

Jamin M., Trimaille C. & Gasquet-Cyrus M. (2006). « De la convergence dans la divergence : le cas

des quartiers pluriethniques en France », Journal of French Language Studies 16-3 : 335-356.

Jaspers J. (2008). « Problematizing Ethnolects : Naming linguistic practices in an Antwerp

secondary school », International Journal of Bilingualism 12 (1-2) : 85-103.

Jaspers J. (2011). « Talking like a ‘zerolingual’ : Ambiguous linguistic caricatures at an urban

secondary school », Journal of Pragmatics 43 : 1264-1278.

Kerswill P. (2010). « Youth Languages in Africa and in Europe : Linguistic subversion or emerging

vernaculars ? ». http://www.lancaster.ac.uk/fass/doc_library/linguistics/kerswill/Kerswill-

African-Studies-19-10-10.pdf

Keskiladi http://www.keskiladi.com/.

Koch P., Œsterreicher W. (2001). « Langage oral et langage écrit », in G. Holtus, M. Metzeltin &

C. Schmitt (éd.) Lexikon der Romanistischen Linguistik, Tome 1. Tübingen : Max Niemeyer Verlag,

584-627.

Kotsinas U.-B. (1998). « Language Contact in Rinkeby – an immigrant suburb », in

J. Androutsopoulos & A. Scholz (éd.) Jugendsprache, langue des jeunes, Youth Language. Frankfurt am

Main : Peter Lang, 125-148.

Labov W. (1972). Sociolinguistic Patterns. Philadelphia : University of Pennsylvania Press.

Lagrange H. (2010). Le Déni des cultures. Paris : Le Seuil.

Langue française bob. http://www.languefrancaise.net/bob/.

Lepoutre D. (1997). Cœur de banlieue. Paris : Odile Jacob.

Lepoutre D. (2001). « La photo volée. Les pièges de l’ethnographie en cité de banlieue », Ethnologie

française XXXI-1 : 89-101.

Moreno A. (2014). « Le discours rapporté dans l’interaction : proximité et variabilité », in Actes du

Congrès mondial de linguistique française de Berlin.

Moreno A. & Paternostro R. (2014). « Les parlers jeunes en banlieue parisienne au croisement de

la syntaxe et de la prosodie », Communication au Colloque de Nanterre (5-6-7 juin 2014), Les

Métropoles francophones en temps de globalisation.

Noiriel G. (2002). Atlas de l’immigration en France. Paris : Éditions Autrement.

Paternostro R. (2013). « La langue des jeunes parisiens : une forme actualisée dans la proximité ? »,

Cahiers de l’École doctorale de Brescia 7 : 9-19.

Paternostro R. (2014). L’Intonation des jeunes en région parisienne : aspects phonétiques et

sociolinguistiques, implications didactiques. Thèse non publiée des universités de Brescia et de Paris

Ouest Nanterre la Défense.

Corpus, 15 | 2016

197

Page 199: Corpus de français parlé et français parlé des corpus

Paternostro R. & Goldman, J.-Ph. (2014). « Modeling of a rise-fall intonation pattern in the

language of young Paris speakers », Actes du colloque Speech Prosody 7. Trinity College de Dublin,

20-23 mai 2014.

Petit Momo. http://michel.buze.perso.neuf.fr/lavache/petit_momo.htm.

Pooley T. (2012). « Code-crossing and multilingualism among adolescents in Lille », Journal of

French Language Studies 22-3 : 371-394.

Quist P. (2008). « Sociolinguistic approaches to Multiethnolect : Language variety and stylistic

practice », International Journal of Bilingualism 12 (1-2) : 43-61.

Rabaud A. (2014). « Une histoire de l’immigration en France », in J.-Y. Blum Le Coat et

M. Eberhard (dir.) Les Immigrés en France. Paris : La Documentation française, 15-36.

Rickford J., McNair-Knox F. (1994). « Addressee – and topic –influenced style shift : a quantitative

sociolinguistic study », in D. Biber & E. Finegan (éd.) Sociolinguistic Perspectives on Register. New

York : Oxford University Press, 235-276.

Rougé J.-L. (2013). « Faire le portrait linguistique d’une ville. Présentation du projet de recherche

langues en contact à Orléans (LCO) », Langage & Société 145 : 123-129.

Sayad A. (2014). L’École et les enfants de l’immigration. Paris : Le Seuil (La couleur des idées).

Thibault P. & Vincent D. (1990). Un corpus de français parlé. Québec : Recherches sociolinguistiques

1.

Wachs S. (2014). « Paris, créativités lexicales et frontières géographiques », Communication au

Colloque de Nanterre (5-6-7 juin 2014), Les Métropoles francophones en temps de globalisation.

Wiese H. (2013). « What can new urban dialects tell us about internal language dynamics ? The

power of language diversity », Linguistische Berichte 19 : 208-245.

NOTES

1. Il bénéficie actuellement de soutiens par la DGLFLF (budget 2015) et par le GTRC canadien Le

français à la mesure d’un continent (France Martineau, directrice).

2. Pour chacun de ces auteurs, on ne donne ici qu’une référence afin de ne pas surcharger la

bibliographie. Pour une bibliographie plus complète sur l’Europe, voir Gadet & Hambye, 2014.

Nous n’envisageons pas ici les comparaisons avec l’Afrique ou l’Amérique « francophones ».

3. Pour les corpus sur Orléans, le contact est traité de façon spécifique dans un projet parallèle

aux corpus des ESLOs (« Étude SocioLinguistique sur Orléans ») : le projet LCO, « Langues en

contact à Orléans », dont on trouve une présentation dans Rougé, 2013.

4. Nous adoptons ici le même choix que celui exposé à la note 2, en renvoyant à la même

publication pour une bibliographie plus ample. On pourrait certes évoquer d’autres corpus, mais

nous nous arrêterons là, du fait de la modestie de taille ou de ce que l’option de qualité

interactive empêche de s’appesantir sur des entretiens faits sans beaucoup de préoccupations

sociolinguistiques.

5. Le terme écologique appuie dans MPF la distinction entre les auto-enregistrements et les

entretiens. Cependant, il ne s’agit nullement d’une dichotomie, et les entretiens peuvent tendre

plus ou moins vers l’écologique, compte tenu de l’attention portée aux spécificités contextuelles

et au rôle des réseaux liant les interactants.

6. Cappeau et al., 2011 tente de justifier le choix qui a été fait de Praat pour MPF, parmi les

différents logiciels de transcription offrant le même type de propriétés.

Corpus, 15 | 2016

198

Page 200: Corpus de français parlé et français parlé des corpus

7. Tous les chercheurs qui travaillent sur des parlers non standard ont eu à se demander

comment éviter de stigmatiser le parler qu’ils étudient, dès l’étape de la transcription. MPF a

suivi la perspective de Blanche-Benveniste (2003, 2010) pour laquelle seul un écrit standardisé

prenant acte de l’incommensurabilité sémiotique des ordres de l’oral et de l’écrit peut satisfaire

cette exigence. On ne cherche ainsi pas à représenter graphiquement des particularités

phoniques comme la chute d’un e muet ou une liaison, mais les mots non prononcés ne sont pas

restitués (voir aussi Gadet, 2008 ; Cappeau & Gadet, 2014).

8. http://mpfvitrine.modyco.fr

9. Il s’agit d’entretiens avec des « personnalités » ayant un rapport, de types variés, avec les

pratiques langagières visées. Si ces enregistrements peuvent parfois constituer un matériau

intéressant pour l’analyse linguistique, ils sont avant tout recueillis pour l’intérêt des propos qui

y sont tenus. Ces « grands témoins », en général un peu plus âgés, sont des responsables

d’association de quartier, des enseignants en ZUS, des acteurs de la culture urbaine…

10. Les exemples sont ici présentés avec le prénom de l’enquêteur et le numéro de l’enquête. Le

chiffre qui suit est le minutage en secondes.

11. Des tentatives ont pourtant été faites en ce sens (p. ex. Rickford & McNair Knox, 1994). Elles

permettent certes de montrer quelque chose quant au fonctionnement du style dans les langues,

mais elles ont selon nous l’inconvénient de négliger le point de vue de l’enquêté, pourtant crucial

pour la qualité des données obtenues. Comment un enquêté qui se trouve sollicité pour réitérer

le même type d’entretien, avec des enquêteurs différents, mais avec lesquels il n’a toujours

aucune histoire conversationnelle antérieure, peut-il construire une interprétation

vraisemblable de la situation ?

12. Ces inédits d’un auteur décédé en 1998 reproduisent des textes datant du début des années

80, permettant ainsi de mesurer que ce sont à peu près les mêmes problèmes qui se posent

aujourd’hui, en particulier à l’école, demeurés intraités ou négligés, et donc qui n’ont fait entre-

temps que s’aggraver.

RÉSUMÉS

Dans cet article, nous présentons le corpus « Multicultural Paris French » (MPF), en en montrant

les enjeux théoriques et méthodologiques, ainsi que quelques directions d’exploitation. En visant

des données non-standard illustrant ce qu’il est de coutume d’appeler « parler jeune », MPF

repose sur une réflexion quant à la façon d’appréhender les situations propices à leur émergence,

au-delà d’informations généralement retenues, d’ordres sociodémographiques ou ethniques, ou

du degré de formalisme de l’échange. Si ces considérations ne sont évidemment pas évacuées,

elles sont combinées à d’autres qui concernent les effets de la relation entre locuteurs au

moment de l’enregistrement. De ce fait, MPF apparaît comme un corpus original dans le champ

des corpus de français parlé contemporain, tant du point de vue de la nature des données

recueillies que de celui du traitement rendu possible par cette spécificité.

This article presents the “Multicultural Paris French” (MPF) corpus, focusing on the theoretical

and methodological issues and possible research avenues that it opens up. The MPF corpus

comprises non-standard speech, commonly referred to as ‘youth language’. A key aspect of the

corpus design is that it inquires into the situational factors conducive to the emergence of this

type of speech, beyond the features generally taken into consideration, such as socio-

Corpus, 15 | 2016

199

Page 201: Corpus de français parlé et français parlé des corpus

demographic and ethnic data or the degree of formality of the exchange. While these features are

obviously not ignored, they are combined with others concerning the effect of the relationship

between speakers during the recording. This specificity distinguishes MPF from other corpora of

contemporary spoken French, making it original both as regards the type of data collected and

the possible avenues for investigation that it offers.

INDEX

Mots-clés : corpus, non-standard, langue parlée, parlers jeunes, multiculturalisme

Keywords : corpus, non-standard, speech, youth language, multiculturalism

AUTEURS

FRANÇOISE GADET

Université Paris Ouest & MoDyCo

EMMANUELLE GUERIN

Université d’Orléans & LLL

Corpus, 15 | 2016

200

Page 202: Corpus de français parlé et français parlé des corpus

De l’archive de parole au corpus deréférence : la base de données oralesdu français de Suisse romande(OFROM)From speech archive to reference corpus: the spoken Swiss French database

(OFROM)

Mathieu Avanzi, Marie-José Béguelin et Federica Diémoz

1. Introduction

Le français est, avec l’allemand, l’italien et le romanche, l’une des quatre langues

officielles de la Confédération suisse. Il y est parlé par un peu plus de 22 % de la

population (Lüdi & Werlen, 2005)1, sur un territoire que l’on nomme Suisse romande,

parfois Romandie. Au plan politique, la Suisse romande est composée de sept cantons,

dont quatre sont officiellement unilingues (Genève, Vaud, Neuchâtel, Jura) et trois

bilingues (Fribourg et Valais, à majorité francophone ; Berne, à majorité

germanophone, cf. Schläpfer, 1985). Du fait de sa situation périphérique par rapport à la

France, la Suisse romande a été, tout au long du XXe siècle, sujette à l’insécurité

linguistique (Jolivet, 1984). Comme l’ont montré des études sociolinguistiques menées,

pour l’essentiel, dans le canton de Vaud, les Romands, bien qu’ils se déclarent parfois

fiers de leur accent (Singy, 1996, 2004), entretiennent une attitude de « subordination

linguistique » (Prikhodkine, 2011 : 24) par rapport aux Français, notamment parisiens, à

qui ils tendent à attribuer une meilleure qualité de langue (Bayard & Jolivet, 1984 ;

Singy, 1996 ; L’Eplattenier, 1998).

Le français que l’on parle en Suisse romande (désormais, pour plus de commodité, FS)

n’est cependant pas uniforme (Knecht & Rubattel, 1984 ; Mahmoudian & Jolivet, 1984)2.

Des variétés de FS ont ainsi été distinguées en fonction du canton où elles sont parlées

(Voillat, 1971 ; Singy, 1996, 2004 ; Matthey, 2003 ; Andreassen, Maître & Racine, 2010) :

Corpus, 15 | 2016

201

Page 203: Corpus de français parlé et français parlé des corpus

on a opposé la variété vaudoise à la variété fribourgeoise ou à la variété neuchâteloise,

même si des distinctions plus fines peuvent être faites parmi les locuteurs d’un même

canton (Voillat, 1971 ; Singy, 2004 ; Racine & Andreassen, 2012), voire à l’intérieur d’un

même district ou d’une même bourgade (Métral, 1977 ; Matthey, 2003). Par ailleurs, les

variétés de français parlé en Suisse ne figurent pas sur un pied d’égalité dans les

représentations des Romands. Bien que le français parlé à Genève suscite des

sentiments ambivalents, il semble jouir, de l’extérieur, d’un prestige plus grand que les

autres variétés romandes (Schoch, 1980 ; L’Eplattenier, 1998), du fait qu’il est considéré

comme plus proche du français dit « de référence » (désormais FR3).

Pourtant, c’est le français parlé dans la ville de Neuchâtel qui a longtemps passé pour

être le « meilleur » français de Suisse romande (Jolivet & Bayard, 1984 ; L’Eplattenier,

1998 ; Racine, Schwab & Detey, 2013), notamment parce que les patois s’y sont

maintenus moins longtemps qu’ailleurs (Gauchat, 1902 ; Gauchat, Jeanjaquet &

Tappolet, 1925 ; Terrier, 1998 ; Kristol 1999 ; Kristol, 2013). Le français du canton de

Vaud demeure associé à un accent rural, voire rustique (Knecht & Rubattel, 1984 ;

Singy, 1996). Quant au français parlé dans le canton du Valais, s’il est parfois qualifié

« d’incompréhensible » et de « chantant », il n’en a pas moins bonne presse chez les

Romands, étant associé au sud et aux vacances…

Ces représentations reposent cependant sur des stéréotypes plus ou moins caricaturaux

et rendent imparfaitement justice à la diversité des accents et des pratiques

linguistiques que l’on peut observer sur le terrain. La base OFROM, que nous allons

présenter dans cet article, a précisément pour vocation de permettre une observation

directe des pratiques langagières en Suisse romande et de développer à ce sujet des

études descriptives empiriquement fondées.

Au siècle dernier, les spécificités du français de Suisse romande ont été étudiées

essentiellement sur la base de documents écrits ou d’exemples oraux recueillis à la

volée (Pierrehumbert, 1926 ; Hadacek, 1983 ; Thibault, 1997). Les usages oraux, qu’il

s’agisse de lexique, de syntaxe ou de phonologie, ont été moins bien documentés. De

fait, on ne sait toujours pas quel crédit accorder aux stéréotypes populaires associés

aux variétés de FS. Les locuteurs du canton de Neuchâtel, censés parler un français plus

« pur », plus conforme à la norme, réalisent-ils de facto plus de ne de négation, d’accords

en genre du participe passé et moins de dislocations du sujet que les locuteurs des

autres cantons ? D’autre part, le FS a été décrit comme archaïsant. Mais qu’en est-il, de

nos jours, des régionalismes attestés dans le parler des générations précédentes ? Les

locuteurs actuels les utilisent-ils encore, et si oui, dans quelles conditions ? Quelles sont

en outre, à date récente, les incidences linguistiques liées à la mobilité des personnes et

à l’essor des nouvelles technologies de l’information et de la communication ? Et qu’en

est-il, dans le parler des Romands, des néologismes observés dans les autres régions de

la francophonie ? Se retrouvent-ils en Suisse, et si oui, chez quelles catégories de

locuteurs ?

Le manque de données documentant le français parlé en Suisse romande4 a longtemps

freiné la recherche relative à ces différents points ; c’est la raison pour laquelle nous

avons entrepris, à partir de 2011, de constituer une base de données de FS. Celle-ci a été

mise en ligne en décembre 2012 sous le nom d’OFROM (i. e. Oral de Français de Suisse

ROMande). Dans le présent article, nous présenterons d’abord les principes qui ont

guidé la création de cette base. En deuxième partie, nous illustrerons les potentialités

d’OFROM en examinant une série de faits relatifs au lexique et à la syntaxe5.

Corpus, 15 | 2016

202

Page 204: Corpus de français parlé et français parlé des corpus

2. Principes de constitution de la base

2.1 Enregistrements

Les enregistrements que la base contient actuellement sont pour les uns extraits

d’entretiens guidés à dominante monologique, dans lesquels l’interviewé (un locuteur

né en Suisse, et vivant en Suisse romande) était sollicité pour répondre à des questions

nécessitant des réponses plus ou moins longues posées par l’intervieweur (le

responsable de l’enquête) ; pour les autres, il s’agit d’interactions, impliquant

généralement deux personnes (nées en Suisse, et vivant en Suisse romande) qui parlent

à bâtons rompus. Les thèmes abordés concernent aussi bien le rapport à la langue, aux

métiers, aux voyages, aux passe-temps des locuteurs, leurs relations de voisinage, leurs

projets ou les situations incongrues auxquelles ils ont été confrontés dans leur vie. Ils

peuvent également être en rapport avec le système politique ou la situation

linguistique de la Suisse, voire porter sur les us et coutumes de la région où les

locuteurs ont passé la plus grande partie de leur vie, etc. En moyenne, les entretiens

enregistrés durent entre 30 et 40 minutes, mais seules une vingtaine de minutes sont

transcrites pour chacun des locuteurs de la base (en moyenne, 10 minutes par

conversation guidée, 10 minutes par discussion libre).

2.2 Locuteurs

Tous les locuteurs enregistrés sont originaires de Suisse. Ils sont en général enregistrés

à l’endroit où ils ont passé la plus grande partie de leur vie. En plus de l’information

géographique, cruciale dans OFROM (lieu de naissance, localité dans laquelle le locuteur

a passé la plus grande partie de sa vie, localité d’habitation actuelle, nombre d’années

passées dans la localité actuelle), nous récoltons pour chaque locuteur enregistré des

informations sociodémographiques classiques, telles que l’âge du locuteur au moment

de l’enquête, son sexe, sa langue maternelle, son métier et son niveau socio-éducatif6.

2.3 Transcriptions

2.3.1 Support et conventions

Les transcriptions associées aux fichiers sons ont été faites soit par les étudiants en

charge de l’enquête, soit par les collaborateurs scientifiques de la chaire de linguistique

française et du Centre de dialectologie et d’étude du français régional de l’Université de

Neuchâtel. Elles ont toutes été vérifiées, anonymisées et uniformisées par des étudiants

de master et des collaborateurs scientifiques avant leur mise en ligne. Les

enregistrements sont transcrits directement dans le logiciel Praat (Boersma &

Weeninck, 2015), en orthographe standard, sans « trucages » ni ponctuation : nos

conventions suivent en cela les recommandations du GARS (Blanche-Benveniste &

Jeanjean, 1986 ; Blanche-Benveniste, 1997), reprises dans la plupart des corpus de

français parlé transcrits existants (DELIC, 2004 ; Dister, Francard, Hambye & Simon,

2009 ; Baude & Dugua, ce volume ; Branca, Fleury, Lefeuvre & Pires, 2012).

Corpus, 15 | 2016

203

Page 205: Corpus de français parlé et français parlé des corpus

2.3.2 Anonymisation

La parole est une propriété (Baude, 2006). Les locuteurs enregistrés dans notre corpus

ont signé des autorisations stipulant qu’ils donnaient leur accord pour

l’enregistrement, la diffusion et l’analyse, à des fins linguistiques, de leur parole, à

condition que les données soient anonymisées. Dans OFROM, nous n’avons pas procédé

à une anonymisation du signal à proprement parler. Pour éviter de rendre publiques

certaines informations prononcées pouvant servir à l’identification des locuteurs, nous

avons simplement fait correspondre aux séquences sonores pouvant aider à

l’identification du locuteur des intervalles dédiés à l’intérieur de la couche de

transcription. Ces intervalles contiennent un symbole spécial (« # »), qui empêche, lors

de la recherche à l’aide du concordancier, que le contenu sonore associé à l’intervalle

incriminé puisse être entendu ou téléchargé. L’anonymat des locuteurs de notre corpus

est ainsi préservé.

2.3.3 Annotations

En janvier 2015, les transcriptions ont été enrichies d’un codage des catégories

morphosyntaxiques (Part-of-Speech) avec l’outil DisMo (Christodoulides, Avanzi &

Goldman, 2014), qui ajoute à la transcription orthographique six couches

supplémentaires d’annotation, comme on peut le voir sur la Figure 1 :

Figure 1. Annotation morphosyntaxique et discursive multi-niveau issue de l’étiquetageautomatique fourni par DisMo, pour la séquence « tu amènes ta vache à un match tout le mondereçoit trente francs pour le déplacement » [unifr11-cra]

La première couche (tok-min) contient (non alignés avec le son) tous les mots séparés

par un espace graphique. La seconde couche (pos-min) indique l’étiquette

morphosyntaxique associée à chaque token. La troisième tire (disfluency), parallèle aux

deux premières, indique les tokens disfluents. Les deux tires suivantes (tok-mwu et pos-

mwu) séparent par des intervalles (non-alignés sur le son) les unités poly-lexicales, et

leur catégorie morphosyntaxique. Ainsi, dans l’exemple de la Figure 1, la suite de

tokens « tout le monde » (soulignée) a été traitée comme trois unités lexicales dans la

tire tok-min, alors qu’elle n’en constitue qu’une seule dans la tire tok-mwu. Quant à la

Corpus, 15 | 2016

204

Page 206: Corpus de français parlé et français parlé des corpus

dernière tire (discourse), elle peut regrouper indépendamment des unités lexicales et

les catégoriser comme des marqueurs de discours. Les tires disfluency et discourse

étant en cours de développement, les étiquettes que l’on peut y trouver ne seront pas

présentées dans la section suivante. Les étiquettes utilisées proposées par DisMo se

différencient de la plupart des étiquettes utilisées dans les taggeurs classiques

(Debaisieux, Benzitoun & Deulofeu, ce volume) de par leur richesse et leur complexité.

La base de données OFROM n’est pas téléchargeable dans sa totalité : pour l’exploiter, il

faut obligatoirement passer par le concordancier disponible sur le site du corpus. Celui-

ci permet de chercher des chaînes de caractères et des mots, comme c’est le cas de la

plupart des concordanciers associés aux autres corpus de français parlé présentés dans

ce recueil. Il permet de surcroît, et c’est là son originalité, de procéder à des requêtes

plus complexes, pour chercher des chaînes de constructions en croisant des critères

lemmatiques et grammaticaux. Un tutoriel, téléchargeable sur le site web de la base, est

disponible pour les utilisateurs.

2.4 Statistiques

Pour cet article nous faisons référence à l’état de la base de mars 20157 qui comprenait

407 763 tokens transcrits (soit 65 heures de parole), produits par 189 locuteurs, qui se

répartissent de la façon suivante (cf. Figures 2 et 3) selon les cantons dans lesquels ils

vivent :

Figure 2. Nombre de mots par canton dans le corpus OFROM (mars 2015), où JU = Jura, BE =Berne, GE = Genève, FR = Fribourg, VD = Vaud, VS = Valais, NE = Neuchâtel et NR = non renseigné

Corpus, 15 | 2016

205

Page 207: Corpus de français parlé et français parlé des corpus

Figure 3. Nombre de locuteurs par canton dans le corpus OFROM (mars 2015), où JU = Jura, BE =Berne, GE = Genève, FR = Fribourg, VD = Vaud, VS = valais, NE = Neuchâtel et NR = non renseigné

3. Documenter la variation lexicale et syntaxique enSuisse romande

Cette partie de l’article est consacrée à la présentation de quelques recherches en

cours, relatives aux particularismes lexicaux (§ 3.1) et à la variation syntaxique (§ 3.2).

3.1 Variation lexicale

Quelles sont, au début du troisième millénaire, les particularités lexicales du FS ? Parmi

les régionalismes identifiés depuis longtemps par les spécialistes, lesquels sont toujours

en usage, lesquels donnent des signes de déclin, du moins en l’état actuel de la base

OFROM ? Qu’en est-il, par ailleurs, des néologismes repérés dans d’autres régions de la

francophonie ? Appartiennent-ils ou non au français parlé en Suisse, et si oui, quels

types de locuteurs sont concernés ? Est-il possible de mettre en évidence des

néologismes qui seraient spécifiquement helvétiques ? Autant de questions que la base

OFROM permet de documenter, ne serait-ce qu’à titre provisoire, car elle est appelée à

se développer dans les années à venir.

3.1.1 Variation régionale

En guise d’illustration, nous évoquerons succinctement ci-après quelques régionalismes

lexicaux dont OFROM permet de montrer le caractère bien ancré.

La lexie avoir meilleur temps de, avec le sens d’« avoir intérêt à ». – Cette expression passe

parfois pour un helvétisme ; elle est cependant utilisée, suivant la Base de données

lexicographique panfrancophone (désormais BDLP, Knecht & Kristol, 2000-2012), en

Franche-Comté et dans les deux Savoie, dans le Doubs et le Jura français, voire au-delà.

OFROM en livre trois occurrences à la 2e personne du singulier, dans la bouche de

locuteurs différents, tous relativement jeunes :

Corpus, 15 | 2016

206

Page 208: Corpus de français parlé et français parlé des corpus

(1) tu as meilleur temps de pas aller trop vite [unine08-ada, femme née en 1985](2) tu as tu as meilleur temps de pouvoir poser ton truc et pis que ça soit à ça du sol[unine12-asa, femme née en 1980](3) pis tu as meilleur temps d’apprendre sur une euh une manuelle je pense[unine15-003, homme né en 1996]

Le verbe venir au sens de « devenir ». – La BDLP suisse nous apprend que cette acception

est ancienne et attestée dans une large partie de la francophonie, y compris le Québec ;

l’ouest et le nord de la France font semble-t-il exception. Voici les exemples d’OFROM,

relevés cette fois dans le parler de locuteurs d’un certain âge :

(4) je me fais du souci je me dis qu’il faut vite nettoyer pendant que c’est sec parcequ’il suffit qu’il vienne plus froid [unine11-jsa ; emploi impersonnel, au sens de : « ilsuffit qu’il se mette à faire plus froid » ; homme né en 1932](5) un potier qui venait de plus en plus vieux et puis qui pensait à sa retraite[unine08-eba, femme, âge non renseigné]

La bribe contenue dans (6) est suggestive à ce titre :

(6) euh on s’est marié on a eu quatre enfants | _ | et comme on habitait on restait enSuisse | et qu’elle est de/ est venue pasteure aussi en Suisse | _ | à | # | euh on a décidéque nos enfants | _ | euh parleraient le norvégien comme langue de base [unine11-rpa, homme né en 1954] 8

Après avoir esquissé un de/ qui peut passer pour une ébauche de la forme standard

devenir, le locuteur de (6) se rabat finalement sur venir (il vaut la peine, dans le cas

présent tout particulièrement, de se reporter à l’enregistrement).

La lexie familière foutre loin, au sens de « jeter, mettre au rebut, congédier ». – Absente du

TLFi, cette expression est identifiée comme un régionalisme par la DBLP (s.v. loin). Elle

est attestée à plusieurs reprises dans nos enregistrements :

(7) et je sais pas où a passé ce bouquin | _ | j’aimerais bien savoir où il a passé | _ |moi je l’ai jamais eu ma grand-mère l’a eu puis on l’a jamais retrouvé | _ | je sais pasce que | et puis de qui les | _ | les filles ont fait | et compagnie elles ont tout foutu loince genre de truc | _ | je suis presque sûr elles en ont foutu loin plein | _ | ont foutu loinune partie des papiers | elles ont rien compris du tout de ce qu’elles avaient ont toutfoutu loin bah alors non on n’a pas trouvé [unifr11-dba, homme, âge non renseigné](8) dis donc Germaine tu es en train de foutre loin des bouquins qui sont euh[unifr11-dba, id.](9) mais je pense que je vais arrêter de taffer là-bas quoi je sais pas ils vont me foutreloin mec si je bosse que six heures [unifr11-maa, étudiant, âge non renseigné](10) mais le problème c’est que tout à coup/ des fois tu as les paquets ils viennentpas chercher les paquets puis ils les foutent loin [unine11-ffa, homme né en 1990]

La BDLP mentionne également foutre bas au sens de « démolir » ou « abattre », dont

OFROM livre une forme remotivée : foutre en bas.

(11) mais entre-temps ils ont foutu en bas toutes les archives [unine11-jsa, hommené en 1932]

L’emploi du verbe vouloir comme auxiliaire de futur. – En Suisse romande, comme dans les

deux Savoie et le grand Est de la France (BDLP), le verbe vouloir est parfois employé

comme auxiliaire pour marquer le futur périphrastique. Souvent considéré comme un

germanisme (Pierrehumbert, 1926 : 649), cet emploi est en réalité un archaïsme. La base

de données OFROM en fournit les attestions suivantes :

(12) tandis que maintenant tout est trié le fer euh | _ | alors euh ça donne beaucoupplus de commerce | _ | maintenant ben l’été je ne fais pas ça maintenant je veux recommencer une fois que j’ai fini au jardin | % | _ | commencer d’un petit peu trierpar-là | _ | ouais ouais ouais ouais [unifr11-dba, homme, âge non renseigné]

Corpus, 15 | 2016

207

Page 209: Corpus de français parlé et français parlé des corpus

(13) enfin on faut qu’on aille au marché de Saint Martin donc on veut aller aumarché de Saint-Martin [unine12-asa, femme née en 1980]

Cas divers. – Signalons encore, pêle-mêle, les attestations de lexèmes tels que pive

(« cône du sapin »), cf. (14)-(15) ; huitante (« quatre-vingts ») ; cf. (16)-(18) ; cheni

(« fouillis, pagaille »), cf. (19)-(20) ; souper (« repas du soir »), cf. (21)-(22) ; roillé « fou »,

cf. (23) :

(14) on faisait des batailles de pives [unine15-029, femme née en 1936](15) oh joli avec la pive […] alors ouais ouais ça c’est de la pive [unine15-027, femmenée en 1987](16) on doit être présent à plus de huitante pourcents des cours pour que le coursnous soit validé [unine08-oca, femme née en 1988](17) d’ailleurs moi j’ai huitante ans je fais tout | mes affaires je sais tout faire[unifr11-dla, femme née en 1931](18) et c’est une tour on est mangé euh on a été jusqu’au huitante-troisième étage[unine11-nfa, femme née en 1989](19) parce que c’est elles qui sont venues foutre le cheni [unine11-sda, femme née en1979](20) et y a le cheni habituel et tout [unine11-jma, femme née en 1954](21) ouais ou bien tu tu tu prends les restes du souper [unine12-asa, femme née en1980](22) parce qu’on devait aller au bois on devait aller allumer le feu on devait faireeuh | commencer le souper tout ça [unifr11-bga, femme née en 1931](23) y a un d/ un truc c’est un | _ | un chauffeur euh de à b/ de chez | # | # | | où | _ |qui devient complètement roillé après trente-cinq ans | qui conduit et tout ça il ditc’est affreux [unine15-024, homme né en 1928]

Le fait que, parmi ces occurrences, certaines ont été prononcées lors de

l’enregistrement de jeunes locuteurs démontre que ces régionalismes sont encore bien

vivants en Suisse romande. À l’inverse, la base OFROM contient des occurrences de

tournures lexicales marquées comme « vieillies » dans la BDLP. C’est notamment le cas

du potager (« cuisinière »), encore très répandu à la fin des années 60 (Voillat, 1971) :

(24) avec le l’évolution des matières et pis de de la technologie | _ | on a eu despotagers en | _ | à bois certainement mais | _ | déjà des potagers au dix-huitième siècle| _ | et pis on pouvait mettre d’autres casseroles dessus des tôles émaillées ou biende [unine08-ebc, femme, âge non renseigné](25) le bain c’était dans un y avait pas de salle de bains y avait | une bassine à lacuisine | c’étaient des grandes bassines en acier | _ | % | _ | ouais | _ | à la cuisine | _ |chauffer l’eau sur le potager un potager | _ | vous savez ce que c’est | maintenant ondit une cuisinière [unine11-gaa, femme née en 1935](26) l’hiver tu vois | _ | et pis y avait pas | _ | y avait des fourneaux à molasse y avaitpotager à bois y avait pas tu vois de | _ | lave-linge euh tout ça | _ | non y avait unefontaine dehors [unine12-jda, femme née en 1930]

Dans ces trois exemples, potager est utilisé dans le cadre d’un rappel de réalités

révolues ; dans (25), la locutrice prend même le soin d’en gloser le sens à l’intention de

son interlocuteur. C’est aussi le cas du mot torée (« repas que l’on prend en plein air

autour d’un feu », BDLP), dont la base ne livre qu’un seul exemple, dans la production

d’un locuteur neuchâtelois :

(27) bah le c’est s/ quand on est entre amis c’est vrai que on va faire une torée aubord du | _ | voilà [unine15-903, homme né en 1958]

Lorsque la base sera plus développée, elle permettra, on le voit, de rendre de précieux

services à la lexicographie différentielle, voire à la lexicologie en général.

Corpus, 15 | 2016

208

Page 210: Corpus de français parlé et français parlé des corpus

3.1.2 Néologismes

Passons au cas des néologismes, qui se prêtent dans OFROM à des observations tout

aussi instructives. Nous présenterons quatre exemples ; les trois derniers, comme on

verra, concernent l’expression de l’intensité.

Le mot genre utilisé en fonction d’opérateur d’approximation, d’illustration ou

d’exemplification. – Ces fonctions récemment acquises du lexème ont fait l’objet d’études

de la part de Rosier (2002) et de Dufaye (2012, à par.), qui les abordent en termes de

grammaticalisation. OFROM nous apprend que ces usages néologiques de genre sont très

présents en Suisse chez les locuteurs des jeunes générations, cf. :

(28) parce que je me rappelle que genre quand j’avais sept ou huit ans | _ | j’aicommencé le tennis et je jouais au tennis avec | _ | et à l’époque il devait faire genreeuh un mètre | _ | quarante [unine08-mba ; étudiant, âge non renseigné](29) c’est du brainstorming comme ils appellent ça | _ | genre c’est vraiment un trucmec le but c’est de les mettre pendant quatre jours ensemble [unifr11-maa,étudiant, âge non renseigné](30) je me suis dit je vais faire un petit truc au début tu sais je vais genre mêmecommencer genre limite par la fin tu sais [unifr11-maa, id.]

Le Corpus suisse de SMS en français9, auquel sont empruntés les exemples suivants,

permet de montrer que l’écrit familier est également concerné :

(31) vs avez discuté genre de quoi? [Corpus suisse de SMS, 20413, femme, 17 ans, sic](32) Ben genre j’avais rendez-vous le plus tot possible avec Luigi qui repart à Genèvepour lui installer Illustrator puis vers 15h pour finaliser un rapport [Corpus suissede SMS, 15112, homme, 21 ans, sic]

Dans le corpus de SMS, sur 18 occurrences de genre, 17 sont de ce… genre. Le Tableau 1

ci-dessous offre une vue synthétique du nombre d’occurrences de genre par catégorie

d’emploi (emplois nominaux classiques, emplois comme opérateurs d’approximation au

sens large, avec, entre deux, les cas indécis). Le premier chiffre est relatif au corpus

OFROM, le second au Corpus suisse de SMS en français. Les emplois néologiques de

genre fournis par la base OFROM sont nombreux. À l’évidence, ils méritent mieux que le

tri relativement grossier auquel nous les avons soumis. Nous nous proposons d’en

étudier la distribution syntaxique et la répartition sociolinguistique dans une étude

ultérieure (Béguelin, en prép.).

Tableau 1. Nombre d’occurrences du mot genre par catégorie d’emploi, dans OFROM d’une part,dans le Corpus suisse de SMS en français d’autre part

Type d’emploi

Nb. d’occ. dans

ExemplesOFROM

Corpus

SMS

genre = N 70 1

ce genre de trucs

un truc du genre

des discussions de ce genre-là

Cas ambigus (genre = N

apposé

ou opérateur

d’illustration)

14 4un papier genre papier d’emballage;

une petite ville forte genre Mont-Saint-Michel

Corpus, 15 | 2016

209

Page 211: Corpus de français parlé et français parlé des corpus

genre = marqueur

d’approximation,

d’illustration ou

d’exemplification

110 13

à genre 17 ans

genre à 20 ans

ils ont instauré des nouvelles lois | genre euh ils ont

pas le droit d’avoir de trop grosses cylindrées

Totaux 19410 18

Emplois intensifs de grave. – Zribi-Hertz (2015) a consacré une étude détaillée à

l’évolution sémantico-syntaxique récente, en français informel, de cet adjectif dont le

sens traditionnel est « sérieux, sévère », mais qui est utilisé désormais, dans les jeunes

générations, comme marqueur adverbial de haut degré, au sens de « très, beaucoup »,

ou comme adjectif à valeur évaluative, avec la valeur de « fou, incroyable ». L’exemple

suivant illustre successivement le second, puis le premier de ces emplois néologiques :

(33) Waw elle est grave cette zik je l’adore grave. [web < Zribi-Hertz 2015 : 65 ; « Cettemusique est incroyable, je l’adore à fond »]

OFROM ainsi que le Corpus suisse de SMS démontrent que le français de suisse romande

est également « grave atteint » par cette intrigante dérive fonctionnelle :

(34) En direct de Zurich, Carlo aux platines et CL au micro qui déchirent leur racegrave ! :) [SMS 13152, homme, 24 ans ; grave sert ici d’intensif de prédicat verbal](35) [contexte de la conversation : engager quelqu’un qui filme pendant trois jourscoûte cher] ouais non grave même quoi [OFROM, unifr11-maa ; étudiant, âge non renseigné ;grave = « énormément »](36) je me disais que c’était peut-etre lui qui m’écrivait d’ailleurs tu vois! Je suisgrave ! :) Bisous [SMS 21027, femme, 24 ans ; emploi en tant que « prédicat évaluatifgénéral à orientation variable — dépréciative ou appréciative » de Zribi-Hertz 2015 :93]

Emploi intensif de pire. – Cet usage est présent dans OFROM comme dans le Corpus suisse

de SMS :

(37) et en fait je suis pas tombé amoureux tout de suite mais enfin j’ai déjà vuqu’elle était pire cool [unine08-eta, femme, âge non renseigné](38) Trop pire forte la fille : 21 patients et pas de retard… La classe… ;-) [Corpussuisse de SMS, 13883](39) Hé vieux! On a pire cartoné!!! \o/ Hallucinant:-D [Corpus suisse de SMS, 21841]

Emploi intensif de monstre. – Bien attesté dans la base OFROM, cet emploi est absent, de

même que celui relevé de pire intensif, du corpus CFPP2000 (Lefeuvre & Brance-Rosoff,

ce volume). Dans OFROM, monstre apparaît en tant qu’épithète antéposée (40), mais

aussi comme intensifieur d’adjectif (42) ou de prédicat (43). Ces emplois concernent,

dans la base suisse, 11 occurrences sur 13 du lemme en question, contre 2 exemples

seulement de l’emploi nominal classique, style le monstre du Loch Ness. Cf. :

(40) ça fait des ça fait des monstres dégâts euh [unine08-mba ; 6 ex. de ce type dansla base, homme, âge non renseigné](41) ils sont monstre haut dans le euh dans l’organigramme quoi [unifr11-maa,homme, âge non renseigné ; 4 ex. de ce type dans la base](42) il a monstre poussé le gazon [unine11-ffa, homme né en 1990 ; seul exemple ad-verbal]

L’espace à disposition nous contraint à clore provisoirement cet inventaire. Les

exemples présentés ci-dessus n’avaient d’autre ambition que de montrer le potentiel de

la base OFROM (ainsi bien sûr que du Corpus suisse de SMS), en vue d’une meilleure

Corpus, 15 | 2016

210

Page 212: Corpus de français parlé et français parlé des corpus

connaissance non seulement des particularités lexicales du français en Suisse, mais

aussi des évolutions qui concernent la langue française en général.

3.2 La variation morphosyntaxique

Cette section est organisée en deux parties. La première est consacrée aux

régionalismes syntaxiques (§ 3.2.1), dans la seconde nous analysons dans le corpus la

fréquence de (non-)réalisation du ne de négation (§ 3.2.2).

3.2.1 Variation régionale

Sur le plan syntaxique, la mise à disposition de corpus oraux de plus en plus riches,

OFROM compris, aidera à déterminer la représentation géographique, très souvent

transfrontalière, de variantes telles que (43)-(50), qui passent à tort dans certains

travaux pour des spécificités du français parlé en Suisse. Ces variantes concernent

l’ordre des mots (comme dans (43)-(45)), le mode de réalisation de certaines valences

verbales (comme dans (46)-(48)), et l’usage de certaines tournures grammaticales

particulières (comme dans (49)-(50))11 :

(43) je ça regarde [Bürgi 1999 : 149](44) j’ai personne vu [Redard 1971 : 3](45) je lui le donne [Tuaillon 1983 : 234](46) aider à quelqu’un [Lüdi 1981 : 90] (47) demander après quelqu’un [Knecht & Rubattel 1984 :141](48) ça, j’y veux [Tuaillon 1983 : 230](49) le chien m’est venu contre [Voillat 1971 : 224](50) il a eu fumé [Walter 1981 : 28]

De ces tours, on ne sait que peu de choses. D’un point de vue diatopique, certains de ces

phénomènes s’étendent à l’ensemble du domaine francoprovençal (notamment

l’antéposition de personne), voire au-delà (l’usage du passé surcomposé en principale),

d’autres ne sont pas connus en dehors de certaines régions bien spécifiques

(l’antéposition de ça est généralement décrite comme un phénomène typiquement

vaudois, Bürgi, 1999 ; l’usage du pronom neutre y, bien connu dans les deux Savoie, en

Isère et dans le Rhône et en Bourgogne ne semble pas être employé en Suisse romande

ailleurs qu’à Genève, Tuaillon, 1983). De leur vivacité dans les conversations

contemporaines, on ne sait pour le moment que peu de choses. Jusqu’à présent, on l’a

dit, les spécificités lexicales et syntaxiques supposées du FS ont surtout été étudiées sur

la base de documents écrits, à partir d’exemples oraux recueillis au cours d’enquêtes

ponctuelles ou des jugements de quelques informateurs. À ce jour, aucune étude

systématique visant à vérifier la validité empirique de ces remarques sur un échantillon

d’informateurs plus large (qui permettrait de tenir compte non seulement de l’origine

géographique des informateurs, mais aussi de leur âge, de leur sexe et de leur statut

socio-économique), n’a jamais été conduite. Nous avons cherché à pallier cette lacune

en interrogeant la base de données OFROM. Cependant, la recherche des contextes

syntaxiques exemplifiés sous (43)-(50) n’a pas donné de résultats vraiment concluants.

Nous n’avons en effet trouvé qu’un seul emploi de personne dans un emploi de type

appositionnel relativement particulier, mais différent de (44), cf. (51). Il a été prononcé

par une locutrice âgée, qui parle encore le patois de la région de Fribourg :

(51) ils ont personne le même patois mais c’est assez près [unifr11-dla, femme née en1931]

Corpus, 15 | 2016

211

Page 213: Corpus de français parlé et français parlé des corpus

Nous avons trouvé une seule attestation du tour prodatif V contre (cf. (49) supra), avec le

sens de « arriver sur soi », prononcé par une locutrice âgée d’une vingtaine d’années,

originaire du canton de Fribourg :

(52) un coup de chaud qui nous arrivait contre [unine12-avb, femme née en 1991]

Le corpus contient un pronom y, faisant office d’objet direct renvoyant à un référent

propositionnel, prononcé par un locuteur vivant dans le canton de Genève :

(53) on peut le chauffer avec la lampe à souder alors euh ils y font [unine15-017,homme né en 1941]

En ce qui concerne le passé surcomposé, nous avons trouvé les sept attestations

suivantes (54)-(60), dont quatre s’insèrent dans des subordonnées à valeur temporelle,

ce qui confirme qu’il s’agit d’un contexte d’apparition privilégié pour ces formes

(Jolivet, 1984). Ici aussi, les locuteurs sont tous originaires de cantons différents :

(54) quand il a eu fini l’école un qui travaillait à l’UBS il lui a dit toi tu vas venir à la àl’UBS et tu peux travailler [unifr11-dla, femme née en 1931](55) et dès qu’on a eu tourné le dos ils ont remis le les petites midinettes euh qui setrémoussaient dans tous les sens donc c’est c’est encore ce côté que je trouve trèstrès hypocrite [unine09-lba, femme née en 1976](56) et puis quand j’ai eu fini ma euh ma formation de nurse [unine14-smc, femmenée en 1938](57) déjà avant de faire son diplôme ce qui fait que quand il a eu fini on est retournéà # qu’on connaissait bien [unine11-lva, femme née en 1933](58) j’ai eu été jouer au volley avec des copains au badminton [unine11-fdb, hommenée en 1987](59) j’ai eu été euh avec euh en en sortie avec euh des amis à Europa Park [id.](60) on s’est jamais chicané | mais on a eu été vingt minutes | trente minutes sur unmot [unine15-033, femme née en 1936]

Sur le plan de la variation régionale, les exemples que nous avons recensés demeurent

trop peu nombreux pour que l’on puisse parler de véritable variation dans l’espace, ou

pour que l’on puisse faire des hypothèses sur les facteurs sociodémographiques qui les

motivent. Quant aux formes non attestées, on ne se risquera pas non plus à tirer

argument de leur absence dans la base OFROM pour dire qu’elles ont disparu des

usages. On sait en effet que des tournures syntaxiques pourtant courantes dans les

conversations de tous les jours ne le sont pas forcément dans les corpus oraux (Bilger &

Cappeau, 2004 ; Cappeau & Gadet, 2007). C’est pourquoi d’autres méthodes doivent être

envisagées afin de documenter la vivacité et la répartition effectives de ces tours dans

les variétés de français de Suisse romande.

3.2.2 Note sur la (non-)réalisation du ne de négation

Cette section est consacrée à l’alternance ne/0 dans le marquage de la négation. Leur

nombre étant suffisant dans le corpus, nous testons également les effets des variables

sociodémographiques des locuteurs sur cette alternance (âge, niveau socio-éducatif et

origine cantonale).

Dans un premier temps, nous avons réalisé une estimation du pourcentage de double

négation dans le corpus en divisant le nombre d’occurrences des ne et n’ taggées

comme adverbes de négation par le nombre total d’occurrences des formes pas/

personne/rien/jamais/aucun/plus, taggées comme adverbes de négation12. Sur les

5 857 négations extraites du corpus, seulement 427, soit 7,3 %, contenaient le

morphème ne. Pour étudier la répartition sociale et géographique de ces formes dans

Corpus, 15 | 2016

212

Page 214: Corpus de français parlé et français parlé des corpus

l’espace, nous n’avons retenu que les formes pour lesquelles on disposait des

informations relatives à l’origine, l’âge et au statut social du locuteur. Nous avons exclu

les locuteurs pour qui le français n’est pas la langue maternelle, et avons regroupé ceux

du Jura et de Berne dans un seul et même groupe. Sur les 4 345 formes restantes, 234

formes (soit 5,3 %) contiennent un ne de négation. Pour tester l’impact de variables

sociodémographiques sur la présence ou l’absence de ne, nous avons effectué trois

modèles linéaires généralisés à mesures répétés (Ghisletta & Spini, 2004), avec la

présence de ne (VRAI/FAUX) comme variable dépendante et le locuteur comme variable

aléatoire13. Dans un premier modèle, le canton dans lequel le locuteur a passé la plus

grande partie de sa vie a été entré comme variable indépendante. Les résultats ont

permis de montrer que la variable diatopique avait un effet sur le choix du type de

négation (Wald χ² (5) = 16.592, p < 0.01). Les tests post-hoc ont cependant montré que

parmi les différences que l’on observe sur la figure 4, seuls les locuteurs de Genève

produisent moins de ne de négation que les locuteurs de Fribourg, du Jura et du Valais

(p < 0.05). Dans un second modèle, l’année de naissance du locuteur a été entrée comme

variable indépendante. Les résultats ont permis de montrer que cette variable avait un

effet sur le choix du type de négation (Wald χ² (1) = 10.340, p < 0.001). Comme on peut le

voir sur la figure 5 plus bas, plus le locuteur est jeune, plus il a tendance à ne pas

double-marquer ses négations.

Figure 4. Pourcentage de négations comportant le morphème ne, en fonction du canton dans lequelle locuteur a passé la plus grande partie de sa vie

Corpus, 15 | 2016

213

Page 215: Corpus de français parlé et français parlé des corpus

Figure 5. Probabilité que la négation contienne le morphème ne, en fonction de l’année denaissance du locuteur

Sur le plan distributionnel, les résultats que nous avons obtenus confirment ceux de

Fonseca-Greber (2007) et de Meisner (2013), qui observent des taux de réalisation très

bas du ne de négation dans les corpus de FS qu’elles étudient. Ces résultats sont assez

proches des taux calculés après l’analyse de productions de locuteurs vivant dans le

Nord de la France (moins de 10 % chez les locuteurs analysés par Hansen & Malderez,

2004 et Torreira, Adda-Decker & Ernestus, 2010), alors qu’avec plus de 50 % de

réalisation la présence de cette marque est encore bien vivace chez les locuteurs du

Midi (Diller, 1983) et de Belgique (Moreau, 1986). En ce qui concerne la variation inter-

cantonale, nous avons observé une propension plus grande à faire chuter le ne de

négation à Genève qu’ailleurs, mais nous n’avons pas trouvé un taux de maintien plus

haut dans les productions des Neuchâtelois, ce qui permet de répondre au moins

provisoirement, à la question posée en introduction sur le français des Neuchâtelois.

Dans notre analyse, les résultats relatifs à l’âge des locuteurs confirment ce qui avait

déjà été montré par d’autres que nous (cf. notamment Ashby, 1967, 1981 ; Coveney,

1998 ; Armstrong, 2002 et Hansen & Malderez, 2004). Nous avons en effet observé que

plus l’âge des locuteurs augmentait, plus le taux de maintien de ne augmentait14. Quant

à l’effet de niveau socio-éducatif, sans surprise celui-ci ne s’est pas révélé significatif, ce

qui confirme les observations de Meisner, Robert-Tissot & Stark (à par.). On conclura en

rappelant que ces résultats doivent être appréhendés avec précaution : nous n’avons

pas pris en compte les effets possibles des indices syntaxiques (position du ne par

rapport au verbe), sémantiques (portée de la négation) et prosodique (vitesse de parole,

nombre de syllabes dans le groupe accentuel hôte, etc.), or, on le sait, ceux-ci jouent un

rôle important dans la distribution de ne (Meisner, 2013).

Corpus, 15 | 2016

214

Page 216: Corpus de français parlé et français parlé des corpus

4. Conclusion

Dans cet article, nous avons présenté la base de données orales de français de Suisse

romande, OFROM. Nous avons dans un premier temps rappelé les hypothèses et les

principes fondamentaux qui ont guidé sa constitution, ainsi que les aspects relatifs à la

transcription et à l’annotation des données. La base, d’une taille approximative de

400 000 mots au moment où a été réalisée cette étude, en compte plus de 800 000 au

moment où elle paraît. C’est l’une des premières à avoir été entièrement annotée en

parties du discours, et à disposer d’un concordancier qui permet à n’importe quel

utilisateur de faire en ligne des recherches complexes. Même si elle ne permet pas

encore de tester solidement des hypothèses sur la répartition des particularismes

lexicaux et syntaxiques, elle permet déjà d’illustrer certaines tendances, de renouveler

les données d’ordinaire utilisées pour approcher la variation, et surtout de poser les

bases d’une description systématique du français parlé en Suisse romande à l’orée du

XXIe siècle. D’ici quelque temps, la base devrait être enrichie de nouvelles annotations,

notamment pour étudier la variation phonologique et son interface avec la syntaxe.

L’ajout de données de genres discursifs variés est également envisagé. La base devrait

ainsi progressivement devenir un corpus de référence, au sens classique du terme

(Habert, 2000).

Remerciements

La confection de la base OFROM n’aurait jamais été possible sans le soutien financier du

programme Campus virtuel suisse, de la Faculté des Lettres et Sciences humaines et du

Rectorat de l’Université de Neuchâtel, ainsi que du Fonds national suisse de la

recherche scientifique (subsides n° P300P1_147781 et n° P3P3P1_161040). Nous

remercions Pierre Ménétrey (http:// www.webox-it.com/), webmestre, pour le travail

de confection du site. Merci également à Sandra Schwab (universités de Genève et de

Zurich) pour ses conseils et pour la confection des scripts Praat qui ont permis la mise

en ligne des premières données sonores et des transcriptions associées. George

Christodoulides nous a en outre fourni le logiciel pour tagger la base de données et

créer des fichiers xml pour la charger. François Delafontaine (Université de Neuchâtel)

a réalisé un travail colossal de révision et de correction des transcriptions. Il a été

rejoint récemment par Maude Ehinger et Julie Rothenbühler (Université de Neuchâtel).

Christophe Benzitoun a nettoyé, dans le cadre du projet ANR ORFEO, certains des

fichiers présents dans la base. Qu’ils soient toutes et tous remerciés très sincèrement.

Enfin nous remercions de leur généreux engagement l’ensemble des collaborateurs

scientifiques, des étudiants et des locuteurs qui ont participé aux diverses campagnes

d’enquête.

Corpus, 15 | 2016

215

Page 217: Corpus de français parlé et français parlé des corpus

BIBLIOGRAPHIE

Andreassen H., Maître R. & Racine I. (2010). « La Suisse », in S. Detey, J. Durand, B. Laks & C. Lyche

(éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement. Paris/

Gap : Ophrys, 201-212.

Armstrong N. (2002). « Variable deletion of french ne : a cross-stylistic perspective », Language

Sciences 24 : 153-173.

Ashby W. (1976). « The loss of the negative morpheme ne in Parisian French », Lingua 39 : 119-137.

Ashby W. (1981). « The loss of the negative particle ne in French : a syntactic change in

progress », Language 57 (3) : 674-687.

Avanzi M. (2012). L’interface prosodie/syntaxe en français. Dislocations, incises et asyndètes. Bruxelles :

Peter Lang.

Avanzi M., Béguelin M.-J. & Diémoz F. (2012). « Présentation du corpus OFROM – corpus oral de

français de Suisse romande ». Manuscrit, Université de Neuchâtel.

Avanzi M., Schwab S., Dubosson P. & Goldman J.-P. (2012). « La prosodie de quelques variétés de

français parlées en Suisse romande », in A. C. Simon (éd.) La variation prosodique régionale en

français. Louvain-la-Neuve : De Boeck/ Duculot, 89-120.

Bardiaux A. & Boula de Mareüil P. (2012). Allongements vocaliques en français de Belgique :

approche perceptive et expérimentale. Actes des 29es JEP, non paginé.

Bayard C. & Jolivet R. (1984). « Des Vaudois devant la norme », Le français moderne 52 : 151-158.

Béguelin M.-J. (en prép.). « Les emplois de genre dans la base OFROM ». Manuscrit, Université de

Neuchâtel.

Blanche-Benveniste C. (1997). « La notion de variation syntaxique dans la langue parlée », Langue

Française 115 : 19-29.

Blanche-Benveniste C. & Jeanjean C. (1986). Le français parlé. Transcription et édition. Paris : Didier

Érudition.

Blasco-Dulbecco M. (1996). « Pour une approche syntaxique des dislocations », Journal of French

Language Studies 7 : 1-21.

Boersma P. & Weenink D. (2015). Praat, doing phonetics by computer, v. 5.4, http://

www.fon.hum.uva.nl/praat/.

Branca-Rosoff S., Fleury S., Lefeuvre F. & Pires M. (2009). « Discours sur la ville. Corpus de

français parlé parisien des années 2000 (CFPP2000) », http://cfpp2000.univ-paris3.fr/.

Bürgi A. (1999). « Le pronom ça en français vaudois », Vox Romanica 58 : 149-171.

Cappeau P. & Gadet F. (2007). « Où en sont les corpus sur les français parlés ? », Revue française de

linguistique appliquée 12 : 129-133.

Carton F., Rossi M., Autesserre D. & Léon P. (1983). Les accents des Français. Paris : Hachette.

Christodoulides G., Avanzi M. & Goldman J.-P. (2014). « DisMo : a morphosyntactic, disfluency and

multi-word unit annotator. An evaluation on a corpus of French spontaneous and read speech ».

Proceedings of the 9th International Conference on Language Resources and Evaluation, 3902-3907.

Corpus, 15 | 2016

216

Page 218: Corpus de français parlé et français parlé des corpus

Coveney A. (1998). « Awareness of linguistic constraints on variable ne omission », Journal of

French Language Studies 8 : 159-187.

DELIC (2004). « Présentation du Corpus de référence du français parlé », Recherches sur le français

parlé 18 : 11-42.

Deshaies D. (1991). « Contribution à l’analyse du français québécois : études des pronoms

personnels », Revue québécoise de linguistique théorique et appliquée 10/3 : 11-40.

Detey S., Durand J., Laks B. & Lyche C. (2010). Les variétés du français parlé dans l’espace francophone.

Ressources pour l’enseignement. Paris/Gap : Ophrys.

Detey S. & Le Gac D. (2008). « Didactique de l’oral et normes de prononciation : quid du français

“standard” dans une approche perceptive », Actes du 1er CMLF, 475-487.

Diller A.-M. (1983). « Subject NP structure and variable constraints : the case of french ne

deletion », in R. Fasold (éd.) Variation in the Form and the Use of Language. Washington : Georgetown

University Press, 167-174.

Dister A., Francard M., Hambye P. & Simon A. C. (2009). « Du corpus à la banque de données. Du

son, des textes et des métadonnées. L’évolution de la banque de données textuelles orales

VALIBEL (1989-2009) », Cahiers de l’Institut de linguistique de Louvain 33 : 113-129.

Dufaye L. (2012). « Genre : Trace d’un transfert de prise en charge », in M. Birkelund &

H. Nølke (éd.) La Linguistique énonciative, Aarhus, 49-63.

Dufaye L. (à par.). « Genre ou le scénario d’une grammaticalisation », Linx.

Durand J., Laks B. & Lyche C. (2002). « La phonologie du français contemporain : usages, variétés

et structure », in C. Pusch & W. Raible (éd.) Romance Corpus Linguistics - Corpora and Spoken

Language. Tübingen : Gunter Narr Verlag, 93-106.

Durand J., Laks B. & Lyche C. (éd.) (2009). Phonologie, variation et accents du français. Paris : Hermès.

Fonseca-Greber B. (2007). « The Emergence of emphatic ne in conversational Swiss French »,

Journal of French language Studies 17 : 249–275.

Francard M. (1997). « Le français en Wallonie », in D. Blampain, J.-M. Goosse, J.-M. Klinkenberg &

M. Wilmet (éd.) Le français en Belgique. Une langue, une communauté. Louvain-la-Neuve : Duculot,

229-237.

Gadet F. (1992). Le français populaire. Paris : PUF.

Gauchat L. (1902). « Nos patois romands », Bulletin du Glossaire 1 : 3-24.

Gauchat L., Jeanjaquet J. Tappolet E. (1925). Tableaux phonétiques des patois suisses romands. Relevés

comparatifs d’environ 500 mots dans 62 patois-types. Neuchâtel : Attinger.

Ghisletta P. & Spini D. (2004). « An introduction to generalized estimating equations and an

application to assess selectivity effects in a longitudinal study on very old individuals », Journal of

Educational and Behavioral Statistic 29/4 : 421-437.

Habert B. (2000). « Des corpus représentatifs : de quoi, pour quoi, comment ? », Cahiers de

l’Université de Perpignan 31 : 11-58.

Hadacek C. (1983). Le suisse romand tel qu’on le parle. Lexique romand-français. Lausanne : P.-M.

Favre.

Hambye P. & Simon A. C. (2009). « La prononciation du français en Belgique », in J. Durand,

B. Laks & C. Lyche (éd.) Phonologie, variation et accents du français. Paris : Hermès, 95-130.

Corpus, 15 | 2016

217

Page 219: Corpus de français parlé et français parlé des corpus

Hansen A. B. & Malderez, I. (2004). « Le ne de négation en région parisienne. Une étude en temps

réel », Langage et société 107 : 5-30.

Jolivet R. (1984). « L’acceptabilité des formes verbales surcomposées », Le Français moderne 52 :

159-176.

Knecht P. (1979). « Le français en Suisse romande : aspects linguistiques et sociolinguistiques », in

A. Valdman (éd.) Le français hors de France. Honoré Champion, 249-258.

Knecht P. (1985). « La Suisse romande », in R. Schläpfer (éd.) La Suisse aux quatre langues. Genève :

Éditions Zoé, 125-169.

Knecht P. (2000). « Le français en Suisse romande », in G. Antoine & B. Cerquiglini (éd.) Histoire de

la langue française 1945-2000. Paris : Éditions du CNRS, 719-727.

Knecht P. & Kristol A. (2000-2012). « Base de données lexicographique panfrancophone (la Suisse

romande) », www. bdlp.org.

Knecht P. & Rubattel C. (1984). « À propos de la dimension sociolinguistique du français en Suisse

romande », Le français moderne 52 : 138-150.

Kristol A. (1999). « Histoire linguistique de la Suisse romande : quelques jalons », Babylonia 3/99 :

8-13.

Kristol A. (2013). « Regards sur le paysage linguistique neuchâtelois (1734-1849) : le témoignage

sociolinguistique des signalements policiers », in A. Gendre et al. (éd.), Des mots rayonnants, des

mots de lumière : mélanges de littérature, d'histoire et de linguistique offerts au professeur Philippe Terrier.

Neuchâtel : Université de Neuchâtel, Faculté des Lettres et Sciences humaines ; Genève : Droz,

277-295.

Laberge S. (1977). Étude de la variation des pronoms sujets définis et indéfinis dans le français parlé à

Montréal. PhD Thesis, Université de Montréal.

L’Eplattenier C. (1998). A Perceptual Dialect Study of French in Switzerland. PhD Master, Lausanne.

Lüdi G. (1981). « Sémantique, syntaxe et forme casuelle. Remarques sur la construction aider à qn

en français romand », Vox Romanica 40 : 85-97.

Lüdi G. & Werlen I. (2005). « Le paysage linguistique en Suisse. Recensement fédéral de la

population 2000 », manuscrit, http://www.bfs.admin.ch/bfs/portal/fr/index/themen/01/22/

publ.html?publicationID=1738.

Lyche C. (2010). « Le français de référence : éléments de synthèse », in S. Detey, J. Durand, B. Laks

& C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement.

Paris/Gap : Ophrys, 143-165.

Mahmoudian M. & Jolivet R. (1984). « L’accent vaudois », in Encyclopédie illustrée du Pays de Vaud,

Éditions 24 Heures, 294-307.

Matthey M. (2003). « Le français langue de contact en Suisse romande », Glottopol 2 : 92-100.

Meisner C. (2013). La variation pluridimensionnelle : une analyse de la négation en français. Thèse de

doctorat, Universität Zürich.

Meisner C., Robert-Tissot A. & Stark E. (à par.). « L’absence et la présence du ne de négation », in

M.-J. Béguelin, A. Berrendonner, C. Blanche-Benveniste, J. Deulofeu et D. Willems (éd.)

Encyclopédie grammaticale du français.

Métral J.-P. (1977). « Le vocalisme du français en Suisse romande. Considérations

phonologiques », Cahiers Ferdinand de Saussure 31 : 145-176.

Corpus, 15 | 2016

218

Page 220: Corpus de français parlé et français parlé des corpus

Moreau M.-L. (1986). « Les séquences préformées entre combinaisons et idiomatismes. Le cas de

la négation avec ou sans ne », Le français moderne 54 : 137-160.

Morin Y. (2000). « Le français de référence et les normes de prononciation », Cahiers de l’Institut

linguistique de Louvain 26 : 91-135.

Noailly M. (1990). L’adjectif épithète. Paris : PUF.

Pierrehumbert W. (1926). Dictionnaire historique du parler neuchâtelois et suisse romand. Neuchâtel :

Attinger.

Prikhodkine A. (2011). Dynamique normative du français en usage en Suisse romande. Paris :

L’Harmattan.

Pustka E. & Vordermayer M. (2006). « Le français parlé en Haute-Savoie et les corrélats

prosodiques d’un accent perçu comme “traînant” », Bulletin PFC 7 : 273-281.

Racine I. & Andreassen H. (2012). « A phonological study of a Swiss French variety : data from the

canton of Neuchâtel », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French :

Illustrations from Three Continents. Amsterdam : John Benjamins, 173-207.

Racine I., Schwab S. & Detey S. (2013). « Accent(s) suisse(s) ou standard(s) suisse(s) ? Approche

perceptive dans quatre régions de Suisse romande », in A. Falkert (éd.) La perception des accents du

français hors de France. Mons : CIPA, 41-59.

Redard, G. (1971). « Sur le français de Suisse romande », Revue Neuchâteloise 54, 2-6.

Rittaud-Hutinet C. (1978). « Le français régional de Besançon », Revue de linguistique romane 42 :

123-148.

Rosier L. (2002). « Genre : le nuancier de sa grammaticalisation », Travaux de linguistique 44 : 79-88.

Schläpfer R. (éd.) (1985). La Suisse aux quatre langues. Éditions Zoé.

Schoch M. (1980). « Résultats d’une enquête phonologique en Suisse romande », Bulletin de la

Section de linguistique de la Faculté des lettres de Lausanne 2 : 1-38.

Schüle E. (1971). « Documents de français régional actuel », Revue neuchâteloise 54 : 11-23.

Singy P. (1996). L’image du français en Suisse romande. Une enquête sociolinguistique en Pays de Vaud.

Paris : L’Harmattan.

Singy P. (2004). Identités de genre, identités de classe et insécurité linguistique. Berne : Peter Lang.

Terrier Ph. (1997). « 100 ans d’enseignement du français langue étrangère à l’Université de

Neuchâtel (1892-1992) », in G. Kahn (éd.) L’Apport des centres de français langue étrangère à la

didactique des langues. Paris : SIHFLES, 127-140.

Thibault A. (1997). Dictionnaire suisse romand. Carouge : Éditions Zoé.

Thibault A. (à par.). « Le français en Suisse romande », in U. Reutner (éd.) Manuel des francophonies.

Mouton de Gruyter.

Torreira F., Adda-Decker M. & Ernestus M. (2010). « The Nijmegen Corpus of Casual French »,

Speech Communication 52 : 201-212.

Tuaillon G. (1983). « Régionalismes grammaticaux », Recherches sur le français parlé 5 : 227-240.

Voillat F. (1971). « Aspects du français régional actuel ». Actes du colloque de dialectologie

francoprovençale organisé par le Glossaire des patois de la Suisse romande, Genève : Droz, 216-246.

Corpus, 15 | 2016

219

Page 221: Corpus de français parlé et français parlé des corpus

Walter H. (1981). « Le surcomposé dans les usages actuels du français », Actants, voix et aspects

verbaux. Université d’Angers, 24-44.

Walter H. (1986). « Un sondage lexical en marge de l’enquête phonologique sur les français

régionaux ». Actes du XVIIe Congrès de linguistique et de philologie romanes, Université d’Aix-en-

Provence, 261-268.

Warnant L. (1997). « Phonétique et phonologie [du français en Belgique] », in A. D. Blampain,

A. Goosse, J.-M. Klinkenberg & M. Wilmet (éd.) Le français en Belgique. Une langue, une communauté.

Louvain-la-Neuve : Duculot, 163-174.

Zribi-Hertz A. (2015). « De l’évolution des propriétés du mot grave en français européen

moderne », in G. Dostie & P. Hadermann (éd.) La dia-variation du français. Berne : Peter Lang, 63-98.

NOTES

1. Selon les dernières estimations de l’Office fédéral de la statistique, la Suisse a passé le cap des

8 millions d’habitants à la fin de l’année 2013.

2. Dans cet article, nous nous servons de l’abréviation « FS » pour renvoyer à l’ensemble des

productions de français écrites et parlées dans l’aire géopolitique que constitue la Suisse

romande, et non pour désigner une (illusoire) variété dont les frontières coïncideraient avec les

frontières politiques de la Suisse romande. Comme l’ont souligné de très nombreux auteurs avant

nous (Knecht 1979, 1985, 2000 ; Terrier, 1997 ; Andreassen, Maître & Racine, 2010), il n’y a en effet

que très peu de traits linguistiques qui soient propres au FS (cela ne concerne en fait que

quelques statalismes, comme bancomat « distributeur d’argent » ou natel « téléphone portable »,

voir sur ce point Thibault, 1997 et à paraître). Sur le plan lexical et syntaxique, certaines

particularités que l’on considère traditionnellement comme des romandismes se retrouvent en

France voisine (bobet « niais, idiot », Thibault, 1997 ; j’ai personne vu , Tuaillon, 1983), dans le

domaine francoprovençal (panosse, « serpillière », Walter 1986), dans la partie sud de la France

(l’usage du passé surcomposé dans les principales, Walter, 1981 ; les adjectifs déverbaux dits

« tronqués » (trempe pour « trempé », Tuaillon, 1983), voire en Belgique (septante pour « soixante-

dix », nonante pour « quatre-vingt-dix », boiler pour « chauffe-eau », Francard, 1997). Sur le plan

phonologique, l’accentuation des syllabes pénultièmes de groupe et la lenteur du débit, que l’on

décrit comme typiques de l’accent romand (Avanzi, Schwab, Dubosson & Goldman, 2012), sont

des traits qui caractérisent également le français parlé dans le Jura français (Rittaud-Hutinet,

1978 ; Carton, Rossi, Autesserre & Léon, 1983 : 42), en Haute-Savoie (Pustka & Vordermayer, 2006)

ou en Belgique (Warnant, 1997 ; Hambye & Simon, 2009 ; Bardiaux & Boula de Mareu il, 2012).

3. L’expression « français de référence » se substitue de plus en plus dans les travaux sur la

variation régionale à la notion de « français standard ». Pour une problématisation de ces

notions, nous renvoyons le lecteur à Morin, 2000 ; Detey & Le Gac, 2008, 2010 ; Lyche, 2010.

4. Jusqu’il y a peu, seule la base de données Phonologie du français contemporain (PFC, cf.

Durand, Laks & Lyche, 2002, 2009, ainsi que Racine, Andreassen & Durand, ce volume) hébergeait

également des enregistrements de locuteurs romands (originaires de Genève, de Neuchâtel et de

Nyon).

5. Nous laissons volontairement de côté dans cet article la variation phonologique, dont l’étude

nécessite des annotations et des outils d’investigation supplémentaires qui sont en cours de

développement.

6. Pour ce dernier point, nous nous sommes basés sur la catégorisation socio-éducative opérée

par Racine & Andreassen (2012) pour les locuteurs et locutrices du point d’enquête neuchâtelois

du corpus PFC. Nous différencions ainsi les personnes ayant atteint le niveau de l’école

Corpus, 15 | 2016

220

Page 222: Corpus de français parlé et français parlé des corpus

obligatoire avec, à l’issue, un apprentissage plutôt technique (maçons, ouvriers, coiffeurs, etc.,

Niveau I) de celles ayant atteint le niveau de l’école obligatoire avec apprentissage plutôt

administratif (employés de banque, employés administratifs, etc., Niveau II), celles avec une

maturité (équivalent français du baccalauréat, Niveau III), enfin celles ayant suivi des études

universitaires (Niveau IV). Nous sommes bien conscients que ces catégories sociolinguistiques ne

sont pas suffisantes (Cappeau & Gadet, 2007 ; Gadet & Guérin, ce volume), mais elles permettent

d’opérer au moins un premier tri. Soulignons enfin que ces renseignements ne sont pas tous

disponibles pour les enregistrements réalisés avant 2009.

7. Lors de la dernière mise à jour (avril 2016) la base comprenait 809 828 tokens transcrits (soit

83 heures de parole), pour un total de 269 locuteurs.

8. Dans les transcriptions, les barres verticales « | » indiquent une frontière d’intervalle dans

l’alignement Praat, le symbole « _ » une pause silencieuse, le symbole « # » un segment

anonymisé et le symbole « % » un segment inaudible (cf. Avanzi, Béguelin & Diémoz, 2012).

9. Corpus suisse de SMS, version 2013.04.04. Distribué par l’Université de Zurich, au nom de

sms4science. URL : http://www.sms4science. uzh.ch.

10. La recherche brute du lemme genre fournit, via le concordancier, 198 entrées. Pour calculer

le nombre d’occurrences de genre, nous avons été conduits à en retrancher 7 : 4 contenant une

erreur probable de transcription, plus 3 formes du N pluriel genres, non pertinentes en

l’occurrence. Nous avons dû en revanche rajouter 3 exemples qui, apparaissant en cooccurrence

avec un autre, n’avaient pas été décomptés par le concordancier.

11. Dans les productions des locuteurs du FS, les variantes régionales et standards coexistent : il

ne faudrait donc surtout pas croire que les Suisses romands parlent et écrivent un français

régional homogène et standardisé. Knecht a fait naguère à ce sujet, dans la préface du Dictionnaire

suisse romand (Thibaut, 1997), une mise en garde très utile.

12. Nous avons pris soin, lors de la recherche de ne, d’exclure les cas où le morphème était

précédé du pronom on, car lorsque ce morphème est suivie d’un mot à initiale vocalique, on ne

peut pas savoir si le ne a été prononcé ou pas (on (n’)en sait rien). Nous avons exclu également, lors

de la recherche de n’, les contextes où le morphème était suivi de importe Q, empêche Q et est-ce

pas. Pour la recherche des forclusifs pas/personne/rien/jamais/aucun/plus, nous avons exclu du

contexte antérieur (5 mots avant) les occurrences des morphèmes ne et n’.

13. Le test a été conduit sur un total de 129 locuteurs, avec pour chacun un nombre minimum de

2 observations et un nombre maximum de 110 observations (soit 33,6 observations en moyenne

par participant). Le fait de mettre le locuteur comme un facteur aléatoire permet de tenir compte

du fait que le nombre d’observations n’est équilibré ni d’un groupe à l’autre, ni d’un locuteur à

l’autre. Compte tenu du faible nombre d’occurrences contenant ne, il n’était pas possible de faire

un seul modèle et de tester les interactions entre les variables.

14. Il reste encore à voir si la différence d’âge entre l’enquêteur et l’enquêté ne joue pas aussi un

rôle. En d’autres termes, que font les personnes plus âgées, quand elles sont entre elles et dans un

contexte de communication familier, entre pairs ?

RÉSUMÉS

La base de données orales de français de Suisse romande (OFROM) contient des transcriptions

d’enregistrements auxquels ont participé des locuteurs nés et vivant en Suisse. Elle a été créée

par des linguistes soucieux de documenter les usages oraux du français en Suisse romande, et de

Corpus, 15 | 2016

221

Page 223: Corpus de français parlé et français parlé des corpus

combler ainsi le retard dans la description des usages oraux de la langue parlée dans cette partie

de la francophonie, notamment sur le plan du lexique, de la syntaxe et de la phonologie. La base

de données OFROM a été mise en ligne en décembre 2012 ; elle est encore jeune et d’ampleur

modeste (65 heures de parole pour près de 410 000 mots transcrits, au moment où nous écrivons),

mais il est prévu de l’enrichir et de la diversifier régulièrement au cours des années à venir. La

première partie de cet article présente les principes fondamentaux qui ont guidé la constitution

de la base (choix des locuteurs, des supports et conventions de transcription, annotations, etc.).

La seconde partie contient les résultats obtenus à l’issue d’études en cours ou de sondages

prospectifs, portant sur la variation lexicale et la variation syntaxique. Ils permettront d’illustrer

quelques-unes des potentialités qu’offrent la base et son moteur de recherche.

The Swiss French oral database of Switzerland (OFROM) hosts recordings and transcriptions of

productions of speakers born and living in Switzerland. It was created by linguists who wanted to

document the oral uses of French in Switzerland, and thereby bridge the gap in the description of

the description of the spoken aspects of the lexicon, syntax and phonology. The database OFROM

was opened in December 2012; it is still young and modest (65 hours of speech for nearly

410.000 transcribed words, at the time of writing), but it is planned to enrich and diversify

regularly over the coming years. The first part of this article presents the fundamental principles

that drove the basic constitution (choice of speakers, conventions of transcriptions, annotations,

etc.). The second part presents the results obtained in ongoing or prospective surveys on the

lexical specificities and syntactic variation. They illustrate some of the potential offered by the

database and its search engine.

INDEX

Mots-clés : corpus, Suisse romande, français parlé, OFROM, lexique, variation syntaxique,

régionalismes

Keywords : corpus, French speaking Switzerland, OFROM, lexicon, syntactic variation,

regionalisms

AUTEURS

MATHIEU AVANZI

Universités de Genève et de Zurich

MARIE-JOSÉ BÉGUELIN

Université de Neuchâtel

FEDERICA DIÉMOZ

Université de Neuchâtel

Corpus, 15 | 2016

222

Page 224: Corpus de français parlé et français parlé des corpus

La contribution des corpus oraux àla description de phénomènes degrammaticalisation. Que nousapprend le CFPB (Corpus de françaisparlé à Bruxelles) sur lespériphrases en aller + infinitif ?The contribution of oral corpora to the description of grammaticalization

phenomena: what do we learn from the Corpus de français parlé à Bruxelles

(CFPB) on aller + infinitive periphrases

Emmanuelle Labeau et Anne Dister

1. Introduction

1 Par un « renforcement expressif » (Meillet, 1912), ou un processus de « subjectivation »

(Hopper & Traugott, 1993), beaucoup de langues développent des tours périphrastiques

à partir de la forme itive (fr., aller) (Hagège, 1993), qui, de verbe « plein » de mouvement

(1), passe à un auxiliaire aspectuo-temporel (2)1.

(1) Le train va à / vient de Bruxelles.(2) Le train va partir / vient de partir

2 La majorité des études se sont concentrées sur la valeur de futur immédiat2, mais Bres

& Labeau (2012a) ont montré – dans une série d’articles récents – que les emplois

discursifs d’aller sont bien plus larges dans l’histoire du français. Ils relèvent huit

constructions différentes intégrant aller :

Corpus, 15 | 2016

223

Page 225: Corpus de français parlé et français parlé des corpus

Tableau 1. Tableau récapitulatif des emplois de aller (adapté de Bres & Labeau, 2012a)

Aux. + V.

inf. 1. Ultérieur

Mesdames et messieurs / attention à la fermeture des portes le train

va partir

2. Narratif Son tiers-mondisme va évoluer vers l’islam. Lors d’un voyage en Iran,

il va se convertir et devenir (/devient) un « intellectuel musulman ».

3. Illustratif

C’est pas un modèle de régularité il va me téléphoner trois fois par

jour et puis pendant une semaine plus rien / et quand je vais l’appeler

personne / aux abonnés absents (Conversation, 2009)

4.

Extraordinaire

… et cet imbécile il est allé se rappeler (/ s’est rappelé) ce que je lui avais

promis… (conversation)

5.

Modalisateurelle est un peu à l’ouest on va dire (conversation)

Aux. +

Prép. + V.

inf.

6. Extrême (…) tu n’es pas allé jusqu’à lui présenter des excuses j’espère / faut

arrêter un peu (conversation, 2009)

Aux. +

V. p.

présent

7. Duratif

Mais dans ton cher cœur d’or, me dis-tu, mon enfant / La fauve

passion va sonnant (/ sonne) l’olifant !… / Laisse-la trompetter à son

aise, la gueuse ! (Verlaine, Lassitude)

Aux. +

V. p.

passé

8. Passif

accessoire

Comme ce rôti s’en allait cuit ( était presque cuit) arrive un autre

homme à cheval. (Saint-Simon, cité par Gougenheim, p. 112)

3 Si les combinaisons incluant les participes sont aujourd’hui vieillies et même

archaïques, les structures impliquant l’infinitif relèvent du français contemporain,

voire du français avancé, puisque certains des emplois – comme l’extraordinaire – sont

rarement présentés dans les grammaires du français, d’autres – comme l’illustratif et

l’extrême – paraissent cantonnés à l’oral et semblent même – comme le modalisateur –

émergents. On peut donc s’interroger sur la place réelle de ces tournures sous-décrites

dans le vernaculaire contemporain. La présente étude se propose d’évaluer à la lumière

des données récoltées dans le Corpus de français parlé à Bruxelles (CFPB) : (i) la

fréquence des emplois du verbe aller et particulièrement des tournures en aller +

infinitif à valeur non temporelle ; (ii) la distribution de ces tournures en termes des

catégories proposées par Bres & Labeau (2012a) ; (iii) l’éventuelle émergence d’emplois

non encore recensés.

4 Nous commencerons par présenter les périphrases itives3 du français, leurs contextes

présumés d’emploi et leurs valeurs sémantiques. Après une brève présentation du

CFPB, nous y ferons le relevé des constructions basées sur aller dans les huit entrevues

intégralement transcrites et vérifiées au moment de la rédaction. Nous terminerons par

une réflexion sur l’apport des corpus oraux pour l’affinement de la description de

structures largement ignorées par les ouvrages descriptifs.

Corpus, 15 | 2016

224

Page 226: Corpus de français parlé et français parlé des corpus

2. Les périphrases itives du français

5 Dans cette section, nous nous concentrerons uniquement sur les 6 périphrases en aller +

infinitif. Nous avons exclu les structures 7 et 8, vu leur caractère littéraire et archaïque

qui rend leur présence improbable dans un corpus de données orales spontanées.

2.1 Emploi ultérieur

6 La valeur d’ultérieur est la seule des structures à avoir été abondamment discutée ; de

ce fait, nous ne nous y attarderons pas. Il suffira de rappeler que l’emploi a émergé

entre la fin du XIIIe et le XVe siècle4 et fonctionne aujourd’hui en concurrence avec le

futur simple (FS). Désigné par les appellations de futur proche ou futur périphrastique, sa

distribution avec le FS a fait l’objet de nombreuses études qui soulignent l’influence de

la proximité, la polarité positive ou négative…

7 En outre, la fréquence de cet emploi varie selon plusieurs facteurs. En diatopie, l’emploi

ultérieur semble avoir particulièrement prospéré dans les variétés d’Amérique du

Nord, où il est supposé éradiquer le futur simple dans l’oral spontané (voir, parmi

beaucoup d’autres, Poplack & Turpin, 1999 ; Blondeau, 2006). Cependant, cette

hégémonie est contrecarrée en diamésie, par exemple dans les textos où le FS présente

des avantages de concision (Labeau, 2014), et en diaphasie, certains genres favorisant

d’autres variables, comme le présent futural ou les énoncés averbaux dans les bulletins

météo (Labeau & Blondeau, sous presse).

2.2 Emploi narratif

8 Selon Bres & Labeau (2012c), dans l’emploi narratif, la périphrase en aller + inf. est

comprise comme suit :

– aspectuellement, elle s’est réalisée jusqu’à la borne terminale de son temps interne ;

– textuellement, elle introduit un nouveau point référentiel dans la diégèse, et contribue

à la progression du récit ;

– contextuellement, elle réfère à un évènement situé antérieurement au moment de la

narration, à savoir dans l’époque passée ;

– énonciativement, aller fonctionne anaphoriquement, et non déictiquement : le

mouvement de prospection a pour origine le procès précédent, et non le moment de

l’énonciation.

9 À l’heure actuelle, le tour a pénétré (presque) tous les genres qui ont affaire à la

textualité narrative, tant écrits qu’oraux, à l’exception de trois d’entre eux : le récit

littéraire de fiction, le récit oral conversationnel, le récit de blagues. Si ces observations

sont exactes, le CFPB, recueil de récits oraux conversationnels où les informateurs

partagent leurs propres expériences passées5, devrait donc décourager l’emploi

narratif.

2.3 Emploi illustratif

10 Dans ce tour, la périphrase sert au locuteur à illustrer par un fait précis un jugement, un

argument ou une définition. Elle peut commuter, suivant le contexte, avec le présent, le

futur et peut + V. infinitif. Bres & Labeau (2014) ont étudié ce tour mentionné

Corpus, 15 | 2016

225

Page 227: Corpus de français parlé et français parlé des corpus

auparavant par Damourette & Pichon (1911-1936), Larreya (2005) et Lansari (2008).

Pour les premiers :

[…] le verbe aller sert à indiquer que le phénomène verbal est sujet à se reproduire,d’une façon irrégulière et quelque peu déconcertante, comme par un caprice. Cetemploi d’aller est très fréquent dans le parler du vulgaire. (p. 116)

11 Pour Larreya (2005), cet emploi « caractéristique » ne se résume pas aux contextes

populaires et oraux : il émerge dans la presse écrite. En effet, Bres & Labeau (2014)

distribuent les occurrences de leur corpus en : conversation (9) ; interviews (3),

commentaires journalistiques (2) ; écriture journalistique (4), présentation

scientifique (2) ; résumé académique (2) ; exemples littéraires (2). Ils dressent un

portrait de la périphrase qui présente les caractéristiques suivantes : (i) structure

textuelle : apparition après un fait, un jugement, une définition ; (ii) structure

syntaxique soit corrélative présentant une alternative, une hypothèse, une opposition

ou une structure comparative, soit des possibilités multiples. L’emploi illustratif est

générique et s’accompagne de déterminants indéfinis ou définis génériques, exclut les

temporaux déictiques et favorise les références pronominales génériques.

12 L’emploi peut alterner avec le présent, le futur ou pouvoir + infinitif, mais avec des

nuances de sens :

Figure 1. Alternances d’emploi

13 Contrairement à l’emploi précédent, l’illustratif semble bien se prêter au contexte

interactionnel des entrevues du CFPB, et nous nous attendrions à en trouver des

occurrences.

2.4 Emploi extraordinaire

14 Damourette & Pichon ont proposé de nommer (allure) extraordinaire le tour dans lequel

l’auxiliarisation des verbes de mouvement aller (et venir) « confère au verbe dont

l’infinitif le suit un caractère dérangeant par rapport à l’ordre attendu des choses »

(1911-1936, V, § 1652). Du fait de la forte modalisation du procès qu’il réalise,

l’extraordinaire se rencontre typiquement dans les interactions verbales. En récit écrit,

il se retrouve plutôt dans les dialogues rapportés que dans le discours du narrateur

omniscient.

Ce tour, qui a traversé les siècles, semble se développer actuellement dans l’écritélectronique, notamment dans les blogs, les chats et les forums : très certainementpar la forte modalisation qu’il permet au locuteur de réaliser. Cette mêmemodalisation nous semble rendre compte de son exclusion des textes relevant de ceque Benveniste nomme le « plan d’énonciation de l’histoire » (1959/1966 : 238), àsavoir des textes produits en effacement (tendanciel) des marques de la subjectivitéet de l’interlocution. (Bres & Labeau, 2012b : 157)

Corpus, 15 | 2016

226

Page 228: Corpus de français parlé et français parlé des corpus

15 Phénomène typiquement oral, l’emploi extraordinaire devrait se rencontrer dans le

CFPB, pour autant toutefois que soient exprimées des opinions intenses.

2.5 Emploi modalisateur

16 Lansari (2010) avait identifié sur base d’un corpus d’écrits sur Internet trois

configurations pour l’emploi ‘modalisant’ de on va dire : (1) on va dire + complétive ; (2)

on va dire + adjectif / nom et (3) on va dire en position finale. Selon elle, c’est la troisième

configuration « que l’on retrouve le plus dans le véritable oral, à la radio ou à la

télévision » (p. 122). En outre, elle considère que l’emploi ne peut se réaliser qu’avec on

et remarque que « la première personne du singulier n’était pas possible dans les

contextes où apparait la locution » (p. 133). Labeau (2012) avait poursuivi l’intéressante

réflexion de Lansari (2010) en palliant certaines de ses faiblesses, à savoir : (1) l’absence

d’un corpus oral pour évaluer un emploi défini tel ; (2) la structure soi-disant figée de

l’expression et (3) la spécificité sémantique de on va dire par rapport à d’autres

expressions modalisantes. Sur base d’un corpus de 125 occurrences orales, Labeau

(2012) observe que la position finale n’est pas majoritaire (48,8 %) et que les

occurrences de on va dire peuvent se réduire à deux configurations disponibles en

antéposition ou en postposition : modalisations quantitative (épistémique) et

qualitative (dénominationelle) de Lansari – séparant les on va dire portant sur l’énoncé

entier et les on va dire portant sur un élément de la phrase. Quant au figement de la

construction – déjà douteux à partir du corpus limité de Lansari (2010) –, il n’est pas

confirmé, et une modalisation comparable s’effectue par le biais de constructions

proches (je vais dire et dans une moindre mesure j’allais dire). Finalement, Labeau (2012)

conclut à la grande adéquation de la séquence on va dire à l’expression de la

modalisation à cause de ses composantes :

En tant qu’auxiliaire, aller signifie un mouvement ascendant dans l’espace du direvers une borne ou un point du procès qui suit, qui représente le lieu où ne se situepas (réellement ou fictivement) l’énonciateur principal et / ou l’énonciataire.La périphrase en aller + infinitif convient donc très bien à l’effet modalisant danslequel l’énonciateur se distancie de son énoncé que ce soit épistémiquement oudénominationnellement. Cet effet de distanciation est maximisé par la combinaisonavec on – c’est un moyen terme entre le je et le tu – qui opacifie le point de vue àpartir duquel la modalisation s’effectue, et renforce l’idée d’approximationvéhiculée par la séquence.(p. 580-581)

2.6 Emploi extrême

17 L’emploi qualifié par Bres & Labeau (2012a) d’extrême a été relevé par Leeman (2005) qui

le définit comme suit :

Dans le cas de la périphrase verbale, l’infinitif dénote le terme extrême d’unparcours […] aller jusqu’à est l’écho de cet itinéraire menant au résultat obtenu […]et ce mouvement est susceptible d’être assorti d’un « effet de scandale » (modalitéappréciative) qui présente le résultat en question comme le terme d’uneprogression qui, selon le locuteur, n’aurait pas dû être atteint. (Leeman, 2005 : 372)

18 Emploi donc subjectif, cet emploi pourrait logiquement apparaitre en récit

conversationnel, pour peu que des sentiments intenses y soient exprimés.

Corpus, 15 | 2016

227

Page 229: Corpus de français parlé et français parlé des corpus

3. Présentation du corpus

19 Hormis l’ultérieur, les emplois présentés ci-dessus n’apparaissent dans la littérature

scientifique qu’à travers un nombre limité d’occurrences souvent littéraires, parfois

construites et rarement représentatives de l’usage contemporain. L’examen de données

conversationnelles est susceptible de nous offrir un aperçu plus réaliste de la véritable

prévalence des tournures en français contemporain. Dans la section suivante, nous

présentons brièvement le corpus sur lequel nous avons travaillé.

3.1 Le CFPB

20 Le Corpus de français parlé à Bruxelles (CFPB)6 se propose de collecter, transcrire et

mettre gratuitement en ligne des données conversationnelles recueillies dans les dix-

neuf communes constituant Bruxelles. Un questionnaire sociolinguistique, basé sur

celui du Corpus de français parlé parisien (CFPP2000)7 mais adapté aux réalités

bruxelloises, sous-tend la collecte des données. L’adoption d’un protocole semblable à

celui du projet parisien présente l’avantage de la comparabilité des données en

diatopie.

21 En outre, l’accent sur la perception qu’ont les informateurs de leur environnement

géographique et linguistique s’avère particulièrement pertinent dans le contexte

bruxellois et belge, où les questions linguistiques et territoriales constituent l’une des

pierres d’achoppement de la vie politique. En effet, la capitale belge se situe

historiquement en territoire flamand mais a subi au cours des siècles une influence

croissante de la langue française pour être aujourd’hui une capitale très

majoritairement francophone. Il serait donc raisonnable de postuler des marques de ce

substrat germanique sur la variété de français parlée à Bruxelles qui la différencierait

non seulement des pratiques parisiennes illustrées par le CFPP2000, mais aussi des

variétés wallonnes documentées par VALIBEL8.

22 Par ailleurs, Bruxelles a attiré et attire toujours – comme toute métropole – des vagues

d’immigration issues d’Europe méridionale, du Maghreb, de ses anciennes colonies et,

plus récemment, d’Europe de l’Est, immigrations qui participent à la diversité

linguistique de la capitale belge. Toutefois, Bruxelles se singularise par un second type

d’immigrés, généralement désignés par le terme d’ « expats », qu’attirent les

institutions internationales telles que l’Union Européenne ou l’OTAN. Ces immigrés

« en col blanc », issus d’Europe de l’Ouest, d’Amérique du Nord et d’autres pays riches,

comme le Japon, se distinguent des autres par de nombreuses caractéristiques : ils

occupent des fonctions requérant des qualifications élevées dans des emplois

généralement obtenus avant leur arrivée, leur séjour tend à demeurer à court / moyen

terme. Ces caractéristiques entrainent des conséquences linguistiques : les expats – à

moins d’installation à long terme suite à des mariages locaux, par exemple –

n’éprouvent qu’un besoin limité d’apprendre le français ou le néerlandais et tendent à

utiliser l’anglais comme lingua franca. L’anglais à Bruxelles bénéficie également du

bilinguisme français-néerlandais officialisé dans la troisième réforme de l’État de

1988-1989. La plus romane des langues germaniques s’avère un compromis neutre et

commode entre francophones et néerlandophones, et une solution économique pour

les campagnes publicitaires.

Corpus, 15 | 2016

228

Page 230: Corpus de français parlé et français parlé des corpus

23 Un dernier avantage majeur de notre corpus est de fournir un aperçu de la réalité

linguistique sous-documentée de Bruxelles. En effet, suite aux tensions linguistiques

qui caractérisent la vie politique belge, le volet ayant trait à l’usage des langues du

recensement a été interdit au début des années 60, et les derniers chiffres officiels

remontent à 1947. La distribution linguistique de Bruxelles ne peut donc être

qu’indirectement appréhendée, par exemple, par le réseau d’enseignement utilisé, qui

ne tient évidemment pas compte des langues de l’immigration et qui cache la tendance

de certaines familles à scolariser leur enfant dans l’autre langue pour améliorer ses

perspectives professionnelles. Par conséquent, d’autres mesures sont prises en compte,

comme l’utilisation des langues lors d’une hospitalisation ou de l’immatriculation d’un

véhicule. Depuis 2001, le ‘baromètre linguistique’ (voir Janssens 2014, pour la troisième

édition) dirigé par Rudi Janssens (VUB, Brio) donne un aperçu de l’emploi des langues à

Bruxelles sur base de questionnaires téléphoniques auprès d’un échantillon de 2 000

Bruxellois. Le baromètre des langues repose sur l’usage rapporté des langues, avec tous

les biais que cela implique. Le CFPB se propose donc d’offrir un pendant qualitatif – en

fournissant un aperçu de l’usage effectif du français – au baromètre des langues.

24 Le CFPB est en cours de constitution, et il comprend actuellement 34 enregistrements

de français parlé non planifié. Si certains enregistrements sont totalement transcrits et

révisés, d’autres ne le sont encore que partiellement. Afin de compléter notre banque

de données, nous privilégions les communes ainsi que les profils des locuteurs les

moins représentés actuellement.

3.2 Présentation quantitative du sous-corpus actuellement transcrit

25 Pour la recherche présentée ici, nous nous sommes basées sur 8 entrevues, totalement

transcrites et vérifiées au moment de la rédaction, et qui représentent une durée totale

de 551 minutes.

26 Les locuteurs ont des profils différents, tant en termes d’âge que de parcours socio-

professionnel ou encore de lieu de résidence. Le tableau ci-dessous synthétise les

informations concernant les locuteurs des enregistrements que nous avons

sélectionnés.

Tableau 2. Profil des locuteurs

Code Locuteur Âge sexe commune profession durée

CG 41 F Ixelles employée 55 min.

DVA 40 H Woluwe-Saint-Lambert architecte 53 min.

GJJ 85 H Marolles chanteur 73 min.

MVU 55 F Uccle institutrice 50 min.

BG 50 F Anderlecht avocate 80 min.

ER 50 H Anderlecht employé 66 min.

MVA 19 F Jette étudiante 99 min.

Corpus, 15 | 2016

229

Page 231: Corpus de français parlé et français parlé des corpus

QP 34 H Ganshoren professeur 75 min.

4. Analyse

27 Dans cette section, nous présentons dans un premier temps un relevé quantitatif des

périphrases itives distribuées selon les catégories présentées dans la section 2. Nous

ferons une analyse qualitative des relevés.

4.1 Analyse quantitative

28 Le tableau ci-dessous présente la distribution numérique des emplois de aller par

informateur

Tableau 3. Distribution des emplois de aller

Mouve-

mentUltérieur Narratif Illustratif

Extra-

ordinaire

Modali-

sateurExtrême Total

CG 26 11 0 7 1 29 0 49

1 53.06 22.45 0 14.29 2.04 8.16 0 100

DVA 14 17 0 2 0 1010 0 41

2 34.15 41.46 0 4.88 0 19.51 0 100

GJJ 21 0 0 1 0 0 0 22

7 95.45 0 0 4.55 0 0 0 100

MVU 4 6 0 12 0 0 0 22

8 18.18 27.27 0 54.54 0 0 0 100

BG 3 10 0 0 0 111 0 14

9 21.43 71.43 0 0 0 7.14 0 100

ER 6 2 0 1 0 4512 0 54

10 1.11 3.7 0 1.85 0 83.33 0 100

MVA 21 33 0 14 0 313 0 71

11 29.58 47.48 0 19.72 0 4.23 0 100

QP 22 3 0 5 0 0 0 30

12 73.33 10 0 16.67 0 0 0 100

Corpus, 15 | 2016

230

Page 232: Corpus de français parlé et français parlé des corpus

117 82 0 42 1 61 0 303

29 La valeur pleine de verbe de mouvement représente la proportion la plus large des

emplois (38,61 %). Parmi les périphrases itives, la valeur d’ultériorité est, sans surprise,

majoritaire (44,09 %), suivie de l’emploi modalisateur (32,8 %) et l’illustratif (22,58 %).

Comme le laissait présager l’étude de Bres et Labeau (2012a), l’emploi narratif

n’apparait pas, pas plus d’ailleurs que l’extrême. Quant à l’extraordinaire, on n’en

compte qu’une occurrence. La fréquence réduite de ces deux emplois, exprimant des

émotions intenses, n’est pas surprenante dans des entrevues du type étudié où des

informations objectives plutôt que des convictions personnelles sont élicitées.

30 On remarque toutefois une grande variation interpersonnelle, notamment dans

l’emploi modalisateur qui tourne au tic de langage chez l’informateur 10, ER.

31 Dans la section suivante, nous nous concentrerons sur une analyse qualitative des

emplois modalisateur et illustratif, compte tenu que nous en possédons plus

d’occurrences que dans les études précédentes.

4.2 Analyse qualitative

4.2.1 L’emploi modalisateur

32 Contrairement à ce qu’affirmait Lansari (2010), l’emploi modalisateur ne se limite pas à

on va dire, minoritaire (18,03 %) par rapport à je vais dire (81,97 %). La structure n’est pas

aussi figée que le prétendait Lansari, et la périphrase peut être séparée par un pronom

objet (3, 5, 6, 7) ou un adverbe (4, 5)14 :

(3) bah écoute là tu sais euh je vais pas te dire le mystère mais euh un jour là j’ai euje sais pas une illumination là (rires) je me suis dit je vais faire architecte et j’ai étédans une école j’ai même pas été voir les autres [CFPB-DVA](4) je vais dire m- m- c’est selon je vais dire on  va toujours dire selon les lespossibilités financières des parents mais en règle générale ils s’habillent relax coolje vais dire non je vais dire comme un peu partout je vais dire [CFPB-ER](5) je dirais pour les profiteurs mais ça c’est parce que je suis libérale donc je vais t-plutôt dire [CFPB-MVA](6) et donc c’ je pense que c’est c’est c’est une bonne solution à la fois pour les lespersonnes qui vivent ici depuis plusieurs générations on va   le dire   comme  ça[CFPB-MVA](7) donc et en fait ma barrière naturelle je vais te dire si on peut dire ça comme çac’est la place Meiser [CFPB-CG]

33 Le positionnement de la périphrase modalisatrice pouvait être, selon Lansari (2010), en

début de phrase (on va dire que), devant un nom ou un adjectif modalisé ou en fin de

phrase. Le corpus CFPB montre d’abord que je vais dire est majoritaire, mais surtout à

cause de l’informateur ER qui produit 45 des 61 occurrences (73,77 %), dont 44 en je vais

dire. La position initiale n’apparait qu’avec je vais dire (que) et dans 4/5 des cas sans le

que (8). Pareillement, la modalisation en fin d’énoncé est majoritairement en je vais dire.

Quant au rôle de modalisation du vocabulaire, il ne porte pas que sur les noms et les

adjectifs mais aussi sur les pronoms, les adverbes et même un verbe.

(8) écoute euh je vais dire euh platement j’y vais jamais moi [CFPB-DVA](9) oui je dis maintenant les jeunes ça parle je vais dire pour nous nous d’une autregénération enfin c’est très complipue com- compliqué à les comprendre que ça soitdes SMS qu’on reçoit euh ou des langages disons un langage bien à eux je crois avec

Corpus, 15 | 2016

231

Page 233: Corpus de français parlé et français parlé des corpus

des codes et c’est fait pour qu’on comprenne pas mais je vais dire pourquoi pas jecrois que nous de notre temps c’était plutôt le verlan par exemple maintenant euhc’est un mélange un peu tout je vais dire euh [CFPB-ER](10) et il y a il y a pas mal de choses qui sur le moment même euh je vais dire quim’impressionnent et puis et mais bon qui euh qui tombent vite dans peut-être c’estpeut-être pour ça que ça ça ne me marque pas euh de manière euh indéfinie [CFPB-DVA]

4.2.2 L’emploi illustratif

34 Selon Bres & Labeau (2014), l’emploi illustratif apparait dans une structure soit

corrélative présentant une alternative, une hypothèse, une opposition ou une structure

comparative, soit indiquant des possibilités multiples. On retrouve tous ces cas de

figure dans le corpus.

4.2.3 Alternative

35 En (11), en fonction de indique une variété de situation :

(11) c’est vrai que de nouveau en fonction des communes où on va se trouver dansBruxelles on va  être euh plutôt en contact direct avec euh certains types depopulations de de cultures euh étrangères [CFPB-DVA]

4.2.4 Hypothèse

36 L’informatrice en (12) argumente sa position sur l’intégration des étrangers à Bruxelles

en offrant une anecdote hypothétique introduite par si :

(12) si je vais m’installer dans un pays qui a une culture je vais je vais pas essayerd’imposer ma culture d’abord je vais d’abord essayer de voir la culture du pays dem’imprégner de c- la culture du pays de la respecter et puis de voir si ma culturepeut coïncider avec celle du pays je donne un exemple ridicule mais un exemple simaintenant mes convictions à moi c’est d’être nudiste et que je vais pf aux Etats-Unis et j’arrive et puis bon je suis habillée parce que bon pour dans l’avion ça le faitpas trop d’être euh tout nu et j’arrive à l’aéroport machin je prends ma valise hop jesors de l’aéroport et j’arrive sur le territoire américain et puis je me mets toute nueje mets mes affaires dans la valise et puis je vais comme ça jusqu’à l’hôtel toute nuealors je vais me faire interpeller certainement sur le chemin de l’hôtel par euh euh(rires) par des personnes et certainement par la police et là on va me dire il fautvous rhabiller et je vais dire bé non moi ma culture c’est d’être tout nu c’est mac’est c’est ma culture c’est ma façon de penser moi je moi je trouve qu’on est mieuxtout nu en plus je peux bronzer partout en une fois et non je vais me faire arrêterça va pas je vais devoir me rhabiller ci ça et et je vais pas malgré tout essayer dem’imposer de dire non [CFPB-MVA]

4.2.5 Opposition

37 QP illustre les variations lexicales entre Bruxelles et Liège en marquant l’opposition par

l’emploi de pronoms personnels nous et eux :

(13) des différences à quel niveau ? au niveau du lexique au niveau de l’accent auniveau du euh oui bè l’ac- l’accent ça c’est certain et les expressions prenez lesexpressions euh bruxelloises qu’on n- ne comprend pas à Liège mais moi j’ai mafamille qui est une partie de ma famille qui est liégoise par ma maman eh bien il y ades mots qui ne sont pas du tout les mêmes chez le boulanger on demande unebrique c’est un pain carré une miche c’est un pistolet on va acheter euh nous on va

Corpus, 15 | 2016

232

Page 234: Corpus de français parlé et français parlé des corpus

acheter des bonbons et eux ils vont ils vont acheter des chiques une chique c’estun bonbon une chique pour nous c’est un chiclet [CFPB-QP]

4.2.6 Comparaison

38 L’informant âgé oppose les goûts cinématographiques de sa jeunesse avec ceux

d’aujourd’hui. La comparaison des deux époques est soulignée par la présence de

l’adverbe maintenant :

(14) les vieux cinémas il y avait tous les les les les films américains qui ontcommencé à sortir et quand on voit les films américains maintenant comment est-ce qu’on a pu Charlie Chaplin comment est-ce qu’on a pu aimer ça ? co- commentest-ce que Laurel et Hardy nous ont fait rire ? maintenant tu passes un Laurel etHardy à des jeunes ils vont  dire   “écoute euh ce ça c’est complètement euhcomplètement naze ce ce truc” mais nous ça nous faisait rire. [CFPB-GJJ]

39 L’emploi illustratif débouche même sur de longues séquences narratives anecdotiques,

particulièrement chez MVA, une informatrice très loquace.

5. Conclusion

40 La constitution du CFPB n’en est encore qu’à ses débuts. Toutefois, la prise en compte

de données limitées nous a déjà permis de (i) rassembler des occurrences authentiques

de faits linguistiques sous-représentés dans la recherche malgré leur fréquence dans

l’usage (voir les emplois modalisateur et illustratif de la périphrase itive), (ii) tester des

descriptions et hypothèses linguistiques (le soi-disant figement de l’emploi

modalisateur) et (iii) suggérer des élargissements aux descriptions existantes (p. ex. : la

parataxe en je vais dire). En outre, le CFPB pourra s’avérer un outil utile pour l’étude de

la variation diatopique, par exemple pour une comparaison de la concurrence FS-FP

avec les corpus d’Amérique du Nord ou le CFPP2000. Finalement, vu le contexte

politique de Bruxelles, le contenu du corpus est susceptible d’intéresser des chercheurs

en dehors des sciences du langage (sociologues, urbanistes, historiens…). Autant de

raisons de poursuivre le projet…

BIBLIOGRAPHIE

Blondeau H. (2006) « La trajectoire de l’emploi du futur chez une cohorte de Montréalais

francophones entre 1971 et 1975 », Revue de l’Université de Moncton 37 : 73-98.

Bres J. & Labeau E. (2012a). « De la grammaticalisation des formes itive (aller) et ventive (venir) :

valeur en langue, emplois en discours », in L. de Saussure & A. Rihs (éd.) Études de sémantique et

pragmatique françaises. Bern : Peter Lang, 143-166.

Bres J. & Labeau E. (2012b). « Allez donc sortir des sentiers battus ! La production de l’effet de

sens extraordinaire par aller et venir », Journal of French Language Studies 23/2 : 151-177.

Corpus, 15 | 2016

233

Page 235: Corpus de français parlé et français parlé des corpus

Bres J. & Labeau E. (2012c). « Un phénix linguistique ? Le tour narratif va + infinitif renaîtrait-il, en

français contemporain, de ses cendres médiévales ? », in C. Guillot, B. Combettes, A. Lavrentiev,

E. Oppermann-Marsaux & S. Prévost (éd.) Le Changement en français. Bern : Peter Lang, 1-14.

Bres J. & Labeau E. (2013). « The narrative construction va + infinitive in contemporary French : A

linguistic phoenix risen from its medieval ashes ? », Diachronica 30/3 : 295-322.

Bres J. & Labeau E. (2014). « About the illustrative use of the aller + infinitive periphrasis in

French », in E. Labeau & J. Bres (éd.) Current Evolutions of Romance Tenses. Bern : Peter Lang,

171-202.

Bybee J., Perkins R. & Pagliuca W. (1994). The Evolution of Grammar : Tense, Aspect, and Modality in

the Languages of the World. Chicago/London : The University of Chicago Press.

Damourette J. & Pichon E. (1911-1926/1970). Des mots à la pensée (tome 5). Paris : D’Artrey.

Fleury S. & Branca-Rosoff S. (2010). « Une expérience de collaboration entre linguiste et

spécialiste de TAL : L’exploitation du corpus CFPP2000 en vue d’un travail sur l’alternance futur

simple / futur périphrastique », Cahiers AFLS 16/1.

Hagège Cl. (1993). The Language Builders. Amsterdam/ Philadelphia : John Benjamins.

Hopper, P. J. & Traugott E. C. (1993). Grammaticalisation. Cambridge : CUP.

Janssens R. (2014). Le Multilinguisme urbain : Le Cas de Bruxelles. Bruxelles : Racine.

Labeau E. (2012). « Une façon d’indiquer la “non-coïncidence entre les mots et les choses, on va

dire…” », Congrès mondial de linguistique française – CMLF 12, 573-582.

Lansari L. (2008). « La périphrase aller + inf. en français contemporain : à la recherche d’un

invariant », in A. Lauze, G.-J. Barceló & A. Patard (éd.) De la langue au discours : l’un et le multiple

dans les outils grammaticaux. Montpellier : Praxiling, 225-238.

Lansari L. (2010). « On va dire : vers un emploi modalisant d’aller + infinitif », in E. Moline &

C. Vetters (éd.) Temps, aspect et modalité en français (Cahiers Chronos 21). Amsterdam / New York :

Rodopi, 119-139.

Larreya P. (2005). « Sur les emplois de la périphrase aller + infinitif », in H. Bat-Zeev Shyldkrot &

N. Le Querler (éd.) Les Périphrases verbales. Amsterdam/Philadelphia : John Benjamins, 337-360.

Leeman D. (2005). « Un nouvel auxiliaire : aller jusqu’à », in H. Bat-Zeev Shyldkrot & N. Le Querler

(éd.) Les Périphrases verbales. Amsterdam / Philadelphia : John Benjamins, 361-377.

Meillet A. (1912). « L’évolution des formes grammaticales », Scientia 12 : 384-400.

Poplack S. & Turpin D. (1999). « Does the future have a future in (Canadian) French ? » Probus 11 :

134-164.

NOTES

1. Les études typologiques corroborent ce mouvement de grammaticalisation du spatial au

temporel (Bybee Perkins & Pagliuca, 1994).

2. Voir par exemple l’exploitation du CFPP 2000 par Fleury & Branca-Rosoff (2010).

3. Nous reprenons cette appellation à Hagège (1993 : 103), qui réfère aux périphrases construites

sur aller par le terme d’itives (du latin ire, supin itum).

Corpus, 15 | 2016

234

Page 236: Corpus de français parlé et français parlé des corpus

4. L’effet de sens d’ultériorité développé sur aller est ancien : Gougenheim (1929) le date du XVe

siècle, mais Damourette & Pichon (1911-1936, V, §1643) suggèrent qu’il pourrait remonter à la fin

du XIIe ou au début du XIIIe.

5. It could be argued for instance that in interactive oral narration, the absence of va + inf. is

linked with the 1st person that would make the narrator adopt a retrospective view from the

deictic center (i.e. me-here.now) when retelling past events ; that retrospective narrative stance

is inconsistent with the prospective thrust carried by the periphrasis (Bres & Labeau, 2013 : 316).

6. La première phase du projet (2013-2015) bénéficie du soutien de la British Academy.

7. http://cfpp2000.univ-paris3.fr/

8. http://www.uclouvain.be/valibel

9. je vais dire (2).

10. on va dire (7) ; je vais dire (3).

11. on va dire.

12. on va dire (1) ; je vais dire (44).

13. on va dire (2) ; je vais dire (1).

14. Lansari (2010) avait évoqué un exemple négatif.

RÉSUMÉS

En considérant les occurrences orales de différents emplois de la périphrase en aller + infinitif

décrits par Bres et Labeau (2012a), cet article illustre la contribution positive des corpus oraux, et

particulièrement du nouveau Corpus de français parlé à Bruxelles (CFPB) – au rassemblement

d’occurrences authentiques de phénomènes linguistiques peu étudiés, au test de leurs

descriptions théoriques, mais aussi à l’enrichissement de celles-ci.

By studying oral tokens of different uses of the aller + infinitive periphrasis described in Bres &

Labeau (2012a), this article illustrates the positive contribution of oral corpora –and particularly

of the new Corpus de français parlé à Bruxelles– to the collection of authentic token of

understudied linguistic phenomena, to the testing of their theoretical descriptions as well as the

enrichment of those descriptions.

INDEX

Keywords : oral corpora, corpus of French as spoken in Brussels, aller + infinitive, illustrative

use, modal use

Mots-clés : corpus oraux, corpus de français parlé à Bruxelles, aller + infinitif, emploi illustratif,

emploi modalisateur

AUTEURS

EMMANUELLE LABEAU

Aston University

Corpus, 15 | 2016

235

Page 237: Corpus de français parlé et français parlé des corpus

ANNE DISTER

Université Saint-Louis – Bruxelles

Corpus, 15 | 2016

236

Page 238: Corpus de français parlé et français parlé des corpus

Comptes rendus

Corpus, 15 | 2016

237

Page 239: Corpus de français parlé et français parlé des corpus

Tommaso RASO et Heliana MELLO

(éd.), Spoken corpora and linguisticstudies. Amsterdam : John BenjaminsPublishing, 2014, 498 p.Florence Lefeuvre

1 Le livre édité par Tommaso Raso et Héliana Mello est une contribution fondamentale à

la recherche sur les corpus oraux. Il rassemble les contributions majeures données lors

d’un colloque international au Brésil, à Belo Horizonte, en février et mars 2012,

organisé par le « Gruppo di Studio sulla Comunicazione Parlata », qui est un groupe de

recherche de la Société de Linguistique Italienne. Les langues appréhendées sont

diverses : l’anglais, trois langues romanes (portugais brésilien, français et italien), cinq

langues germaniques du nord (danois, féroïen1, suédois, islandais et norvégien), une

langue non indoeuropéenne (le mohawk, langue amérindienne) et enfin des langues des

signes (américaine et brésilienne). Plusieurs chapitres de l’ouvrage mènent d’ailleurs

des études contrastives entre plusieurs langues.

2 Ces articles permettent de mettre en évidence les deux problèmes majeurs, selon les

auteurs, que soulève l’étude de l’oral spontané :

3 i) Qu’en est-il de l’unité d’analyse de référence pour les corpus oraux, sachant que

l’unité reconnue jusque-là, la phrase, ne fait pas l’unanimité et paraît même, pour

plusieurs auteurs, difficile voire impossible à appliquer aux corpus oraux ?

4 ii) Qu’en est-il de la relation entre la prosodie et sa codification ? On ne peut pas réduire

l’étude de l’oral aux seules transcriptions. La prosodie est un paramètre essentiel pour

étudier, à l’oral, les actes illocutoires et la structure informationnelle.

5 Les articles du volume tentent d’apporter leur contribution à ces deux

questionnements de fond. Ils s’articulent en quatre sections.

6 La première section rassemble trois chapitres qui évoquent les pratiques et les

conditions requises pour compiler des corpus oraux. Dans le premier chapitre, Heliana

Mello met en avant les questions que soulève la compilation d’un corpus d’oral

Corpus, 15 | 2016

238

Page 240: Corpus de français parlé et français parlé des corpus

spontané, à partir notamment du C-ORAL-BRASIL I (Raso & Mello 20122), qui est un

corpus d’oral spontané informel en portugais brésilien, confectionné d’après le corpus

C-ORAL-ROM (Cresti & Moneglia 20053).

7 Le second chapitre, écrit par Janne Bondi Johannessen, Øystein Alexander Vangsnes,

Joel Priestley et Kristin Hagen, traite des traitements syntaxiques de la variation

dialectale à l’oral spontané, en ce qui concerne cinq langues germaniques du nord de

l’Europe. Ce corpus comporte des enregistrements audio et vidéo et rassemble

2,8 millions de mots (conversations et interviews).

8 Dans le troisième chapitre, Ronice Müller de Quadros, Diane Lillo-Martin et Deborah

Chen-Pichler présentent un corpus d’acquisition de la langue des signes dans des

contextes linguistiques et environnementaux différents (variant les paramètres de

surdité concernant les enfants et leurs parents, ainsi que l’âge des enfants (deux

tranches, 1-4 ans et 4-7 ans)). Ce corpus basé sur la vidéo propose des transcriptions

alignées à partir du logiciel ELAN (Crasborn & Sloetjes 2008). Ces trois approches

montrent la nécessité d’établir un guide clair et explicite pour compiler de façon

rigoureuse les corpus.

9 La deuxième section, qui comprend trois chapitres, concerne les différentes couches

possibles d’annotation de corpus. Le chapitre 4, écrit par Eckhard Bick, évoque

l’annotation grammaticale de deux types de corpus, corpus oraux et corpus qui

présentent des airs de famille avec l’oralité (e-mails, chat, nouvelles à la télévision,

discussions parlementaires). Ces différents genres permettent de comparer les

marqueurs linguistiques de l’oralité. Les analyseurs syntaxiques ou parsers tels que

PALAVRAS et EngGram peuvent s’adapter à ces traits syntaxiques selon les genres. La

segmentation syntaxique, dans les corpus oraux, s’établit grâce à la prosodie. A

l’exception du corpus de chat, les performances sont tout à fait intéressantes et se

rapprochent de celles des corpus écrits.

10 Alessandro Panunzi et Maryualê M. Mittmann, dans le 5e chapitre de cet ouvrage,

présentent une base de données en ligne, riche de plusieurs couches d’annotation,

appelée DB-IPIC. Le cadre théorique est celui du « Language into Act Theory » (L-AcT)

ou « Théorie de la langue en acte » (cf. Cresti 20114) pour lequel il existe une interface

entre les unités informationnelles et les unités prosodiques. Les auteurs proposent une

étude comparative entre l’italien et le portugais du Brésil.

11 Dans le chapitre 6, Massimo Moneglia étudie les verbes d’action en italien et en anglais

dans un corpus d’oral spontané multilingue. Sont repérés des verbes à sens généraux

(mettere, to put), qui peuvent avoir une grande variabilité dans leur signification (placer,

relier, ajouter, situer) dans ce type de corpus.

12 La troisième section traite de la façon dont la prosodie donne des informations sur les

différents phénomènes qui interviennent dans l’activité de parole. Elle regroupe quatre

chapitres. Le chapitre 7, dont l’auteur est Philippe Martin, s’intéresse à l’intonation

dans la phrase, en français. Il montre que les nouveaux outils permettent à présent de

se confronter à des corpus de l’oral spontané. Dans le cadre de son modèle (« Dynamic

Cognitive Model »), la structure prosodique détache des groupes accentués (de 2 à 7

syllabes, qui porte seulement un accent) qui sont en étroite dépendance avec la

syntaxe, comme les parenthèses ou encore les dislocations sur la droite ou sur la

gauche.

Corpus, 15 | 2016

239

Page 241: Corpus de français parlé et français parlé des corpus

13 Dans le chapitre 8, Klaus Scherer rappelle tout d’abord le modèle qu’il a construit :

TEEP, the Tripartite Emotion Expression and Perception Model. Il montre ensuite que

les corpus d’oral spontané ne sont pas forcément appropriés pour l’étude des émotions,

généralement cachées. Ce sont en fait les corpus où sont représentées les émotions qui

se révèlent les plus intéressants pour ce type de recherche. L’auteur présente deux

recherches spécifiques, l’une portant sur les marqueurs vocaux de l’émotion selon deux

types d’approche (d’après une technique expérimentale psychologique et d’après la

représentation des émotions) et l’autre portant sur la compréhension de la

communication vocale de quatre émotions majeures (peur, colère, joie, tristesse) à

travers le comportement du locuteur.

14 Dans le chapitre 9, João Antônio de Moraes et Albert Rilliard décrivent, d’après un

corpus audio et vidéo du portugais brésilien, les types d’attitude sur la réalisation des

phrases. Les attitudes qui correspondent à des contenus propositionnels sont basées sur

des indices auditifs alors que les attitudes qui concernent les relations sociales sont

perçues davantage par des indices visuels.

15 Le chapitre 10, rédigé par Douglas Biber et Shelley Staples, étudie le lien entre la

prosodie et l’expression grammaticale des postures du locuteur, c’est-à-dire des

sentiments personnels, attitudes, jugements de valeur, ou opinions. Cette recherche

s’appuie sur le corpus de Hong Kong de conversation anglaise qui inclut des locuteurs

anglophones natifs et des locuteurs anglophones cantonais. Les auteurs examinent plus

précisément le rôle des adverbes : les plus ordinaires, perdant de leur valeur

sémantique, surviennent avec peu de proéminence prosodique, alors que les adverbes

moins ordinaires, gardant toute leur valeur sémantique, sont toujours marqués par une

proéminence prosodique. On peut se demander, avec les éditeurs de l’ouvrage, si la

position de ces adverbes dans la phrase n’est pas fondamentale, selon qu’ils se trouvent

en début de phrase (et de ce fait plus accentués) ou dans le cours de la phrase, plus

intégrés, et donc forcément moins accentués.

16 La quatrième section porte sur le rapport entre la syntaxe et la structure

informationnelle dans quatre chapitres. L’unité de la phrase est remise en question par

les auteurs. Dans le chapitre 11, Marianne Mithun étudie le mohawk, qui appartient à la

famille iroquoise, une langue parlée polysynthétique du nord-est de l’Amérique du

Nord. Elle propose, comme type d’unités, l’unité informationnelle, qui correspond à

une unité sémantique (une nouvelle idée) signalée par la prosodie. Même si la syntaxe

de cette langue diffère complètement de celle des langues européennes (et même

asiatiques), en revanche la structure informationnelle leur ressemble bien davantage :

les locuteurs tendent à présenter une nouvelle idée à un moment donné, au sein

d’unités informationnelles ; la structure prosodique correspond à la structure

informationnelle plutôt qu’à la structure syntaxique.

17 Dans le chapitre 12, les auteurs (Paola Pietrandrea, Sylvain Kahane, Anne Lacheret et

Frédéric Sabio) se situent dans le courant initié par les travaux de Claire Blanche-

Benveniste, et font part de leurs résultats d’après le projet de recherche Rhapsodie

(porteur du projet : Anne Lacheret). Les auteurs mettent à jour trois types de cohésion

différents : une cohésion syntaxique, une cohésion illocutoire, une cohésion prosodique

qui organisent le discours parlé selon des unités maximales indépendantes : les unités

maximales microsyntaxiques (appelées unités de rection), les unités maximales

macrosyntaxiques (appelées unités illocutoires) et les unités maximales prosodiques

(appelées périodes intonatives). Ces unités n’épousent pas forcément les mêmes

Corpus, 15 | 2016

240

Page 242: Corpus de français parlé et français parlé des corpus

frontières. Selon cette répartition, et contrairement à l’hypothèse de Cresti, la prosodie

ne présente pas forcément un niveau essentiel pour déterminer les unités

macrosyntaxiques. Cela dit, à 87 %, les unités illocutoires correspondent aux périodes

intonatives.

18 Dans le chapitre 13, Emanuela Cresti se place dans le cadre de la Théorie de la langue en

acte (theory of Language into Act), construite d’après la Théorie des actes de langage

d’Austin. L’énoncé est l’unité de référence. Le cœur de l’énoncé est une unité

d’information nommée Comment. Il correspond pragmatiquement à un acte de langage

et il est identifié par des indices prosodiques. Selon ce modèle, la syntaxe est

indépendante de la structure informationnelle et prosodique, dans la mesure où le

Comment ne correspond pas forcément à une phrase syntaxiquement bien formée.

D’après cet auteur, deux types d’énoncés sont largement majoritaires dans le discours

parlé quotidien : les énoncés averbaux (38 % dans le C-ORAL-ROM italien) et les énoncés

simples (42 % des 62 % restants sont composés du verbe être + attribut nominal). En

revanche, la subordination au sens strict, représentée par les subordonnées

complétives et les subordonnées relatives, est relativement peu fréquente.

19 C’est dans la même Théorie de la langue en acte que l’auteur du chapitre 14, Tommaso

Raso, examine les marqueurs de discours pris dans le corpus C-ORAL-BRASIL, en se

posant deux questions non encore résolues dans la littérature : comment identifier les

marqueurs de discours et comment identifier leurs fonctions spécifiques, puisqu’ils ne

prennent pas part dans le contenu propositionnel des énoncés ? Ce sont des unités

dialogiques, isolées par des indices prosodiques. Ces unités se distinguent clairement de

l’unité Comment en ce que celle-ci est interprétable seule, alors qu’elles ne peuvent

l’être qu’en fonction de l’énoncé auquel elles prennent part. Les marqueurs de discours

peuvent assurer des fonctions différentes, comme celles de la cohésion ou de

l’empathie parmi les locuteurs, fonctions induites à partir d’indices prosodiques.

20 Nous terminerons en soulignant qu’il s’agit d’un ouvrage majeur de la littérature sur les

corpus oraux, présentant les toutes dernières avancées sur la confection de corpus, sur

leurs enrichissements par diverses couches d’annotations, sur la prosodie et enfin sur

la syntaxe confrontée à la structure informationnelle. Un ouvrage que toutes les

bibliothèques devraient avoir.

NOTES

1. Des îles Féroé qui sont un pays constitutif du Royaume du Danemark.

2. Raso Tommaso et Mello Heliana (éd.), C-ORAL – Brasil I : Corpus de referência do português brasileiro

falado informal. Belo Horizonte : Editora UFMG, 2012.

3. Cresti Emanuela et Moneglia Massimo (éd.), C-ORAL-ROM, Integrated Reference Corpora for Spoken

Romance Languages (Studies in Corpus Linguistics 15). Amsterdam : John Benjamins, 2005, DOI :

10.1075/scl.15.

4. Cresti Emanuela, Moneglia Massimo, Tucci Ida, « Annotation de l’entretien d’Anita Musso selon

la Théorie de la langue en acte », Langue française n° 170, 2011, Lefeuvre et Moline éd., p. 95-110.

Corpus, 15 | 2016

241

Page 243: Corpus de français parlé et français parlé des corpus

AUTEUR

FLORENCE LEFEUVRE

Université de la Sorbonne Nouvelle

Clesthia EA7345

Corpus, 15 | 2016

242

Page 244: Corpus de français parlé et français parlé des corpus

Henry TYNE, Virginie ANDRÉ,Christophe BENZITOUN, Alex BOULTON

et Yan GREUB (éd.), French throughcorpora : ecological and data-drivenperspectives in French language studies.Newcastle upon Tyne UK :Cambridge Scholars Publishing, 2014, 343 p.Filip Verroens

1 Cet ouvrage vise à montrer comment la méthodologie de corpus fait fructifier plusieurs

domaines linguistiques. Il importe donc de démontrer les liens entre les outils, les

méthodes et les analyses. Comme le titre l’indique clairement, l’approche adoptée se

veut inductive (corpus-driven) et écologique. Autrement dit, le corpus y est utilisé

comme point de départ pour élaborer une théorie linguistique et les données sont

authentiques tant dans leur origine que dans leur traitement. Le volume se compose de

seize chapitres regroupés en quatre parties respectivement consacrées à la diachronie,

à la syntaxe, à la sociolinguistique et à l’apprentissage du français. Chaque partie

contient plusieurs contributions empiriques et est introduite par une contribution

générale où l’on établit la relation entre le domaine de recherche en question et la

méthodologie de corpus.

2 L’introduction à la première partie du volume (Bernard Combettes) résume les

avantages de l’emploi de corpus et caractérise les problèmes auxquels les études

diachroniques sont confrontées. Parmi les points positifs, l’auteur note comment les

corpus peuvent changer le regard du diachronicien et par conséquent la manière de

Corpus, 15 | 2016

243

Page 245: Corpus de français parlé et français parlé des corpus

traiter les données linguistiques historiques. Si auparavant les études étaient surtout de

nature synchronique, c.-à-d. une photographie instantanée d’un item grammatical dans

une période bien délimitée, elles portent de nos jours surtout sur le changement

linguistique proprement dit à travers plusieurs périodes. Il s’ensuit que la périodisation

traditionnellement reconnue et la question de la variation seront remises en cause.

Finalement, la possibilité de la lecture ‘verticale’ à l’aide de concordanciers permet de

mettre en lumière plusieurs paramètres contextuels qui restaient inaperçus

auparavant. Quant aux inconvénients, l’auteur observe d’abord que le mérite des

corpus dépend trop souvent du degré d’annotation. Pour l’instant, les seuls domaines

de recherche qui profitent des corpus sont ceux où les données sont facilement

repérables par l’ordinateur, p. ex. l’étude des expressions figées. L’attention accordée

aux expressions figées peut amener des conséquences théoriques importantes étant

donné que la notion de syntaxe est de plus en plus considérée en rapport avec des

constructions figées plutôt qu’avec des constructions libres. Ensuite, une certaine

prudence dans l’annotation automatique des textes historiques s’impose afin d’éviter

des anachronismes au niveau des catégories et des unités syntaxiques. Enfin, il y a la

question largement discutée de la représentativité qui, due à l’absence de certains

genres et registres, semble plus problématique qu’en synchronie vu l’inventaire donné

et clos des textes disponibles. Une première étude (Paul Isambert) montre comment le

peu de données historiques semble à première vue contredire l’hypothèse que

l’adverbe de manière autrement se grammaticalise vers un connecteur d’hypothèse

négative. Or, une analyse synchronique détaillée permet ensuite de reconstruire la

grammaticalisation et de montrer que l’évolution a eu lieu à travers la construction

incluant l’adverbe. La position syntaxique qu’occupe cette construction convient bien à

une réanalyse et ouvre ainsi la voie au connecteur. Une deuxième étude (Richard

Ingham) porte sur la naissance des constructions discursives elliptiques en anglais

(p. ex. Haven’t you heard Peter ? - Yes, I have). Contrairement à d’autres qui expliquent

cette construction par l’influence du substrat celtique, l’hypothèse avancée ici est

qu’elle résulte du contact avec l’anglo-normand. Les arguments en faveur sont, primo,

que les questions et réponses elliptiques en anglo-normand préexistent à l’anglais, qui

est d’ailleurs la seule langue germanique qui en dispose. Secundo, elles apparaissent

dans le même genre (les farces) et registre (le dialogue informel). Tertio, le parallélisme

structurel révèle une réduplication grammaticale et le prestige de l’anglo-normand en

Angleterre a favorisé sa distribution. Le décalage entre le moment de contact présumé

et la première apparition dans les textes est expliqué par l’usage de la construction

dans un registre oral informel précédant le registre écrit. Cette étude montre entre

autres que la linguistique diachronique nécessite un corpus de dialogues en français

pré-moderne. Une troisième étude (Inka Wissner) pose la question de savoir ce que les

corpus textuels peuvent contribuer à l’étude des expressions diatopiquement marquées

en français moderne, en l’occurrence la collocation tomber en amour. Cette expression a

le statut de marqueur diatopique, puisqu’elle est généralement considérée comme un

calque de l’anglais (to fall in love) usité en français québécois. Or, une analyse

lexicographique exhaustive et une analyse sur corpus montrent que cette expression

apparaît déjà au XIIIe siècle en France ce qui rend l’hypothèse d’un calque moins

probable. Sans que l’auteur ne le dise explicitement, on suppose alors que tomber en

amour est un des archaïsmes qui a subsisté dans le Nouveau Monde. Enfin, l’auteur

regrette qu’il n’y ait toujours pas de corpus global pour toute la francophonie pourvu

entre autres d’annotations diatopiques.

Corpus, 15 | 2016

244

Page 246: Corpus de français parlé et français parlé des corpus

3 La deuxième partie contient trois chapitres axés sur l’emploi de corpus en syntaxe.

Dans l’introduction, Christophe Benzitoun souligne la révolution que l’emploi massif

des corpus a déclenchée dans ce domaine. En revanche, le recours à des corpus arborés

(treebanks) pour analyser les données n’est pas encore très fréquent en français. Il est

vrai que leur emploi n’est ni neutre, à cause des choix théoriques adoptés, ni parfait, à

cause d’éventuelles erreurs d’annotation et que l’exemple le plus connu, le French

Treebank, se limite au corpus journalistique du Monde. Ces facteurs expliqueraient

pourquoi certains préfèrent travailler à partir des données brutes. L’ampleur et la

qualité de l’analyse syntaxique changent aussi. D’une part, en se basant sur des corpus

pour définir une grammaire, on préfère donner des tendances descriptives plutôt que

des règles absolues, ce qui amène une certaine fragmentation dans la description.

D’autre part, la collaboration récente entre la linguistique de corpus et la linguistique

expérimentale peut aboutir à des interprétations plus raffinées des données de corpus,

notamment sur le plan des jugements de grammaticalité. L’avenir est à l’éclectisme,

mais la diversité des corpus et des méthodes utilisés requiert une certaine prudence. La

première étude syntaxique (Juliette Thuilier, Anne Abeillé et Benoît Crabbé) concerne

les préférences d’ordre des compléments postverbaux en français. Plusieurs études ont

déjà montré que la longueur de l’objet, le statut discursif et le sens verbal jouent un

rôle. La conclusion générale de la présente analyse est que 70,4 % des données

préfèrent l’ordre NP-PP, mais la longueur de l’objet et la sémantique du verbe sont

susceptibles d’inverser cet ordre. De plus, une analyse multifactorielle montre que ces

deux facteurs et le corpus sont significatifs, contrairement aux facteurs [±pronominal],

[±défini] ou [±animé] du NP ou du PP. Une deuxième étude (Nathalie Rigaud et José

Delofeu) porte sur l’ellipse modale et diffère de l’étude précédente par son caractère

inductif. On y montre que le fragment de surface est dans 75 % des cas une construction

idiomatique (p. ex. comme il faut) associée à une interprétation indépendante du

contexte. Dans les autres cas, le fragment occupe une position VP sans contenu lexical

et sans besoin de structure syntaxique. Habituellement, la reconstruction du VP se fait

grâce à un antécédent (trigger) explicite dans une phrase adjacente. Or, l’antécédent, un

verbe, est parfois assez éloigné et l’interprétation ne se fait pas toujours par un recours

à l’élément explicite, mais par inférence sémantique de l’ensemble du contexte. Par

conséquent, on présume que l’antécédent et le fragment ne forment pas pour autant

une unité syntaxique.

4 Les cinq chapitres de la troisième partie portent sur des études sociolinguistiques.

L’introduction (Virginie André et Henry Tyne) rappelle d’abord que dans la longue

tradition en dialectologie française, les méthodes utilisées ont été, et continuent d’être,

celles de l’interview et du protocole, bref celles orientées par la recherche même

(researcher-driven). Récemment, une approche écologique (speaker-driven) partant plutôt

des données de la situation communicative authentique s’instaure. Cependant, en

attendant de grands corpus pourvus de métadonnées sociolinguistiques, on se retourne

encore fréquemment à de petits corpus locaux. Une seconde observation concerne

l’influence de la masse de données disponible. Cette quantité peut dévier le focus du

domaine de recherche qui est plutôt la manière dont la langue est utilisée et non la

langue utilisée. Enfin, on constate une grande variation dans les théories et méthodes

utilisées, ce que les études suivantes démontrent. La première étude (Emmanuelle

Guerin et Roberto Paternostro) examine les caractéristiques de la langue des jeunes

(LDJ) et de ses locuteurs dans le corpus Multicultural Paris French (MPF). Il s’avère que les

traits de LDJ, à savoir l’emploi du /r/ arabisé, l’affrication de plosives et la structure de

Corpus, 15 | 2016

245

Page 247: Corpus de français parlé et français parlé des corpus

la prosodie finale ne se retrouvent pas que chez les jeunes immigrés de la banlieue

défavorisée. Une analyse du discours rapporté établit une relation entre les stratégies

discursives et prosodiques utilisées en LDJ et la proximité communicative. Plutôt qu’à

une langue, LDJ réfère à une situation communicative qui manifeste une grande

complicité entre les interlocuteurs. Une deuxième contribution (Heike Baldauf-

Quilliatre, Sylvie Bruxelles, Sabine Diao-Klaeger, Emilie Jouin-Cardon, Sandra Teston-

Bonnard et Véronique Traverso) traite de l’élément oh là là dans le Corpus de LAngue

Parlée en Interaction (CLAPI). L’analyse du corpus montre que cette particule assume des

fonctions évaluative et affective dans l’interaction. Mais, elle apparaît aussi comme

élément autonome où elle sert à attirer l’attention de l’interlocuteur. Ce n’est que grâce

à une analyse multimodale que le rôle de oh là là comme moyen de dramatisation

devient très apparent. Une troisième étude (Kate Beeching) décrit les caractéristiques

du marqueur discursif postposé quoi dans des corpus parallèles afin de vérifier si les

différentes traductions sont susceptibles de dévoiler un changement sémantique

diachronique. Trois corpus oraux (1968-2002) montrent d’abord que la fréquence de

quoi postposé a nettement augmenté. Les corpus parallèles d’INTERSECT et d’OPUS à

eux seuls ne sont pas en mesure de vérifier si cette hausse entraîne un enrichissement

pragmatique. Cependant, ensemble avec une analyse historique et un inventaire de

traductions équivalentes, on arrive à la conclusion que quoi postposé tend à perdre sa

force emphatique d’interjection (fonction subjective) en faveur de sens plus larges

(réflexif, interpersonnel et approximatif) à fonction intersubjective. Dans la quatrième

contribution, Fabienne Baider et Evelyne Jacquey vont à la recherche de préjugés

sexuels dans le discours socialiste de 2012 (Aubry versus Hollande). Une analyse du

corpus journalistique montre la perception des deux candidats : les données soulignent

le dynamisme d’Aubry et la faible personnalité de Hollande. Bien que ce soit Hollande

qui l’emporte dans le second tour, il n’y a aucune indication dans les données qui aurait

pu annoncer sa victoire. Aubry, comme Royal en 2007, sont estimées compétentes,

mais, bien que le discours ne manifeste pas de stéréotypes sexuels, elles semblent

exposées à une discrimination négative.

5 Les quatre chapitres de la dernière partie se concentrent sur l’application de corpus

dans un contexte d’apprentissage. Dans l’introduction (Alex Boulton et Henry Tyne), les

notions d’écologie et d’apprentissage sont mises en rapport. L’input ne devient intake

qu’à condition qu’il y ait une relation pertinente entre l’apprenant et son

environnement linguistique (affordance). Une manière de créer cette relation est en

travaillant sur des corpus. Une première étude (Tom Cobb) décrit ce que

l’implémentation de DDL (data-driven learning, approche inductive basée sur des

données de corpus) en français requiert. L’avantage d’une telle approche est que

l’apprenant s’aperçoit plus vite de certaines infos en L2 (p. ex. collocations fréquentes)

lorsque les données sont explicitées par le logiciel. Lextutor est un exemple d’un outil

qui s’inscrit dans la DDL permettant à l’apprenant d’entraîner sur corpus ses

compétences et connaissances en L2. Cependant, le nombre d’outils français en DDL est

encore très limité faute de corpus plus larges et d’une adaptation pédagogique. Une

seconde étude (Elodie Vialleton et Tim Lewis) examine dans quelle mesure

l’accroissement de nouveaux corpus oraux a influencé l’authenticité dans le matériel

éducatif pour des débutants adultes. Cependant, il s’avère que la plupart des dialogues

sont enregistrés en studio. De plus, il y a une nette différence entre les dialogues en

interaction naturelle et ceux du manuel au niveau de l’hésitation, des tours de parole et

de l’articulation. Les propriétés de la parole authentique ne se retrouvent pas (assez)

Corpus, 15 | 2016

246

Page 248: Corpus de français parlé et français parlé des corpus

dans les manuels. Par conséquent, les apprenants sont privés de la complexité de la

parole authentique ainsi que de stratégies pour l’acquérir. Une troisième étude (Maud

Dubois, Alain Kamber et Carine Skupien Dekens) présente une analyse de l’accord de

l’adjectif en L2 (niveau B1). Le corpus comprend des textes narratifs, argumentatifs et

des résumés rédigés par des locuteurs de six langues distinctes. Le nombre d’erreurs est

différent d’après la L1 mais connaît une répartition homogène sur l‘ensemble des

adjectifs attributifs et prédicatifs. L’accord est surtout problématique dans la position

post-nominale de l’adjectif attributif et lorsqu’il s’agit d’un adjectif au pluriel.

Beaucoup d’erreurs s’expliquent par une prononciation incorrecte. C’est pourquoi le

lien représentation phonétique - code écrit est crucial et mérite plus d’attention en

classe de langue.

6 Il est vrai que French through corpora plaît pour plus d’une raison. Primo, à cause de

l’organisation générale du livre. L’ouvrage ne manque pas d’articles forts et prévoit

chaque fois une introduction dans laquelle des représentants éminents du domaine de

recherche en question proposent des réflexions courtes mais pertinentes et où ils

établissent le lien entre le domaine et la méthodologie de corpus, ce qui rend le livre

très accessible à des chercheurs d’autres disciplines. Secundo, de l’approche

pronominale en syntaxe à l’analyse du discours (CDA, Critical Discourse Analysis), sa force

se situe incontestablement dans la richesse des disciplines linguistiques et des cadres

théoriques présentés. Compte tenu de cette diversité et du choix de publier en anglais

le livre est susceptible d’intéresser un grand public. La publication en anglais est un

signal international important et montre la progression dans le domaine de la

linguistique de corpus en français. Bien que plusieurs projets soient en cours, on peut

en effet (e.a. p. 134 et 287) regretter le retard d’un grand corpus de référence, équilibré

au niveau du genre. Mais, comme cet ouvrage et des bases de données (cf. Clarin, UGent

Corpus Finder) l’indiquent, pendant longtemps il n’a pas manqué de corpus, mais plutôt

d’études entièrement basées sur corpus. C’est précisément au niveau méthodologique

que nous aurions voulu que ce volume soit plus ambitieux. Le sous-titre annonce une

approche inductive, qui est l’approche généralement liée à la linguistique de corpus

(Tognini-Bonelli 2001 ; Teubert & Krishnamurthy 2007), impliquant un traitement

quantitatif et statistique (Biber & Reppen 2015 : 50-51). Or, nous constatons qu’un tiers

des articles n’est pas quantitatif, certaines études (Thuilier et al. et Beeching) sont

déductives (corpus based) et seulement deux études (Thuilier et al. et Vialleton & Lewis)

utilisent des techniques statistiques. Si l’on fait un effort pour analyser les fréquences

des phénomènes qu’on étudie, on devrait aussi vérifier si les différences observées dans

la fréquence sont également statistiquement significatives. Renoncer à une telle

analyse n’est pas seulement une chance ratée, mais cela augmente aussi le risque de

trouver une explication linguistique pour des résultats de corpus qui, en fait, sont dus

au hasard. Est-ce que nous devons en conclure que les auteurs n’ont pas atteint leurs

objectifs ? Non, si le contenu ne répond pas entièrement aux attentes créées par le

sous-titre, les auteurs ne se limitent pas à souligner l’importance de l’utilisation de

corpus. L’aspect innovateur de French through corpora consiste, d’une part, en une

discussion sommaire mais critique de l’état de la question méthodologique dans

plusieurs domaines de recherche. D’autre part, il contient plusieurs études de cas

empiriques intéressants sur le plan descriptif, méthodologique et théorique. Ceci dit, ce

travail se présente comme un véritable complément à des guides d’introduction à la

linguistique de corpus. Nous le recommandons non seulement aux linguistes actifs dans

une des disciplines discutées dans le livre, mais certainement aussi aux didacticiens.

Corpus, 15 | 2016

247

Page 249: Corpus de français parlé et français parlé des corpus

BIBLIOGRAPHIE

Biber D. & Reppen R. (2015). The Cambridge handbook of English corpus linguistics. Cambridge :

Cambridge University Press.

Teubert W. & Krishnamurthy R. (éd.) (2007). Corpus Linguistics. Critical Concepts in Linguistics. Vol. 1.

London : Routledge.

Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam : John Benjamins.

AUTEUR

FILIP VERROENS

Université de Gand

Corpus, 15 | 2016

248

Page 250: Corpus de français parlé et français parlé des corpus

Cécile ALDUY et Stéphane WAHNICH, Marine Le Pen prise aux mots.Décryptage du nouveau discoursfrontiste. Paris : Seuil, 2015, 311 p.Camille Bouzereau

1 Marine Le Pen prise aux mots s’ouvre sur le « mot de trop » susceptible de représenter

« l’abîme » séparant le discours de Jean-Marie Le Pen et celui de Marine Le Pen. Prenant

comme postulat de départ qu’il y a une stratégie de dédiabolisation dans le discours de

Marine Le Pen, Cécile Alduy1 et Stéphane Wahnich 2 se posent la question si cette

stratégie change pour autant le contenu idéologique. La question ainsi posée sous-tend

une réponse négative : L’abîme entre les deux discours est-il si grand ? Si le discours de

Jean-Marie Le Pen n’est pas ambigu, celui de la seconde présidente du parti demande

un décodage – et il s’agit bien de l’enjeu de l’ouvrage. Les deux auteurs proposent alors

une étude lexicale comparative des discours des deux leaders successifs du Front

national. Motivés par les scores nationaux croissants du parti ainsi que par le manque

d’études concernant le discours de la présidente du parti3, ils se donnent pour double

objectif de décrypter la logique interne du discours de Marine Le Pen, ainsi que celui de

comprendre la réception de son discours dans la société française actuelle.

2 Cécile Alduy et Stéphane Wahnich ont fait comme premier choix de borner leur corpus

à partir de l’élection de Marine Le Pen à la tête du parti (janvier 2011) jusqu’à novembre

2013. Concernant le discours de Jean-Marie Le Pen, les auteurs retiennent les dates

1987-2010. Leur second choix repose sur la nature des discours retenus : leur corpus est

fondé sur « les interventions publiques, destinées à être diffusées […] au public »

(p. 273). Enfin, en raison des multiples apparitions médiatiques de Marine Le Pen (plus

de 2 000 fois entre janvier 2011 et janvier 2014), les auteurs ont fait comme dernier

choix de ne retenir que les interventions « qui dépassaient 800 mots, ou environ cinq

minutes de parole » (id.). C’est à travers un corpus de 500 textes que Cécile Alduy et

Stéphane Wahnich se lancent donc dans une analyse comparative des discours des deux

présidents du parti.

Corpus, 15 | 2016

249

Page 251: Corpus de français parlé et français parlé des corpus

3 Leur étude lexicale se fait au moyen d’outils statistiques et rhétoriques. La lexicométrie

est une méthode assistée par ordinateur visant à prendre la mesure du discours en

conjuguant quantitatif et qualitatif. En effet, les logiciels tels Termino, Hyperbase et

Voyant-tools leur ont permis d’acquérir de solides bases statistiques (fréquences

lexicales, concordances et réseaux sémantiques). C’est ensuite par le biais de la

rhétorique, de la sémiotique et de la sociologie qu’ils choisissent d’analyser leurs

résultats.

4 Dès lors, l’ouvrage se décompose en trois parties dont les deux premières visent à

répondre à la question : que dit réellement Marine Le Pen ? La troisième partie cherche

à comprendre les causes d’une aussi grande réception de ce discours.

5 Première partie – Les mots

6 La première partie fait l’œuvre d’une collaboration entre les deux auteurs. L’enjeu est

d’analyser les mots que Marine Le Pen choisit pour mettre en discours le réel. Les

résultats statistiques sont nombreux et révèlent une recherche précise et pertinente de

la part des auteurs. Les analyses, quant à elles, confirment l’hypothèse de départ. Les

enjeux du discours visent à normaliser la parole frontiste sans en perdre la radicalité

ainsi qu’à faire du parti l’instrument puissant pour briser l’enfermement thématique.

Marine Le Pen modernise en effet son discours en apportant un nouveau champ

sémantique (par exemple il y a dans son discours une surexploitation du lexique

économique par rapport au discours du père). L’analyse de Stéphane Wahnich sur la

démocratisation souligne l’importance du sens donné aux mots : selon lui cette

démocratisation est surtout « cosmétique » (p. 51). Néanmoins, si le discours tend vers

la démocratisation, la locutrice du Front national n’en oublie pas pour autant la

rhétorique de l’extrême droite traditionnelle, à l’œuvre dans les discours de Jean-Marie

Le Pen. Et c’est ce que montre Stéphane Wahnich notamment par la répétition des

termes « Français », « nation », « peuple » qui créent un discours nationaliste. On

appréciera par ailleurs les comparaisons graphiques de Cécile Alduy concernant le

double discours de Marine Le Pen qui « ne sert pas les mêmes propos aux militants des

congrès et meetings du 1er mai et aux médias grand public » (p. 83). Dans une dernière

sous-partie, Cécile Alduy décrypte derrière les mots, le sens effectif et derrière le sens,

l’idéologie sous-jacente.

7 Deuxième partie – Mythologies

8 L’enjeu est ici de décrypter les signifiants profonds de ces discours, au niveau des

mythes, des figures de style, et du système anthropologique. Cécile Alduy examine

l’imaginaire lepéniste dans une perspective diachronique (puisqu’elle observe les

continuités et les évolutions qu’il y a entre les discours des deux leaders politiques).

Elle note que le mondialisme, formé à partir du suffixe « isme » est décrit comme

« monstre idéologique » afin de se présenter comme la solution unique (p. 149). Par

ailleurs, père et fille utilisent le « leitmotive d’avoir “prévu” tel ou tel aspect de la

situation contemporaine » (p. 160). L’auteure s’attache également aux répétitions

essentielles dans les discours des deux locuteurs qui permettent de « marteler […] les

mêmes idées, les mêmes exemples, exprimés dans les mêmes formules, preuves de la

cohérence et de la permanence d’une vision du monde imperméable aux événements »

(p. 178). Elle note bien sûr la convocation de l’Histoire à l’œuvre dans les deux corpus et

inscrit en parallèle les deux corpus dans un « corpus classique d’extrême droite »

(p. 182) en ce qu’ils refusent le changement – on regrettera ici une comparaison précise

avec un corpus d’extrême droite. Enfin, Cécile Alduy conclut sur le paradoxe du

Corpus, 15 | 2016

250

Page 252: Corpus de français parlé et français parlé des corpus

discours mariniste : d’une part, Marine Le Pen manie « une novlangue technocratique

pour des discussions de politique économique parfois absconses » (p. 184) et d’autre

part, elle se nourrit « d’un récit mythologique et hyperbolique dans la lignée de celui de

son père » (id.).

9 Troisième partie – Les conditions d’une réception favorable

10 Dans cette dernière partie, Stéphane Wahnich essaye de comprendre les motivations

des électeurs votant Front national. Selon lui, Marine Le Pen a récupéré l’électorat de

son père, puis l’a fait évoluer et prospérer (p. 187). Refusant un lien de causalité trop

simpliste entre la situation socio-économique et la montée du Front national (p. 188), il

préfère expliquer cette progression par les cinq causes suivantes : la logique

géographique (soit par l’opposition des centres-villes aux périphéries urbaines et par la

logique régionale qui montre une « réaction préventive des électeurs à l’égard de ce

que les médias leur rapportent » (p. 194)), l’impuissance des politiques d’autres partis

(impossibilité de formuler un discours d’explication, nombreux dérapages), le

changement sociétal amené par la mondialisation, l’accueil des médias (le Front

national offre une « garantie d’une belle audience » (p. 228)), et enfin la force de

l’idéologie du discours de Marine Le Pen qui propose un schéma explicatif du monde.

11 Conclusion – Le double discours de Marine Le Pen

12 En conclusion, Cécile Alduy récapitule et répond de façon nuancée à l’interrogation de

départ « Que dit Marine Le Pen ? ». La locutrice du Front national dit la même chose

que Jean-Marie Le Pen « mais souvent autrement […] car elle ajoute de nouvelles

thématiques » (p. 245). Néanmoins, elle s’éloigne de ce qu’il dit « car elle passe sous

silence certaines obsessions paternelles (l’antisémitisme, le racisme biologique) » (id.).

Par ailleurs, à la question concernant la réception du discours de Marine Le Pen,

l’auteure répond que la locutrice conjugue « mots » et « maux » (p. 256) pour donner une

forme aux peurs des citoyens. L’ouvrage se termine par une demande adressée aux

autres partis politiques reposant sur la nécessité d’une redéfinition de certains

concepts (p. 271).

13 Les recherches statistiques, nombreuses et pertinentes, permettent de répondre

quasiment entièrement aux questions posées. Néanmoins, les analyses auraient gagné à

être étoffées par une argumentation plus détaillée. Les auteurs le disent eux-mêmes,

l’ouvrage a été réalisé à partir d’une situation d’urgence (p. 23). Ils pourraient ainsi

développer leur première partie, en ne s’attachant pas uniquement au lexique, mais en

étudiant par exemple les stratégies discursives en général. Cet ouvrage destiné à un

large public provoquera, toutefois, l’envie de poursuivre leur démarche. L’analyse du

discours pourra en effet prendre exemple pour étudier les faits de langue

caractéristiques du discours du Front national.

NOTES

1. Professeure de littérature française à l’Université de Stanford.

2. Professeur-associé de communication politique et publique à l’Université de Paris-Est-Créteil.

Corpus, 15 | 2016

251

Page 253: Corpus de français parlé et français parlé des corpus

3. Il y a en revanche un ouvrage sur le discours de Jean-Marie Le Pen : Le Pen, les mots, analyse d’un

discours d’extrême droite, M. Souchard, S. Wahnich, I. Cuminal et V. Wathier (éd.), Paris, Le Monde

Éditions, 1997.

AUTEUR

CAMILLE BOUZEREAU

BCL, UMR 7320

Corpus, 15 | 2016

252