Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Corpus
15 | 2016Corpus de français parlé et français parlé descorpus
Electronic versionURL: http://journals.openedition.org/corpus/2912ISSN: 1765-3126
PublisherBases ; corpus et langage - UMR 6039
Printed versionDate of publication: 15 October 2016ISSN: 1638-9808
Electronic referenceCorpus, 15 | 2016, « Corpus de français parlé et français parlé des corpus » [Online], Online since 15January 2017, connection on 08 September 2020. URL : http://journals.openedition.org/corpus/2912
This text was automatically generated on 8 September 2020.
© Tous droits réservés
TABLE OF CONTENTS
IntroductionMathieu Avanzi, Marie-José Béguelin and Federica Diémoz
Les ESLO, du portrait sonore au paysage digitalOlivier Baude and Céline Dugua
Le Corpus FRAN : réseaux et maillages en Amérique françaiseFrance Martineau and Marie-Claude Séguin
Le projet ORFÉO : un corpus d’étude pour le français contemporainChristophe Benzitoun, Jeanne-Marie Debaisieux and Henri-José Deulofeu
Le Corpus de français parlé au Québec (CFPQ) et la langue des conversations familières :Exemple de mise à profit des données à partir d’un examen lexico-sémantique de la séquenceje sais pasGaétane Dostie
Corpus international écologique de la langue française (CIEL-F) : un corpus pour larecherche comparée sur le français parléLorenza Mondada and Stefan Pfänder
CLAPI, une base de données multimodale pour la parole en interaction : apports et dilemmesH. Baldauf-Quilliatre, I. Colón de Carvajal, C. Etienne, E. Jouin-Chardon, S. Teston-Bonnard and V. Traverso
Disfluences et vieillissement langagier. De la base de données VALIBEL aux corpus outillésen français parléCatherine T. Bolly, George Christodoulides and Anne Catherine Simon
PFC, codages et représentations : la question du schwaIsabelle Racine, Jacques Durand and Helene N. Andreassen
La liaison dans un corpus d’apprenants : Le projet « Interphonologie du FrançaisContemporain » (IPFC)Isabelle Racine and Sylvain Detey
Le CFPP2000 : constitution, outils et analyses. Le cas des interrogatives indirectesSonia Branca-Rosoff and Florence Lefeuvre
Construire un corpus pour des façons de parler non standard : « Multicultural ParisFrench »Françoise Gadet and Emmanuelle Guerin
De l’archive de parole au corpus de référence : la base de données orales du français deSuisse romande (OFROM)Mathieu Avanzi, Marie-José Béguelin and Federica Diémoz
La contribution des corpus oraux à la description de phénomènes de grammaticalisation.Que nous apprend le CFPB (Corpus de français parlé à Bruxelles) sur les périphrases en aller+ infinitif ?Emmanuelle Labeau and Anne Dister
Comptes rendus
Tommaso RASO et Heliana MELLO (éd.), Spoken corpora and linguistic studies.Amsterdam : John Benjamins Publishing, 2014, 498 p.Florence Lefeuvre
Corpus, 15 | 2016
1
Henry TYNE, Virginie ANDRÉ, Christophe BENZITOUN, Alex BOULTON et Yan GREUB (éd.), Frenchthrough corpora : ecological and data-driven perspectives in French language studies. Newcastle upon Tyne UK : Cambridge Scholars Publishing, 2014, 343 p.Filip Verroens
Cécile ALDUY et Stéphane WAHNICH, Marine Le Pen prise aux mots. Décryptage dunouveau discours frontiste. Paris : Seuil, 2015, 311 p.Camille Bouzereau
Corpus, 15 | 2016
2
IntroductionMathieu Avanzi, Marie-José Béguelin et Federica Diémoz
Le présent ouvrage n’aurait pas vu le jour sans le soutien généreux du Fonds National Suisse de
la recherche scientifique, du Décanat de la Faculté des Lettres et Sciences humaines de
l’Université de Neuchâtel, de l’Association William Pierrehumbert et du projet Encyclopédie
grammaticale du français (http:// encyclogram.fr). D’autre part, François Delafontaine et
Emmanuelle Narjoux ont contribué avec efficacité à la préparation matérielle et à la correction
du manuscrit. Que tous soient ici chaleureusement remerciés.
1 Depuis un peu plus d’une décennie, on assiste dans le domaine de la francophonie à un
intérêt croissant des chercheurs pour la constitution de grands corpus de français
parlé, si bien que le retard par rapport aux autres langues comme l’anglais, l’espagnol
ou le néerlandais, que regrettaient Bilger & Blanche-Benveniste (1999), est en train de
se réduire. De nombreuses publications visant à présenter les différentes bases de
données existantes (Bruxelles, Mondada, Simon & Traverso, 2009) ou à en faire le
recensement (Cappeau & Seijido, 2005 ; Cappeau & Gadet, 2007) ont vu le jour. Un guide
des bonnes pratiques (Baude, 2005) et des consortiums1 ont été mis en place afin que les
efforts des uns et des autres soient mieux canalisés, et que les corpus soient
comparables et inter-interrogeables.
2 Vers la fin des années 90, les discussions portaient essentiellement autour des
problèmes d’édition des enregistrements de français parlé, ou visaient à démontrer
l’importance des corpus de français parlé pour la description linguistique des langues.
Claire Blanche-Benveniste et son équipe ont largement contribué à alimenter le débat
et à faire avancer les mentalités. Grâce aux chercheurs aixois, le plaidoyer en faveur de
l’utilisation de corpus oraux pour la recherche n’est plus nécessaire aujourd’hui. Grâce
à eux également, l’idée selon laquelle le français parlé doit être transcrit en
orthographe standard, avec un minimum de recours aux trucages orthographique, est
plutôt bien acceptée dans la communauté. Parallèlement, les développements de
l’informatique ont donné naissance à toute une série de logiciels qui rendent les
transcriptions plus efficaces, plus précises et plus rapides, et qui permettent une
transcription synchronisée du texte avec l’audio et la vidéo sur des couches de
transcription distinctes mais parallèles. Plus personne, aujourd’hui, n’aurait l’idée de
procéder à des transcriptions d’enregistrements dans des éditeurs de texte. Enfin, il
Corpus, 15 | 2016
3
faut souligner que le stockage numérique et le développement de l’Internet ont
considérablement facilité l’archivage pérenne et l’échange de données, de même que
l’investigation via des concordanciers.
3 Dans ce contexte, nous avons pensé que le temps était venu d’établir un bilan sur l’état
des grands corpus de français parlé. Le présent ouvrage, qui reprend et complète des
présentations faites lors d’un colloque qui s’est tenu les 8 et 9 mai 2014 à la Faculté des
lettres et sciences humaines de l’Université de Neuchâtel, vise à faire le point sur les
aspects qui caractérisent quelques-unes des grandes collectes de données actuellement
développées en France métropolitaine et dans les autres pays de la francophonie. Au
total, treize corpus sont présentés dans ce recueil.
4 Les corpus en question contiennent des données enregistrées aux quatre coins de la
francophonie (corpus PFC, I-PFC et CIEL-F), des données de français « non
hexagonales », propres à des régions ou à des territoires déterminés (la Suisse pour
OFROM, la Belgique pour VALIBEL et CFPB, l’Amérique du Nord pour CFPQ et FRAN),
des enregistrements réalisés à Paris (CFPP, MPF) et à Orléans (ESLO) ou encore des
enregistrements regroupant des locuteurs d’origines diverses (CLAPI et ORFEO). Outre
le critère géographique, ces corpus se distinguent sur plusieurs points, plus ou moins
corrélés. Le premier point concerne la diversité des situations de parole : tous les
corpus contiennent des entretiens à dominante monologique et des conversations
(CFPP, CFPB, CFPQ, MPF et OFROM), d’autres y ajoutent des enregistrements de lectures
fabriquées pour l’étude de phénomènes phonologiques précis (PFC et IPFC), d’autres
encore contiennent des interactions entre pairs recueillies dans des contextes
écologiques variés (CLAPI, ESLO, FRAN, VALIBEL). Le second point concerne les objectifs
originaux qui ont guidé la constitution de ces corpus, souvent reliés aux préoccupations
théoriques des équipes ou des laboratoires à l’origine des projets : étude de la
grammaire et de la syntaxe (CFPB, CFPQ, ORFEO), du lexique, de la syntaxe et de la
phonologie (OFROM), de phénomènes phonologiques comme le schwa et la liaison (PFC,
IPFC), des interactions (CLAPI), des phénomènes discursifs (CFPQ), ou de plusieurs de
ces domaines en même temps dans une perspective sociolinguistique (ELSO, FRAN,
MPF, VALIBEL). Ces corpus diffèrent également par les supports de transcription et de
diffusion choisis. Tous contiennent des transcriptions réalisées avec des logiciels
permettant de lire la transcription synchronisée avec le son (Praat, Transcriber) ou la
vidéo (Elan, Clan), même si certains abritent encore de la parole transcrite dans des
éditeurs de texte, et en cours de numérisation (CLAPI, ESLO, VALIBEL). Un autre point
de comparaison concerne les annotations disponibles et diffusées en plus de la
transcription. Des corpus comme PFC et IPFC proposent des codages de phénomènes
phonologiques, d’autres un codage en parties du discours (CFPP, OFROM, ORFEO,
VALIBEL) ou des annotations pour l’étude des interactions (CIEL-F, CLAPI). Enfin, il
importe de le souligner, ces corpus se distinguent par leur taille : des CLAPI, ESLO, PFC
et VALIBEL contiennent plus d’un million de mots transcrits, alors que les autres sont
de taille plus modeste, parce que plus jeunes (CFPP, CFPQ, I-PFC, MPF, ORFEO, CFPB,
FRAN, OFROM).
5 Dans un souci de comparabilité et d’homogénéité, nous avons demandé aux auteurs de
respecter dans leurs contributions le format suivant : (i) présentation succincte du
corpus (bref historique ; nature des données traitées ; description des métadonnées,
format des transcriptions et des annotations) ; (ii) exposé des résultats d’une ou de
plusieurs études menées sur la base d’une partie au moins des annotations du corpus.
Corpus, 15 | 2016
4
Nous avons regroupé les articles selon le domaine de recherche que les différents
auteurs ont choisi de focaliser. La première partie regroupe les contributions portant
sur des problèmes méthodologiques associés à la constitution et l’annotation de corpus
hétérogènes, du point de vue tant de la diversité des situations de parole que de celle de
leur provenance (corpus ESLO, FRAN et ORFEO). La seconde partie regroupe les
contributions qui présentent des phénomènes discursifs, abordés dans les
présentations de CFPQ, CIEL-F, CLAPI et VALIBEL. Les textes consacrés aux phénomènes
phonologiques (corpus PFC et I-PFC), comme le schwa et la liaison, sont regroupés dans
la partie 3. La dernière série d’articles présente quant à elle les résultats d’analyses
relevant de l’étude du lexique, de la syntaxe et/ou de la prosodie (CFPP, MPF, OFROM,
CFPB, FRAN).
BIBLIOGRAPHIE
Bilger M. & Blanche-Benveniste C. (1999). « Français parlé-oral spontané. Quelques réflexions »,
Revue française de linguistique appliquée 4 : 21-30.
Baude O. (2006). Corpus oraux. Guide des bonnes pratiques. Paris : CNRS Éditions.
Bruxelles S., Mondada L., Simon A. C. & Traverso V. (2009). Grands Corpus de français parlé : Bilan
historique et perspectives de recherche (= Cahier de linguistique de Louvain 33/2). Louvain : Presses
universitaires de Louvain.
Cappeau P. & Seijido M. (2005). « Inventaire des corpus oraux en langue française », document
téléchargeable à l’adresse www.dglflf.culture.gouv.fr.
Cappeau P. & Gadet F. (2007). « Où en sont les corpus sur les français parlés ? », Revue française de
linguistique appliquée 12 : 129-133.
Gadet F. (2013). « Des corpus pour les français hors de France. Présentation de la banque de
données DGLFLF », document téléchargeable à l’adresse https://halshs.archives-ouvertes.fr/
halshs-00875894.
NOTES
1. Cf. par exemple les projets IRCOM (http://ircom.corpus-ir.fr/site/accueil.php) et ORTOLANG
(http://www.ortolang.fr).
Corpus, 15 | 2016
5
AUTEURS
MATHIEU AVANZI
Universités de Genève et de Zurich
MARIE-JOSÉ BÉGUELIN
Université de Neuchâtel
FEDERICA DIÉMOZ
Université de Neuchâtel
Corpus, 15 | 2016
6
Les ESLO, du portrait sonore aupaysage digitalESLO: from the sound portrait to the digital landscape
Olivier Baude et Céline Dugua
1 Les Enquêtes sociolinguistiques à Orléans (dorénavant ESLO) forment un grand corpus
oral de plusieurs millions de mots. Ce corpus a été réalisé à deux époques importantes
de la linguistique contemporaine. La première enquête (ESLO1), élaborée à la fin des
années soixante, accompagne la naissance d’une sociolinguistique urbaine fondée sur
un grand corpus d’enquêtes, et la seconde (ESLO2), commencée au début des
années 2000, a profité du tournant numérique produit par les Digital Humanities en
sciences humaines et sociales. Résolument ancrées dans le courant de la
sociolinguistique et de la linguistique variationniste, les ESLO forment le socle d’études
sur le français parlé à Orléans dans une perspective qui place les données au cœur
d’études sur la nature sociale de la langue.
2 Cet article vise à décrire le travail réalisé depuis une dizaine d’années par l’équipe du
projet des ESLO en le confrontant à ses cadres théoriques et méthodologiques. Après
avoir abordé brièvement l’ancrage sociolinguistique du statut des données et le
périmètre du français parlé, nous présenterons le travail réalisé afin de faire de ces
corpus un « objet scientifique disponible » et situé.
1. Sociolinguistique et corpus
3 La notion de corpus croise différentes approches parfois relativement éloignées selon
qu’on se situe dans une perspective de linguistique de terrain ou de linguistique
informatisée. Elle prend néanmoins un sens bien plus défini dans le cadre du
programme de la sociolinguistique tel qu’il a été établi dans la seconde moitié du
vingtième siècle.
Corpus, 15 | 2016
7
1.1 Nature sociale de la langue
4 La sociolinguistique s’est fondée sur une relecture pertinente de définition même de
l’objet de la linguistique et sur la volonté de couvrir l’ensemble du domaine.
Pour Labov, la sociolinguistique n’est pas une des branches de la linguistique, et pasdavantage une discipline interdisciplinaire : c’est d’abord la linguistique, toute lalinguistique – mais la linguistique remise sur ses pieds. Elle se fonde sur l’ambitionde remplir dans sa totalité le programme que la linguistique se donne dans sadéfinition moderne – et de l’outrepasser du seul fait de ne pas réduire son objet.(Encrevé, 1976 : 9)
5 Dans cette perspective, la sociolinguistique définit la langue comme étant partie prise et
partie prenante d’un social qui ne peut se réduire à un trésor collectif. Si le social est
divisé et lieu de luttes et d’enjeux qui le structurent, la langue en porte, dans sa nature
même, les caractéristiques qui font de la variation le principe même de celle-ci :
Une partie fondamentale des variations présentées par les paroles individuelles estelle aussi « instituée socialement », et par là même gouvernée par des règles : ellefait partie du système de la langue. Elle trouve normalement sa place dans la« linguistique interne » telle que la définit le CLG : « Est interne tout ce quiconcerne le système et les règles […] est interne tout ce qui change le système à undegré quelconque ». (Encrevé, 1976 : 11-12)
6 Cette conception de la variation comme composante inhérente de la langue a une
incidence directe sur la définition de l’objet d’étude sur lequel les linguistes doivent se
pencher. Si les variations linguistiques sont à étudier au sein du domaine de la
linguistique interne, la langue est bien le lieu où productions linguistiques et marché
linguistique sont étroitement liés selon une « grammaire de la réception » qui situe la
langue, comme le faisait déjà Saussure, dans le circuit de la parole :
Ainsi la langue d’un sujet, contrairement au sujet commun, ce n’est pas la languequ’il parle, c’est la langue qu’il entend. Or que reçoit l’oreille d’un sujet parlant :très précisément ce que la sociolinguistique veut enregistrer et que la linguistiqueactuelle refuse d’écouter, les multiples paroles dont l’ensemble hétérogène arriveraà former la langue de la communauté. (Encrevé, 1976 : 7)
7 Ainsi, la communauté linguistique doit être saisie en tant qu’organisation concrète
structurée et structurante des dynamiques sociales. C’est bien au cœur de celles-ci,
plutôt que dans une recherche illusoire d’une langue stabilisée au sein d’une
communauté homogène, qu’il faut aller observer la langue afin d’obtenir l’adéquation
observationnelle première que Chomsky lui-même réclamait.
Au total, c’est dans le caractère intrinsèquement social de la langue, dans l’intimitédu lien entre langue et communauté linguistique socialement qualifiée queWeinreich, Labov et Herzog (1968) voient la source première et le moteur duchangement linguistique. La communauté linguistique, rappellent-ils, est uneorganisation sociale concrète. Elle est donc, ex definitio, profondément hétérogène,divisée, hiérarchisée, structurée par des dynamiques sociales antagoniques. Lavariation et l’hétérogénéité linguistique d’une part, la variation et l’hétérogénéitésociale de l’autre, ne sont alors que les deux aspects du même réel social. C’est ainsiparce qu’il n’existe jamais de communauté homogène parfaitement stable qu’iln’existe jamais de langue homogène parfaitement invariante et stable. (Laks,2013 : 41)
8 Là encore, la langue ne peut se définir en dehors d’un réel social qu’il convient
d’appréhender pour toute étude sur la langue. Selon Bourdieu, l’expression linguistique
résulte d’une production émanant d’un habitus linguistique confronté à un marché
Corpus, 15 | 2016
8
linguistique (Bourdieu 1984 : 121). Il en découle que l’acquisition du langage met en jeu
des intériorisations socialement réglées. Ainsi, comme le souligne Encrevé :
Aussi la grammaticalité est-elle toujours de nature sociale quant à son origineconcrète pour un sujet : elle est toujours reçue et acquise assortie de sanctionssociales, dont la nature et l’importance varient avec le marché de la langue en cause– corrections, reprises, réprimandes dans la famille ; rire, moquerie de la part deségaux pour les dialectes dominés ; sanctions du marché scolaire, du marchématrimonial, du marché du travail pour les dialectes dominants. (Encrevé,1976 : 7-8)
9 Il est alors aisé de concevoir le changement linguistique comme un processus résultant
d’une lutte au sein de l’hétérogénéité des pratiques linguistiques évaluées socialement.
La boucle est bouclée, de l’acquisition du langage au changement linguistique, la
sociolinguistique offre un cadre théorique où la nature sociale de la langue est
maintenant clairement définie. Cette définition de l’objet de la linguistique par la
sociolinguistique se concrétise en premier lieu, et de manière centrale, autour de la
question des données.
1.2 Sociolinguistique et données
10 En effet, définir la langue comme un fait social, nécessite de l’observer comme une
pratique socialement située. C’est donc au sein même de l’activité sociale qu’elle
devient appréhendable :
Partie structurée d’un tout qu’elle structure, la langue, en effet, n’est jamais« donnée ». Les « données » de la langue dans son usage quotidien, telle que veutl’étudier Labov, ne sont « produites » qu’au terme d’un long chemin d’aveuglette oùse construit pas à pas une science de l’enquête linguistique qui est la premièreconquête de la sociolinguistique. (Encrevé, 1976 : 13)
11 Pour la sociolinguistique, il ne s’agit pas d’une simple question méthodologique qui
déterminerait l’observation des données comme une étape préliminaire à l’analyse
scientifique, bien au contraire la définition même des données et des conditions de leur
production sont au cœur du travail du linguiste. La première incidence concerne le
périmètre des données linguistiques. Comme le souligne Laks (2013), on ne peut
concevoir d’analyser des données linguistiques orphelines de l’habitus du locuteur et
du marché qui structure ses productions :
Observer la variation dans sa systématicité et rendre compte de l’hétérogénéitécomme étant structurée impose évidemment d’adopter une méthodologie adéquate.On sait en effet que décontextualisée, l’observation détruit la systématicité desphénomènes variables et les fait paraitre erratiques. Observer les faits linguistiqueshors de l’écosystème social qui les conditionne détruit en effet tout ce que lapratique doit précisément à son caractère pratique. C’est la raison pour laquellel’analyse de la variation systémique commence nécessairement par une réflexioncritique sur les observables. (Laks, 2013 : 36)
12 Dans les années soixante-dix, la réflexion sur la place des données a entraîné une
véritable science de l’enquête linguistique pour laquelle les avancées de la sociologie à
la même époque, depuis Bourdieu, Chamboredon et Passeron en 1968 jusqu’à Beaud et
Weber en 1997, ont été déterminantes en ce domaine. Parallèlement et parfois
simultanément à l’apport de la sociologie de l’enquête, la naissance du domaine de
l’analyse de conversations et les études sur les données « naturelles » ou plus justement
sur les données issues de « situations non provoquées par le chercheur » sont
Corpus, 15 | 2016
9
également des éléments essentiels du développement de la science de l’enquête
linguistique.
13 Enfin, le troisième domaine constitutif de cette démarche méthodologique et théorique
provient de la linguistique de corpus dans son versant « informatique et traitement
automatique du langage ».
1.3 Données et posture du chercheur
14 Dans cette perspective, la place des données devient prédominante, et le travail du
linguiste ne peut s’affranchir d’une démarche réflexive sur la méthodologie de
constitution et d’exploitation des données. Il lui revient alors de rendre explicite ses
motivations scientifiques, sa méthodologie de collecte, la description des données et le
traitement de celles-ci (Habert, 2005). C’est alors une véritable posture qui se profile
sur la base d’une confrontation scientifique qui doit rendre possible la disponibilité des
données, y compris pour un retour évaluatif ou contrastif, leur interopérabilité et leur
description fine. En outre cette posture ne peut s’affranchir d’une réflexion éthique et
juridique (Baude, 2006) sur les données, les locuteurs et le terrain non exempts
d’enjeux sociaux.
15 Il s’agit donc de définir une conception de la sociolinguistique et par-delà de la
linguistique, à partir de la relation de cette discipline aux données, nécessairement
variationnistes et situées. Ceci nécessite que le linguiste sache ce qu’il fait (Gadet, 2007),
dans la continuité d’une évolution méthodologique et théorique d’une science de
l’enquête à une science du corpus.
16 Les Enquêtes sociolinguistiques à Orléans, qui se concrétisent par un ensemble de deux
corpus réalisés à quarante années d’intervalle, offrent l’opportunité d’évaluer, à partir
de projets concrets, le cadre de ce positionnement.
2. Le français ordinaire
2.1 La recherche du français parlé
17 ESLO1 a pour origine un projet à finalité didactique. L’équipe constituée à la fin des
années soixante autour de Michel Blanc avait comme objectif de réaliser une méthode
d’enseignement audiovisuelle du français langue seconde à partir de documents
authentiques. Celui-ci est clairement défini dans un court article paru en 1971 (Blanc &
Biggs). À « une époque où le rôle essentiel de la langue parlée dans l’enseignement
d’une langue étrangère » venait d’être acquis, il a fallu « constituer un ensemble
cohérent de matériaux vivants, rassemblés de manière systématique » valable « à la fois
pour l’application pédagogique et pour la recherche sur la langue parlée ». Partant du
constat qu’une collection ordonnée de documents de ce type n’était pas disponible,
l’équipe a entrepris de collecter un vaste corpus représentatif du français parlé à partir
d’une enquête ciblée sur une ville « moyenne » française exempte de caractéristiques
trop marquées.
18 La démarche a d’emblée été résolument ancrée dans le champ de la sociolinguistique et
la variation fut au cœur du travail de définition de la représentativité du corpus :
Selon nous une recherche sociolinguistique impliquait une étude de la langue danssa diversité plutôt que comme un tout homogène et figé. En effet, même si on étudie
Corpus, 15 | 2016
10
un état de langue à un moment précis de l’histoire, il n’empêche qu’il offre unevariété à plusieurs niveaux : différences entre les générations, différencesdialectales entre communautés, différences entre les milieux sociaux, différencesliées aux conditions de production du discours. (Blanc & Biggs, 1971 :16)
19 Cette prise en compte de la diversité n’exclut pas, bien au contraire, la recherche d’une
langue partagée par une communauté linguistique. C’est ainsi que le projet s’est orienté
vers la réalisation du portrait sonore de la ville d’Orléans. Il s’agissait d’observer et de
capter à un moment précis, dans un lieu restreint, la dynamique des pratiques
linguistiques partagées par les habitants d’une cité. Le corpus est donc constitué d’une
collection d’entretiens de locuteurs socialement situés et catégorisés, mais aussi
d’enregistrements variés donnant accès au « français parlé dans une ville moyenne par
la population de la ville à une époque précise » (Blanc & Biggs, 1971).
2.2 La découverte du français entendu
20 La grande originalité pour l’époque et le parti pris très fort choisi par l’équipe ont été
de définir les pratiques linguistiques communes non pas par les productions de
locuteurs types mais par l’hétérogénéité des pratiques linguistiques entendues dans la
ville. Comme le soulignent Blanc & Biggs, « C’est une communauté d’auditeurs qui est
construite, autant qu’une communauté de locuteurs, à notre connaissance pour la
première fois en France […] On ne cherche pas “cet individu mythique, l’Orléanais
moyen” » (Blanc & Biggs, 1971 : 23). On est ici dans la même perspective de la
sociolinguistique que celle défendue par Encrevé, quelques années plus tard, quand il
reprend l’affirmation de Saussure selon laquelle la langue comme objet de la
linguistique se situe dans le circuit de la parole, pour préciser immédiatement que
pour Saussure la langue est entièrement, et exclusivement, du côté de l’audition, dela réception : on peut la (la langue) localiser dans la partie déterminée du circuit (deparole) où une image auditive vient s’associer à un concept ; c’est par lefonctionnement des facultés réceptives et coordinatives que se forment chez lessujets parlants des empreintes qui arrivent à être sensiblement les mêmes pourtous. Ces deux points sont manifestement reliés : seule l’audition met le sujet encontact avec la masse parlante. Ainsi la langue d’un sujet, contrairement aujugement commun, ce n’est pas la langue qu’il parle, c’est la langue qu’il entend. (Encrevé, 1977 : 6)
21 Nous le verrons dans le chapitre consacré à l’architecture des corpus des ESLO, ce cadre
théorique et ses incidences méthodologiques apportent une très forte identité à
l’ensemble du projet.
2.3 La linguistique du français parlé d’ESLO1 à ESLO2
22 Entre les deux enquêtes ESLO1 et ESLO2, la linguistique française a bénéficié des très
précieux travaux de Blanche-Benveniste et de l’école du GARS sur la description du
français parlé. Ces études, principalement grammaticales, ont incontestablement
marqué le champ de la discipline. Or, comme ces travaux du GARS reposent
essentiellement sur l’analyse de corpus, on peut s’attendre à une avancée importante
sur la description du français parlé et, simultanément, sur la méthodologie de corpus
entre les années soixante et les années deux mille dix. Si l’avancée a été majeure et
déterminante pour les travaux sur la syntaxe du français, elle n’a apporté qu’une
contribution très faible à la linguistique de corpus ou plus exactement à la linguistique
Corpus, 15 | 2016
11
sur corpus. La relation relativement distante entretenue entre les travaux du GARS et la
sociolinguistique explique ce rendez-vous manqué.
23 Quatre disciplines vont avoir une incidence plus forte dans la même période sur les
corpus de français parlé. Discipline compagne, la sociologie va opérer un lourd travail
sur le recueil des données et sur la méthodologie d’entretien qui reste une part
importante des corpus oraux. Parallèlement, la linguistique de l’interaction et plus
particulièrement l’Analyse de conversations va se développer très fortement et
proposer une nouvelle approche du recueil de données « non provoquées par le
chercheur ». Ensuite, le domaine de l’acquisition du langage fournira une méthodologie
très rigoureuse de grandes bases de données partagées (volet français du programme
CHILDES, notamment pour ce qui concerne l’adoption d’un format et d’un codage
communs (MacWhinney, 2000)) de corpus de productions d’enfants. Enfin, la recherche
en technologies de la parole, de la reconnaissance à la synthèse en passant par la
traduction repose sur le traitement de données orales massives.
24 La reprise du projet ESLO1 par l’équipe du CORAL (devenue LLL), en 2004, avec comme
perspective de rendre disponible l’intégralité du corpus1 et d’en constituer un nouveau,
devait nécessairement tenir compte des avancées apportées par ces disciplines.
25 Un bref bilan de l’impact de celles-ci révèle la qualité du travail précurseur des auteurs
d’ESLO1 et facilite la reprise du projet avec une forte continuité, même si plusieurs
choix sont caractéristiques de l’évolution d’ESLO2.
26 Outre le soin apporté à la technique de conduite d’entretiens, les principales évolutions
concernent l’intérêt accru pour assurer une représentation de l’hétérogénéité du panel
de locuteurs et des situations enregistrées (cf. chapitre sur l’architecture du corpus en
infra) et pour la description des langues en contact avec le français.
2.4 Conserver et diffuser le français ordinaire
27 Le bouleversement le plus fort concerne un élément peu fréquent jusqu’à très
récemment dans les projets sur les corpus de français parlé : celui de la conservation et
de la diffusion.
28 Pourtant, sur ce point aussi, ESLO1 était totalement précurseur.
29 Alors que, dix ans auparavant, les responsables du Français fondamental effaçaient les
enregistrements réalisés dans le cadre de ce projet d’ampleur internationale (Abouda &
Baude, 2007), les auteurs d’ESLO1 décidaient d’apporter un soin particulier au
catalogage de leurs enregistrements afin d’en assurer la meilleure diffusion. Ainsi, un
des six objectifs d’ESLO1 était de :
préparer et publier un catalogue descriptif et analytique des documents sonores etécrits, afin de les rendre disponibles aux chercheurs, notamment dans les domainesde la linguistique, de la sociologie et de la pédagogie des langues. (Lonergan, Kay &Ross, 1974 : 2)
30 Cette volonté affichée dès l’origine du projet aura une forte incidence sur son
développement. Elle porte la marque d’une relation particulière aux données et au rôle
de leur exploitation partagée dans la constitution d’un savoir collectif. C’est également
une reconnaissance de la légitimité de la langue parlée comme objet scientifique et
patrimonial. L’ESLO deviendra alors une référence sous le nom du Corpus d’Orléans et
Corpus, 15 | 2016
12
voyagera de la France à l’Angleterre, des Pays-Bas à la Belgique, au gré des nombreux
travaux de chercheurs dans une discipline en plein développement.
3. Le corpus des ESLO
3.1 Un très grand corpus
31 Le corpus des ESLO2 a comme objectif d’être un très grand corpus de français parlé
constitué de plusieurs centaines d’heures d’enregistrements afin d’atteindre une masse
de 10 millions de mots.
32 Il est composé du corpus ESLO1, qui est un corpus clos, réalisé entre 1968 et 1971, et qui
comprend 470 enregistrements d’une durée totale de 318 heures, ce qui représenterait,
selon l’estimation de l’époque, 4,5 millions de mots3.
33 Le corpus ESLO2, en cours de réalisation, affiche un objectif de plus de six millions de
mots pour 450 heures d’enregistrements.
34 Réunis dans une même base de données comprenant les enregistrements, leur
transcription orthographique et les métadonnées décrivant les documents, le contexte
d’enregistrement et les locuteurs, le corpus des ESLO est actuellement le plus grand
corpus de français parlé disponible pour la recherche en linguistique.
35 L’objectif du projet n’est pas de produire un corpus représentatif, mais d’offrir un
réservoir de corpus conçu dans un souci de représentativité des pratiques linguistiques
d’une communauté d’auditeurs dans une ville donnée, à des moments distincts. La
constitution d’un sous-corpus d’études à partir de ces données reste à la charge du
chercheur dans une démarche où la sélection des données est une étape fondamentale
de l’analyse. Il revient alors aux auteurs des ESLO de rendre disponibles les données
tout en les situant à la fois dans le cadre de leur contexte de production par les
locuteurs et de celui de production par l’équipe scientifique, y compris dans ses aspects
et contraintes technologiques.
36 Il ne s’agit donc pas de produire un corpus de masse de données sans en préciser
l’architecture et les cadres théoriques qui la conditionnent.
3.2 Architecture du corpus
37 La composition du corpus a subi une évolution sensible entre ESLO1 et ESLO2.
38 Comme nous l’avons indiqué, le corpus ESLO1 correspond déjà à une prise en charge
des variations linguistiques selon différents axes. Cette recherche de la variation s’est
concrétisée par une architecture qui, en donnant une place centrale aux entretiens en
face-à-face, a néanmoins intégré sept autres modules dédiés à la diversité des situations
de production de discours :
– Interviews sur questionnaires (interviews en face-à-face sur des questionnaires
standardisés, avec un échantillon statistique aléatoire, choisi d’après la liste INSEE du
recensement de la population 1968). 157 enregistrements, 182,5 heures.
– Opérations sur le vif : contacts (prises de contact, reprises de contact, ouverture et
clôture des entretiens enregistrés à l’insu du témoin). 55 enregistrements, 12,5 heures.
Corpus, 15 | 2016
13
– Opérations sur le vif : témoins en situations sociales ou professionnelles
(enregistrements de témoins INSEE dans des situations sociales ou professionnelles,
faits en l’absence des chercheurs). 16 enregistrements, 14,5 heures.
– Communications téléphoniques. 50 enregistrements, 2,15 heures.
– Interviews sur mesure (entretiens avec des individus choisis selon leur rôle dans la
« microsociété » orléanaise). 45 enregistrements, 48,33 heures.
– Conférences-débats (conférences-débats ou discussions à plusieurs participants, les
dernières comportant souvent des témoins INSEE). 26 enregistrements, 34,15 heures.
– Enregistrements divers (enregistrements divers comportant des témoins inconnus,
visites d’atelier, marchés, magasins, etc.). 84 enregistrements, 14,33 heures.
– CMPP (interviews au Centre médico-psychopédagogique, parents d’élèves et
assistante sociale). 37 enregistrements, 10 heures.
39 L’ensemble de ces modules est décrit dans le catalogue original (Lonergan, 1974 : 1) et
présenté sur le site de diffusion du corpus ESLO4.
40 L’architecture va considérablement évoluer dans le cadre du corpus ESLO25 afin de
prendre en compte l’avancée méthodologique et théorique réalisée entre 1968 et 2008.
Par exemple, l’évolution technologique a une forte incidence sur la collecte des corpus
oraux. Si les auteurs d’ESLO1 se félicitaient de disposer de matériel d’enregistrement
peu volumineux (de la taille d’une petite valise), et léger (à peine 7 kg), l’équipe d’ESLO2
dispose d’un matériel numérique offrant les possibilités d’équiper des locuteurs de
micro-cravates HF pour une qualité d’enregistrement de tout premier ordre. Ainsi,
pour l’un des modules qui consiste à enregistrer l’intégralité de ce qu’une personne
entend pendant 24 heures, les locuteurs sont équipés d’un micro les accompagnant
dans toutes les activités de la vie quotidienne, de la toilette à la soirée entre amis en
passant par l’activité professionnelle et les conversations familiales.
41 Cette évolution technologique s’accompagne d’un engouement fort pour la captation
d’enregistrements les plus diversifiés dans des situations non provoquées par le
chercheur selon les objectifs de l’Analyse de conversations.
42 L’objectif de dresser un portrait sonore ne peut donc se résumer à la collecte
d’entretiens selon un échantillonnage sociologique. Il convient également d’élaborer
une architecture de corpus qui permet de rendre compte de la diversité des situations
de production et d’audition. Force est de constater qu’ESLO1 était balbutiant sur cet
aspect. Si les entretiens ont été réalisés avec beaucoup de rigueur, les autres types
d’enregistrements sont très souvent de très mauvaise qualité et correspondent à des
objectifs peu maîtrisés. La tentative d’enregistrer la même personne dans diverses
situations s’est réduite à de simples tests sur quelques locuteurs. ESLO2 a donc comme
ambition de présenter une forte évolution de la méthodologie de collecte de situations
variées et représentatives des pratiques d’une communauté.
43 C’est toute l’architecture du corpus qui doit être modifiée afin de prendre en compte
une grande diversité de situations de productions linguistiques tout en les situant au
sein d’un marché linguistique plus général.
44 Le premier effet de ce changement est de pondérer la place des entretiens par rapport à
d’autres types d’enregistrements. Les graphiques suivants qui expriment en nombre
d’heures et en pourcentage la place de chacun des modules pour les deux corpus,
rendent compte de ce changement.
Corpus, 15 | 2016
14
Figure 1. ESLO1
Figure 2. ESLO2
3.3 Catégorisation des modules
45 L’architecture d’un corpus ne peut se résumer au pourcentage des genres, styles ou
situations représentées. Elle nécessite également une réflexion sur la pertinence de ces
catégories au sein d’une structure globale.
46 Ainsi, assurer la collecte de la diversité des pratiques linguistiques répond à un objectif
d’enquête sociolinguistique et de description linguistique. Le conditionnement en
corpus numérique du résultat de cette collecte nécessite un travail de catégorisation
Corpus, 15 | 2016
15
des modules constituant l’architecture du corpus. Cette catégorisation se doit d’être
explicite et disponible à des fins de traitement des données. La classification habituelle
dans les corpus de français parlé repose sur une opposition simpliste entre discours
public et discours privé décrivant le niveau de formalité des énoncés.
47 Ainsi, le Corpus de référence du français parlé , réalisé par Claire Blanche Benveniste et
l’équipe DELIC à partir de 1998, repose sur une structure en trois modules : parole
privée, parole professionnelle et parole publique. Cette distinction est assez
rudimentaire si on se réfère aux travaux de l’analyse de conversations ou même à la
description des registres de langue (Koch & Oesterreicher, 2001).
48 Le corpus ESLO2 est l’occasion de tenter une description des registres, styles ou types
de situation en partant des caractéristiques a priori et, a posteriori, des différents
modules.
49 Chaque module est décrit a priori, c’est-à-dire avant la collecte et non sur la base d’une
analyse du contenu, selon les critères suivants :
– Degré de planification du discours (en opposant le registre « spontané » de la
conversation ordinaire à celui de conférences où le discours est écrit),
– Degré d’interactivité (du monologue au dialogue et autres conversations relevant
d’un travail conséquent d’interaction),
– Degré de distance sociale entre les interactants (à partir des critères traditionnels de
la sociologie : âge, sexe, niveau d’études, profession),
– Degré de convergence (de la polémique au consensus),
– Degré de formalité du cadre (au sens de Goffman, chaque situation pouvant se définir
selon un cadre social impliquant des statuts, rôles et comportements langagiers).
50 Chacun de ces critères est évalué sur une échelle de 0 à 10, et le module peut être
visualisé selon la forme obtenue par un graphique en radar :
Figure 3. Les différents modules constitutifs de l’architecture ESLO2
Corpus, 15 | 2016
16
51 Cette démarche permet de décrire l’architecture du corpus en affinant une prise en
compte des axes traditionnels qui situent un contexte de production de discours selon
le degré de formalisme de la situation sociale d’une part et le degré de planification de
l’énoncé d’autre part.
Figrue 4. Les différents discours selon les axes classiques
52 Cette représentation de l’architecture du corpus répond à deux objectifs.
Premièrement, il s’agit de définir avec précisions les différents modules qui composent
le corpus complet en situant les situations enregistrées selon les critères de la
sociologie et de la pragmatique. Cela répond à une conception des pratiques
linguistiques comme relevant systématiquement d’un contexte, qui n’est autre qu’un
marché linguistique au sein duquel les locuteurs mobilisent des comportements
langagiers dans un but d’interaction.
53 Deuxièmement, l’évaluation des modules selon différents critères permet un travail
réflexif sur une définition a priori et un constat a posteriori à partir des données précises
de la situation enregistrée. Ainsi, si le module « entretien » répond globalement à une
définition selon les critères présentés, celle-ci va être pondérée pour chaque entretien.
L’évaluation de la distance sociale et du degré d’interactivité peut par exemple être très
différente d’un entretien à l’autre et déboucher sur une représentation proche d’une
conversation ordinaire dans un cas ou d’un discours public ou médiatique dans un
autre.
54 In fine, cette réflexion sur l’architecture du corpus permet de concevoir ESLO2 comme
un corpus ouvert sans pour autant le réduire à un empilement, opportuniste et sans fin,
d’enregistrements variés.
Corpus, 15 | 2016
17
3.4 État du corpus
55 L’ensemble des enregistrements est maintenant numérique. L’intégralité des
enregistrements ESLO1 a été numérisée dans le cadre du dépôt du fonds à la
Bibliothèque nationale de France. ESLO2 est nativement collecté en numérique à l’aide
de différents matériels selon les contraintes des modules6. Si ESLO1 est un corpus clos,
la collecte d’ESLO2 continue à la date de la rédaction de cet article.
56 Tous les enregistrements sont catalogués et indexés (cf. chapitre suivant), et la
transcription de l’intégralité des corpus est en cours.
57 Les opérations de formatage, catalogage et transcription sont excessivement lourdes, ce
qui explique le peu de corpus d’envergure disponibles. Face à cette difficulté, les
chercheurs se replient souvent vers un usage du corpus restreint à leur recherche. La
particularité forte du projet des ESLO est au contraire de maintenir un objectif
scientifique clairement identifié tout en attribuant au corpus une valeur patrimoniale
et scientifique qui dépasse le cadre du projet initial. Il en résulte un vaste chantier de
traitement du corpus qui sera détaillé dans la dernière partie de cet article. Nous
pouvons néanmoins faire état de l’avancement de ces opérations. Ainsi, au 1er mai 2015,
le corpus des ESLO est composé de :
Figure 5. Composition d’ESLO
Enregistrements Transcrits
Nb. Heures Nb. Heures
ESLO1 468 318 336 274
ESLO2 590 266 583 259
TOTAL 1 058 584 919 533
4. Un corpus pour les humanités numériques
4.1 Le temps des humanités numériques
58 Le projet de diffusion des ESLO au début des années 2000 est contemporain de la
mutation des sciences humaines et sociales dans ce qu’on appelle dorénavant le
tournant des Digitals Humanities ou humanités numériques, voire humanités digitales (Le
Deuff, 2014)7. Les discussions sur ce que sont les humanités numériques sont vives, et la
définition reste très ouverte. Il ne s’agit pas d’entrer ici dans une vaste discussion sur la
pertinence d’une approche en termes de naissance d’une discipline, d’une trans-
discipline ou d’une appropriation d’outils numériques par des disciplines
traditionnelles, nous nous contenterons de constater que la linguistique est en
première ligne d’un questionnement sur les conditions de constitution, de diffusion et
de partage d’un savoir transformé par le croisement de l’informatique, du numérique
et des arts et lettres, au sein des sciences humaines et sociales. Ces grands principes ont
été définis dans le Manifeste des Digital Humanities8.
Corpus, 15 | 2016
18
59 D’une manière plus concrète encore, nous présentons ici les principales
caractéristiques qui inscrivent le projet des ESLO dans cette approche des corpus en
sciences humaines et sociales. Le soin apporté à la diffusion d’ESLO1, en 1974, en
réalisant un « catalogue descriptif et analytique des documents sonores et écrits, afin
de les rendre disponibles aux chercheurs (Lonergan, 1974 : 2) » peut être interprété
comme la première pierre posée dans l’édifice d’un corpus qui dépasse les enjeux de
l’étude des auteurs. La seconde pierre viendra de l’équipe de Piet Mertens et du projet
ELICOP, quelque trente ans plus tard, en rendant accessible une partie du corpus après
un lourd travail de normalisation des conventions de transcription et même
d’annotations morphosyntaxiques contenues dans des balises au format SGML. Ce
travail s’appuie sur les perspectives dressées par la linguistique de corpus telle qu’elle
est définie par Habert, Nazarenko & Salem en 1997, mais n’est pas encore directement
orienté vers un traitement d’ensemble.
60 C’est à partir de 2004, avec la numérisation d’ESLO1 et le souhait de rendre le corpus
intégralement disponible pour des usages scientifiques mais aussi culturels, que
l’édifice s’ancrera définitivement dans les humanités numériques.
4.2 L’interopérabilité et l’archivage
61 La question de la réutilisation d’un corpus n’est pas anodine et ne va pas de soi. Il ne
s’agit pas ici d’affirmer que toute recherche linguistique doit s’appuyer sur un corpus et
que tout corpus peut être réutilisé pour d’autres recherches. Rien n’est moins sûr, mais,
dans le cas des ESLO, c’est un parti pris affirmé par les différents auteurs du projet. Le
périmètre du projet est de fait vaste, il s’agit de produire le portrait sonore d’une ville
en faisant l’hypothèse que le corpus produit peut être utile à diverses recherches en
linguistique, sociologie, histoire, didactique, et acquiert ainsi une dimension
patrimoniale qui a également pour effet de légitimer le français tel qu’il est parlé dans
sa très grande diversité.
62 L’objectif affirmé est donc de disposer de données répondant à un critère
d’interopérabilité. Celui-ci se concrétise à différents niveaux.
63 Premièrement, les enregistrements sont conservés dans un format numérique selon les
recommandations d’une structure internationale, l’International Association of Sound and
Audiovisual Archive9.
64 Deuxièmement, les documents sont systématiquement accompagnés de métadonnées
descriptives. Le choix retenu est celui du format DUBLIN-CORE Open Language Archives
Community10. Il s’agit d’un choix minimal qui a été repris dans le cas de diffusions liées à
d’autres objectifs. Ainsi, le format CMDI11 est celui utilisé dans la perspective
européenne CLARIN, le format EAD12 par la BNF pour l’intégration à son catalogue
Archives et Manuscrits, et l’EDM dans le cadre de la bibliothèque européenne Europeana13.
65 Troisièmement, les enregistrements sont transcrits et synchronisés avec le signal
sonore selon des conventions minimales14 répondant à un format interopérable. Le
format choisi est un format XML qui est ensuite repris pour un enrichissement en TEI
(TEIML15). Les transcriptions sont segmentées en unités prosodiquement,
syntaxiquement et sémantiquement cohérentes afin d’assurer une synchronisation à
l’aide de jalons temporels fréquents. La transcription proposée repose sur des
conventions minimales. À ce stade, il s’agit de répondre à un simple objectif de
Corpus, 15 | 2016
19
navigation dans le corpus. Pour toute analyse ultérieure, une reprise de la transcription
avec des conventions répondant aux cadres théoriques du chercheur est indispensable.
66 L’ensemble de ces choix permet l’utilisation d’un service d’archivage. Expérimenté dans
le cadre du projet pilote sur l’archivage de l’oral par le TGE ADONIS puis poursuivi par
la TGIR HUM-NUM, les données (enregistrements, transcriptions et métadonnées) sont
confiées à la plateforme Cocoon16, qui en assure le stockage sécurisé sur la grille Huma-
Num hébergée au centre de calcul de l’IN2P3. Pendant cette phase, Cocoon assure des
services de contrôle de la qualité des données puis verse les données au Centre
informatique national de l’enseignement supérieur pour une conservation
intermédiaire, avant de rejoindre les Archives nationales pour un archivage définitif.
Parallèlement, les bandes magnétiques originales ont été confiées au service sonore du
département de l’audiovisuel de la BNF.
67 Les opérations d’archivage sont également l’occasion d’attribuer un identifiant unique
et pérenne à tous les documents constitutifs du corpus.
4.3 Les aspects juridiques
68 La diffusion du corpus est bien évidemment liée à des aspects juridiques. Sur ce point,
le projet a bénéficié du travail diffusé par le Guide des bonnes pratiques 200617.
69 Le choix de l’équipe a été d’apporter beaucoup d’attention à une démarche éthique en
recueillant le consentement éclairé de toutes les personnes enregistrées18. Les
enregistrements et les transcriptions sont également anonymisés et les données
personnelles conservées dans une base de données séparée.
70 Les données sont diffusées sous licence Creatives Commons19 (BY NC SA : Attribution,
pas d’utilisation commerciale et partage dans les mêmes conditions) : le titulaire des
droits autorise l’exploitation de l’œuvre originale à des fins non commerciales, ainsi
que la création d’œuvres dérivées, à condition qu’elles soient distribuées sous une
licence identique à celle qui régit l’œuvre originale.
4.4 Le signalement et la diffusion
71 La conservation des données étant assurée à différents niveaux (stockage sécurisé,
conservation intermédiaire et archivage pérenne), et les aspects juridiques ouverts à
une large diffusion, il faut en assurer l’accès pour différents usages.
72 Sur ce point, le soin apporté à l’interopérabilité devient crucial.
73 Les données ESLO sont accessibles sur un site dédié au projet20, géré par l’équipe du
Laboratoire ligérien de linguistique et hébergé sur la grille Huma-Num.
74 Le site, réalisé à l’aide du CMS Joomla et intégrant une application, a été conçu en trois
parties :
– Une interface « back office » qui permet la gestion du corpus. Cette interface permet,
à l’aide de formulaires, de renseigner les métadonnées et dispose de fonctionnalités
pour attribuer aléatoirement les identifiants anonymes, transférer les fichiers sonores
et les transcriptions sur la plateforme Cocoon et pour accéder à une base de données
mysql qui contient les transcriptions et les métadonnées.
– Une interface d’accès aux corpus avec des outils spécifiques. L’accès aux corpus se fait
par une recherche des documents dans leur intégralité, sous la forme d’un catalogue ou
Corpus, 15 | 2016
20
par la recherche d’une chaîne de caractères au sein des transcriptions. Un outil de
requête permet de croiser les critères de recherche sur les transcriptions avec les
informations sur les documents et les locuteurs.
75 Un second outil offre la possibilité d’écouter l’enregistrement synchronisé sur le signal.
76 Enfin, l’ensemble des documents est téléchargeable directement soit pour tout
utilisateur du site soit pour un utilisateur ayant signé une convention lorsqu’il y a des
restrictions juridiques.
– La dernière fonctionnalité du site est d’offrir un contenu éditorial principalement
orienté vers les documents méthodologiques : conventions et guides de transcriptions,
documents techniques et juridiques, documents scientifiques.
77 Cette diffusion du corpus par un site spécifique répond principalement aux objectifs du
Laboratoire ligérien de linguistique. La gestion des données, selon de bonnes pratiques
d’interopérabilité et d’archivage, permet un signalement et une diffusion beaucoup
plus large.
78 Ainsi, la plateforme Cocoon propose un entrepôt exposant les métadonnées en Open
Archive Initiative. Le corpus des ESLO est donc signalé par tout instrument reposant
sur un moissonnage en OAI. C’est notamment le cas de la plateforme ISIDORE21, qui
permet la recherche et l’accès aux données numériques en sciences humaines et
sociales. Au 1er mai 2015, une recherche sur ESLO dans le moteur d’ISIDORE apporte
2 001 réponses, soit l’ensemble des documents disponibles à ce moment-là dans la
collection ESLO de l’entrepôt Cocoon.
79 Comme ESLO existe également sous la forme de bandes magnétiques originales
conservées et décrites par la BNF, le corpus est également signalé dans ses catalogues.
80 Enfin, le corpus des ESLO a été naturellement intégré à l’EQUIPEX ORTOLANG22 dont
l’objectif est de gérer une « infrastructure en réseau offrant un réservoir de données
(corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement
clairement disponibles et documentés ».
4.5 Le web de données
81 Les réflexions sur la structuration des données et des métadonnées et la gestion de la
diffusion du corpus des ESLO permettent un travail exploratoire dans le cadre du web
de données (ou web sémantique). Cette étape concrétise la volonté de construire un
corpus réutilisable pour une grande variété d’usages. Le web de données vise à publier
des données structurées sur le web, afin de les relier entre elles et donc d’enrichir un
réseau d’informations. Elle nécessite l’utilisation, dans un format spécifique, de
vocabulaires, référentiels et ontologies facilitant le liage des données.
82 Nous pouvons citer quelques exemples d’expérimentations en cours auxquelles
participe ESLO :
– la plateforme ISIDORE, qui repose sur les principes du web de données,
– data.bnf.fr, le projet qui donne accès aux données contenues dans ses catalogues et
dans Gallica,
– le programme Sémantisation du Corpus de la parole du ministère de la Culture,
– le projet « Cabinet de curiosités des langues de France », réalisé dans le cadre de
l’appel à propositions « services culturels innovants du ministère de la Culture ».
Corpus, 15 | 2016
21
83 Ces différents projets sont trop récents pour en tirer un premier bilan. Un seul exemple
peut néanmoins démontrer l’intérêt de rendre un corpus disponible selon les pratiques
en vigueur dans le domaine du web de données. Une recherche sur le terme
« abattoirs » permet, par l’outil data.bnf.fr, de signaler, d’écouter et de télécharger
l’enregistrement d’ESLO consacré à l’entretien d’un boucher d’Orléans, et la même
requête sur ISIDORE permet de trouver une correspondance entre cet enregistrement
et un entretien sur le même thème réalisé par des sociologues à Toulouse, dans les
années 1960.
5. Conclusion
84 Le corpus des ESLO a été réalisé par des linguistes et il a donné lieu à de très nombreux
travaux en linguistique. Après les différentes recherches en phonologie, syntaxe,
prosodie, lexique, et autres domaines engendrés par ESLO1, l’équipe d’ESLO2 réalise
différentes études directement issues d’une analyse du corpus ou fondées sur une
comparaison avec d’autres corpus23. À partir d’ESLO1, une méthode d’apprentissage des
langues particulièrement innovante24 a été réalisée et des travaux sont en cours de
réflexion dans le cadre d’un usage didactique du corpus ESLO2.
85 On peut donc considérer que l’objectif d’obtenir un portrait sonore d’une communauté
d’auditeurs d’une même ville est une source importante d’études linguistiques et
d’applications liées.
86 Il convient néanmoins d’être prudent, ce portrait sonore ne peut se résumer à des
enregistrements divers et variés sans un cadre théorique qui fait de la linguistique de
corpus une discipline qui doit entendre autant si ce n’est plus, la sociolinguistique que
la linguistique outillée par l’informatique.
87 Le tournant des humanités numériques est l’occasion de repenser cette définition de la
linguistique sur corpus afin de définir une véritable science des données linguistiques.
Face à ce défi, le linguiste doit maîtriser l’ensemble de la chaîne qui le conduit à
travailler, exploiter et diffuser ces données collectées qui ne lui sont jamais
« données ». Il est aussi important qu’il prenne conscience que cette science relève d’un
domaine au sein duquel il n’est pas le seul acteur.
BIBLIOGRAPHIE
Site ESLO : http://eslo.huma-num.fr
Abouda L. & Baude O. (2009). « Du français fondamental aux ESLO », in Bruxelles, Mondada,
Simon, Traverso (éd.) Grand corpus de français parlé, Bilan historique et perspectives de recherche.
Cahiers de linguistique, Revue de sociolinguistique et de sociologie de la langue française 33/2,
Louvain : EME, 131-146.
Abouda L. & Baude O. (2007). « Constituer et exploiter un grand corpus oral, choix et enjeux
théoriques : le cas des ESLO », in actes du colloque Corpus en lettres et sciences sociales, Des
Corpus, 15 | 2016
22
documents numériques à l’interprétation. Colloque d’Albi, Langages et signification, juin 2006,
Presses universitaires de Toulouse : 161-168.
Baude O. & Bergounioux G. (à paraître). « L’ESLO : une enquête en son temps », in Linguistique de
corpus : une étude de cas, La recette de l’omelette, dans l’enquête socio-linguistique à Orléans (ESLO).
Paris : Champion.
Baude O. & Lacheret A. (à paraître). « The collection of data for the Rhapsodie Treebank :
typological criteria and ethical issues », in A. Lacheret, S. Kahane & P. Pietrandrea (éd.) Rhapsodie :
a Prosodic and Syntactic Treebank for Spoken French, coll. Studies in Corpus Linguistics. Amsterdam :
Benjamins.
Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf,
linguiste ? », Corpus 10 : 99-118.
Baude O. & Dugua C. (2015). « Usage de la liaison dans le corpus des ESLOs : vers de nouveaux (z)
ouvrages de référence ? », in Dostie & Hedermann (éd.) La dia-variation en français actuel. Bern :
Peter Lang, 349-371.
Baude O. (coord.) (2006). Corpus oraux, guide des bonnes pratiques. Paris et Orléans : Éditions du
CNRS et Presses universitaires d’Orléans.
Beaud S. & Weber F. (1997). Guide de l’enquête de terrain : produire et analyser des données
ethnographiques. Paris : La Découverte.
Bergounioux G., Baraduc J. & Dumont C. (1992). « L’étude sociolinguistique sur Orléans
(1966-1991) : 25 ans d’histoire d’un corpus », Langue française 93 : 74-93.
Biggs P. & Dalwood M. (1976). Les Orléanais ont la parole : Teaching Guide and Tapescript. Londres :
Longman (Livre du maître).
Biggs P. & Dalwood M. (1976). Les Orléanais ont la parole. Londres : Longman (Livre de l’élève).
Blanc M. & Biggs P. (1971). « L’enquête sociolinguistique sur le français parlé à Orléans », Le
français dans le monde 85 : 16-25.
Blanche-Benveniste C. et al. (1990). Français parlé. Études grammaticales. Paris : CNRS.
Bourdieu P., Chamboredon J.-C. & Passeron J.-C. (1968). Le Métier de sociologue. Paris : Mouton de
Gruyter/Bordas.
Bourdieu P. (1984). « Le marché linguistique », Questions de sociologie. Paris : Editions de Minuit.
De Jong D. (1988). Sociolinguistic aspects of French Liaison, Academisch proefschrift. Amsterdam : Vrije
Universiteit Amsterdam.
Équipe DELIC (2004). Autour du Corpus de référence du français parlé (= Recherches sur le français
parlé n° 18). Aix-Marseille : Publications de l’université de Provence.
Encrevé P. (1976). « Présentation », in W. Labov, Sociolinguistique. Paris : Éditions de Minuit.
Encrevé P. (1977). Linguistique et sociolinguistique. Langue française 34.
Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). « Un grand corpus
oral “disponible” : le corpus d’Orléans 1968-2012 », Ressources linguistiques libres, Traitement
automatique des langues 52/3 : 17-46.
Gadet F. (2007). La variation sociale en français. 2e édition. Paris : Ophrys.
Habert B., Nazarenko A. & Salem A. (1997). Les Linguistiques de corpus. Paris : Armand Colin.
Habert B. (2005). Instruments et ressources électroniques pour le français. Gap, Paris : Ophrys.
Corpus, 15 | 2016
23
Jacobson M. & Baude O. (2012). « Corpus de la parole : collecte, catalogage, conservation et
diffusion des ressources orales sur le français et les langues de France », Ressources linguistiques
libres, Traitement automatique des langues 52/3 : 47-69.
Koch P. & Oesterreicher W. (2001). « Langage oral et langage écrit », in Lexicon der Romanistischen
Linguistik, tome 1-2. Tubingen : Max Niemeyer, 584-627.
Laks B. (2013). « Why is there variation instead of nothing », Language Sciences 39 : 31-53.
Labov W. (1976). Sociolinguistique. Paris : Éditions de Minuit.
Le Deuff O. (dir.) (2014). Le Temps des humanités digitales. Limoges : FYP éditions.
Lonergan J., Kay J. & Ross J. (1974). Étude sociolinguistique sur Orléans, catalogue des enregistrements.
Colchester : Multigraphié.
MacWhinney B. (2000). The CHILDES Project : Tools for Analyzing Talk. 3rd Edition. Mahwah, NJ :
Lawrence Erlbaum Associates.
Mertens P. (2002). « Les corpus de français parlé ELICOP : consultation et exploitation », in
J. Binon et al. (éd.) Tableaux vivants. Opstellen over taal-en-onderwijs aangeboden aan Mark
Debrock. Leuven : Universitaire Pers.
Mullineaux A. & Blanc M. (1982). « The problems of classifying the population sample in the
socio-linguistic survey of Orléans (1969) in terms of socio-economic, social and educational
categories », Review of Applied Linguistics 55 : 3-37.
NOTES
1. Un travail remarquable avait déjà été réalisé dans le cadre du projet ELILAP-ELICOP : ELILAP
1980-1983, puis LANCOM 1993-2001 (voir Mertens, 2002).
2. Cf. Baude & Dugua, 2011.
3. Environ 70 % du corpus présente une qualité acoustique suffisante pour une transcription.
4. http://eslo.huma-num.fr/
5. http://eslo.huma-num.fr/index.php/pagecorpus/pagepresentationcorpus
6. Principalement : enregistreurs Marantz PMD 661 MKII + micro-cravates AKG C417L, TASCAM
DR100, Edirol R09 : http://eslo.huma-num.fr/ index.php/pagemethodologie?id=70.
7. Le Deuff, O. (dir.) (2014). Le temps des humanités digitales, la mutation des sciences humaines et
sociales.
8. http://tcp.hypotheses.org/318
9. http://www.iasa-web.org/ : Wave, stéréo, 16 bits, 44100 Hz.
10. http://www.language-archives.org/OLAC/metadata.html
11. http://www.clarin.eu/content/component-metadata
12. http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html
13. http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation
14. http://eslo.huma-num.fr/index.php/pagemethodologie?id=71
15. Norme ISO/CD 24624 en cours d’élaboration.
16. http://cocoon.huma-num.fr/exist/crdo/
17. Baude et al., 2006.
18. http://eslo.huma-num.fr/index.php/pagemethodologie?id=69
19. http://creativecommons.fr/licences/les-6-licences/
20. http://eslo.huma-num.fr/
21. http://www.rechercheisidore.fr/
Corpus, 15 | 2016
24
22. https://www.ortolang.fr/
23. Comme, par exemple, les travaux sur la liaison dans ESLO, PFC et d’autres corpus (Baude et
Dugua, 2015).
24. Biggs & Dalwood (1976).
RÉSUMÉS
Cet article souhaite porter un regard réflexif sur le projet scientifique de constitution et
d’exploitation d’un grand corpus de français parlé, les Enquêtes sociolinguistiques à Orléans, né à
l’aube de la sociolinguistique et qui se développe au tournant méthodologique et épistémologique
des digital humanities. Quels objectifs ? Quelles données ? Quels traitements ? Ce sont les questions
qui guident la réflexion proposée ici afin d’apporter une contribution à l’élaboration de nouvelles
pratiques scientifiques dans une perspective variationniste contemporaine.
This article is an analysis of the constitution and the exploitation of a large corpus of spoken
French: Les Enquêtes sociolinguistiques à Orléans (ESLO). This corpus has been created from the
beginnings of sociolinguistics and now it evolves with digital humanities, methodological and
epistemological specificities. Which objectives? Which data? Which analysis? These are the
questions that guide our thinking in order to contribute to the elaboration of new scientific
practices in a variationnist perspective.
INDEX
Mots-clés : sociolinguistique, corpus, linguistique variationniste, digital humanities
Keywords : sociolinguistic, corpora, variationnist linguistic, digital humanities
AUTEURS
OLIVIER BAUDE
Laboratoire Ligérien de Linguistique, UMR 7270
CÉLINE DUGUA
Laboratoire Ligérien de Linguistique, UMR 7270
Corpus, 15 | 2016
25
Le Corpus FRAN : réseaux etmaillages en Amérique françaiseConnecting networks of North American French
France Martineau et Marie-Claude Séguin
NOTE DE L'AUTEUR
Cet article a reçu l’appui du projet Le français à la mesure d’un continent : un patrimoine en
partage (dir. F. Martineau, CRSH/GTRC). Nous remercions Jérémie Beauchamp, Mélissa
Chiasson et Jade Dumouchel-Trudeau, assistants au projet à l’Université d’Ottawa, pour
l’aide au repérage des données sur des variables.
1 Notre objectif est d’exposer dans cet article les principes qui ont prévalu à l’élaboration
du corpus FRAN (Français d’Amérique du Nord) développé dans le cadre du projet Le
français à la mesure d’un continent : un patrimoine en partage, basé à l’Université d’Ottawa.
Dans un premier temps, nous présentons le projet Le français à la mesure d’un continent,
l’équipe de nature interdisciplinaire, ses objectifs et ses questions de recherche, en
particulier en ce qui a trait au développement des communautés francophones nord-
américaines. Puis nous présentons le Corpus FRAN, premier corpus panfrancophone en
ligne portant sur l’Amérique française, son architecture et les protocoles de
transcription de données. Enfin, nous illustrons les types de recherches qui peuvent
être menées, en montrant comment une perspective par réseaux et maillages permet
un regard novateur sur les usages, d’abord à partir d’une étude de variable, stratifiée
socialement (la première personne du singulier du verbe aller, comme auxiliaire du
futur périphrastique) sur le terrain montréalais d’Hochelaga-Maisonneuve puis à partir
d’un survol d’une deuxième variable, la conséquence (so, donc, alors, (ça) fait que),
révélatrice de comportements linguistiques différents dans des communautés en
contexte minoritaire et en contexte majoritaire.
Corpus, 15 | 2016
26
1. Le projet Le français à la mesure d’un continent
2 Le projet Le français à la mesure d’un continent : un patrimoine en partage1 est un projet
international, subventionné, en 2011, pour une durée de sept ans par le Conseil de
recherche en sciences humaines du Canada, dans le cadre du programme des Grands
travaux de recherche concertée. Il est constitué de deux grands axes de recherche qui
se répondent et s’entrecroisent.
Axe 1 – Histoire sociale et Identités des communautésfrancophones : les idéologies linguistiques
3 Déterminer comment les idéologies, les représentations et les pratiques autour de la
langue ont structuré et structurent encore les rapports à l’intérieur des groupes
francophones, et entre groupes francophones, anglophones et allophones.
Axe 2 – Le français en Amérique du Nord : variétés du français encontexte majoritaire et minoritaire
4 Par l’entremise d’une comparaison panlectale et diachronique, déterminer ce qui
caractérise les usages linguistiques des francophones en Amérique du Nord ; évaluer les
effets linguistiques du contact ; déterminer quelles sont les modalités d’appropriation
du français par les non-francophones.
5 L’équipe réunit des chercheurs de plusieurs disciplines (linguistique, histoire,
sociologie, anthropologie, ethnologie, géographie, littérature et archivistique),
provenant de 44 universités. Le cœur de l’équipe scientifique réunit 13 chercheurs,
provenant de France (Françoise Gadet, Université Paris Ouest Nanterre La Défense ;
André Thibault, Paris Sorbonne), des États-Unis (Hélène Blondeau, University of
Florida ; Sylvie Dubois, Louisiana State University) et du Canada (Mourad Ali-Khodja &
Annette Boudreau, Université de Moncton ; Mireille Tremblay, Université de Montéal ;
Jean-Pierre Le Glaunec & Wim Remysen, Université de Sherbrooke ; Paul Cohen,
University of Toronto ; Raymond Mougeon, York University ; Yves Frenette, Université
de Saint-Boniface ; & France Martineau, Université d’Ottawa, directrice), auxquels se
joint une coordonnatrice de recherche, Marie-Claude Séguin, de l’Université d’Ottawa.
6 Du point de vue des idéologies et représentations, notre démarche consiste à croiser
différents terrains d’observation en Amérique du Nord et différentes périodes, de façon
à permettre de saisir les éléments que partagent les diverses communautés quant à
leurs rapports aux idéologies et aux représentations linguistiques, ainsi que ce qui les
distingue en fonction des événements politiques, sociaux, juridiques, économiques,
religieux et culturels propres à chacun des contextes. Ainsi, en Amérique du Nord, les
discours sur la langue ont fortement contribué à construire chez les locuteurs des
représentations ambivalentes à l’égard du français parlé. Les archaïsmes, associés par
l’élite à l’authenticité du vernaculaire franco-canadien, ont été reconnus comme
légitimes en raison de leur filiation avec le français parlé en France, alors que les
anglicismes ont été rejetés, parce qu’ils symbolisaient l’assimilation à la culture
dominante (Bouchard, 2002 ; Boudreau, 2009 ; Boudreau & Ali-Khodja, 2009 ; Remysen,
2010). À un niveau macro-sociétal, ces représentations sont par ailleurs liées à
Corpus, 15 | 2016
27
l’idéologie de l’État-nation (Gellner, 1989 ; Hobsbawm, 1992 ; Anderson, 1996). En effet,
en tant que formes politico-culturelles et souvent dans une grande proximité au
discours religieux, les États-nations ont mobilisé au cours de leur construction à la fois
un « travail des langues » et un « travail sur les langues », l’un comme l’autre
impliquant qu’à un territoire donné soit associée une langue particulière.
7 Du point de vue des usages, le projet s’intéresse à la rencontre de groupes francophones
avec d’autres groupes francophones (laurentien, acadien, européen) ou groupes
linguistiques (anglophones, amérindiens, notamment) à divers moments et à
différentes périodes en Amérique du Nord. Même si tous les linguistes admettent que le
contact linguistique joue un rôle dans la variation et le changement linguistique, le
poids relatif des facteurs externes et internes reste à être vérifié. Un même phénomène
linguistique peut être compris comme provoqué/ facilité par le contact entre groupes
linguistiques, ou bien découler de l’effet d’une dynamique interne (Mougeon & Beniak,
1991 ; Mougeon, Nadasdi & Rehner, 2005 ; Poplack & Levey, 2011). Les faits de variation
sont partie prenante de variétés, même si la fluidité de la langue et du changement qui
lui est associé correspondent moins à des communautés définies par des frontières
géopolitiques qu’à des réseaux sociaux (en particulier familiaux) à l’intérieur desquels
la langue ou les langues du locuteur sont transmises. Notre approche se distingue
d’approches plus traditionnelles de la variation en dégageant, dans nos études de
terrains, à la fois les réseaux sociaux qui définissent des communautés au sens large et
des variables sensibles à la mixité sociale et culturelle qui permettent de mesurer le
degré de cohésion sociolinguistique d’une communauté et les changements qui la
traversent (Gadet & Martineau, 2012).
2. Le Corpus FRAN
2.1 Structure du Corpus FRAN
8 Le Corpus FRAN assure un ancrage empirique commun aux deux axes, favorisant ainsi
le dialogue interdisciplinaire et une approche globale de la variation linguistique ainsi
que des représentations sur la langue. Le corpus est établi de façon à permettre une
comparaison panlectale des variétés de français d’Amérique du Nord dans une
perspective à la fois diachronique et synchronique. L’objectif est de comprendre
l’évolution de communautés, des réseaux qui se sont tissés et des effets sur la langue et
les représentations linguistiques générées. En ce sens, il était important de baser le
Corpus FRAN sur un nombre de communautés choisies selon leur ancrage historique et
les contacts avec d’autres groupes francophones, anglophones et allophones ; ont été
choisies, en Acadie, Moncton et Baie Sainte-Marie ; au Québec, Montréal et en
particulier deux quartiers pour les enquêtes modernes, soit Hochelaga-Maisonneuve et
Saint-Michel/Montréal-Nord, ainsi que Chicoutimi et Gatineau ; en Ontario, Welland,
Windsor et Hearst ; dans l’Ouest canadien, Saint-Boniface au Manitoba ; aux États-Unis,
Gardner et Waterville en Nouvelle-Angleterre et en Louisiane, la Nouvelle-Orléans et
Lafourche ; en France, Paris et Rouen. À ces terrains se greffe, pour l’éclairage apporté
sur les origines du français colonial, le français des Antilles. Trois grands ensembles
forment ce corpus et permettent de créer des ponts entre les deux axes du projet, et
entre les perspectives diachronique et synchronique.
Corpus, 15 | 2016
28
2.1.1 Corpus historiques
9 Les corpus historiques sont constitués de correspondance privée (lettres, journaux
personnels) qui permettent de retracer des marques de la langue parlée chez des
scripteurs malhabiles (Schneider, 2002 ; Martineau, 2007 ; Ernst, 2010 ; van der Wal,
Rutten & Simons, 2012) et qui font ainsi le pont avec des corpus oraux modernes pour
l’étude de la variation linguistique. Nous avons aussi examiné la correspondance du
clergé et de la presse de façon à cerner les idéologies linguistiques qui s’y déploient ; ce
corpus répond ainsi à ceux constitués par les entrevues modernes des personnalités
(voir en 2.1.3). À ces corpus nous avons ajouté des enquêtes de nature dialectologique et
sociolinguistique sur les langues créoles et le français des Antilles qui constituent un
apport précieux à la connaissance du français parlé au début de la colonisation, dans la
suite de travaux de ce type (Poirier, 1979 ; Chaudenson, Mougeon & Béniak 1993 ;
Thibault, 2008).
2.1.2 Corpus patrimoniaux
10 L’établissement d’ententes avec des chercheurs a permis l’apport de corpus
patrimoniaux recueillis dans le dernier quart du XXe siècle (corpus Lefebvre-
Drapeau sur le quartier Centre-Sud à Montréal ; corpus Fox-Smith sur la Nouvelle-
Angleterre ; corpus S. Dubois sur la Louisiane ; corpus Boudreau-Dubois & Marie-
Marthe Roy sur Moncton ; corpus Mougeon sur Welland 1975). Cette avancée unique
dans le partage de corpus a enrichi le corpus FRAN et permet la préservation de ces
corpus et leur diffusion plus large au sein de la communauté scientifique. Ces corpus
permettent des comparaisons en temps réel avec nos corpus modernes sur plusieurs
décennies (1970-2014) pour suivre l’évolution de la langue.
2.1.3 Corpus modernes
11 Pour sonder l’ensemble des pratiques linguistiques, les nouveaux corpus sont de trois
types. Tout d’abord, des entrevues auprès de personnalités (des leaders dans la
communauté) ont été effectuées dans des communautés en contexte minoritaire, là où
l’insécurité linguistique est souvent aiguë (Francard, 1994). Ces entrevues nous
permettent de cerner les représentations et les pratiques linguistiques. Ensuite, des
entrevues de nature variationniste ont aussi été effectuées de façon à cartographier les
usages linguistiques selon des paramètres sociolinguistiques (âge, classe sociale,
éducation, etc.). Le corpus recueilli dans la métropole montréalaise permet une
comparaison avec la situation linguistique à Paris, autre métropole francophone. Le
choix de Welland et de Montréal nous permet également de jeter les bases d’une
comparaison en temps réel avec nos corpus patrimoniaux des années 1970 versés au
Corpus FRAN. Enfin, nous avons aussi effectué des entrevues de nature écologique,
c’est-à-dire des enregistrements recueillis dans des situations naturelles, sans la
présence d’un enquêteur (p. ex. autour d’un repas de famille ou entre amis), de façon à
examiner toute la palette variationnelle de locuteurs pour qui le français alterne
souvent avec d’autres langues (anglais surtout, et aussi langues de migration) (Gadet,
2013).
12 Le choix de mener des entrevues auprès de membres des élites (« personnalités »)
œuvrant dans plusieurs sphères d’activité et d’intégrer dans nos questionnaires
Corpus, 15 | 2016
29
d’enquêtes variationnistes un module sur les attitudes linguistiques a permis de cerner
au présent l’état de ces représentations linguistiques, tout en reconstituant les parcours
sociobiographiques de ces personnes, leurs conditions de socialisation, leurs rapports
au français et à l’anglais, ainsi que leurs pratiques dans leur domaine d’activités
respectif. Ces entrevues sont riches d’enseignement ; on constate ainsi, en comparant
des entrevues de personnalités de Welland 1975 à celles effectuées en 2013, que la
communauté n’est plus divisée sur la question de la scolarisation des enfants en
français et de la scolarisation dans les deux langues. Le principe de l’instruction
totalement en français, qui n’était soutenu que par une minorité en 1975 (minorité
issue principalement de l’élite), est maintenant accepté par l’ensemble des parents
(Mougeon, 2012).
13 Le Corpus FRAN est le premier corpus librement accessible en ligne documentant le
français sur plusieurs terrains en Amérique du Nord, à partir de ressources orales et
textuelles et un profil sociohistorique. C’est aussi un outil précieux pour la
francophonie en dehors de l’Amérique du Nord par les réponses qu’il permet
d’apporter sur des enjeux partagés, comme le contact de langues, la palette
variationnelle des locuteurs et la mobilité sociale et géographique. Au Corpus FRAN
s’ajoutent le corpus MCVF (Martineau, 2010), qui porte sur la période médiévale au
français classique, également accessible en ligne, et le Corpus LFFA (Martineau, 2005-),
qui porte sur la correspondance familiale de scripteurs lettrés et peu lettrés du français
classique au début du XXe siècle, ainsi que sur des entrevues de nature ethnologique
effectuées en Amérique du Nord, corpus en cours de mise en ligne ; ces trois corpus
réunis permettent une interrogation depuis l’ancien français jusqu'à la période
contemporaine, avec stratification sociale et régionale.
2.2 Transcription, alignement texte/son et protocole
14 Les entrevues de personnalités et les entrevues patrimoniales sont transcrites avec MS
Word, mais nous avons opté, pour les nouvelles entrevues variationnistes et les
entrevues écologiques, pour un système de transcription d’alignement texte/son avec
Praat (Boersma & Weenink, 2001-) et ELAN (Wittenburg, Brugman, Russel, Klassmann &
Sloeutjes, 2006), en harmonie avec les développements récents en sciences du langage.
2.2.1 Les avantages de l’alignement texte/son
15 L’alignement texte/son à l’aide de Praat ou ELAN2 présente plusieurs avantages par
rapport à la simple transcription séquentielle dans un programme de traitement de
texte, surtout en ce qui a trait à l’efficacité de la production des transcriptions, à
l’analyse ultérieure des textes et aux liens directs que l’on peut établir entre le sonore
et l’écrit.
16 En effet, l’alignement texte/son favorise la production rapide et efficace de la
transcription d’enregistrements, en permettant la segmentation en intervalles de
quelques énoncés tout au plus, sans que cela affecte pour autant la piste sonore
originale. Le travail du transcripteur/vérificateur est facilité du fait qu’il peut
réécouter un intervalle en boucle, tout en se concentrant sur une quantité de texte très
restreinte. L’annotation à niveaux multiples (multi-tier annotation), c’est-à-dire la
fonction permettant la superposition de plusieurs niveaux de texte, accélère davantage
le processus de transcription en ce qu’elle permet d’utiliser une seule piste de texte par
Corpus, 15 | 2016
30
participant, ce qui est particulièrement utile dans le cas d’entrevues écologiques où il y
a présence de multiples participants. De plus, l’annotation à niveaux multiples peut
être mise à contribution afin de promouvoir la communication entre les différents
acteurs intervenant dans la création d’une transcription. Par exemple, un transcripteur
qui aurait confirmé l’orthographe particulière d’un nom propre peut indiquer, sur une
piste dédiée à cet effet, la source d’information qu’il a utilisée. Finalement, la contiguïté
de l’affichage visuel de la piste sonore avec sa transcription peut éventuellement
contribuer à désambiguïser un son ou des paroles, quand le transcripteur possède des
aptitudes lui permettant d’analyser les oscillogrammes et les spectrogrammes.
17 En sus de l’exécution expédiente des transcriptions, l’annotation à niveaux multiples
permet de préparer le document pour les analyses linguistiques. Notamment, les
niveaux d’annotation peuvent être employés pour le repérage de variables ou d’unités
linguistiques (par exemple, des anglicismes, des formes verbales ou des phénomènes,
comme la liaison) ou encore pour préparer le texte à l’indexation morphosyntaxique ou
lexicale.
18 Finalement, l’alignement du texte et du son permet d’établir des marqueurs temporels
dans la transcription, ce qui peut servir, d’une part, à documenter les phénomènes
extralinguistiques ayant une portée sur l’enregistrement ou la transcription et, d’autre
part, à l’ajout éventuel d’un lecteur audio intégré à une page web qui permettrait
d’entendre des sections d’enregistrement.
2.2.2 Les protocoles de transcription : pour qui et pour quoi ?
2.2.2.1 Le protocole de transcription des enregistrements
19 À l’instar des protocoles de transcription du VALIBEL3 (Dister, Francard, Feron, Giroul,
Hambye, Simon & Wilmet, 2006) et du PFC (Durand, Laks & Lyche, 2009), le protocole
élaboré par le projet (Martineau, 2011-) adopte une orthographe traditionnelle, sans
« aménagement graphique »4 qui ferait de la transcription qu’elle ne tiendrait « ni tout
à fait de l’oral, ni tout à fait de l’écrit » (Dister & Simon, 2007).
20 Le protocole du projet a été conçu de façon à promouvoir une interrogation rapide et
ergonomique du corpus. Il a comme visée de répondre aux besoins d’utilisateurs
intéressés à la morphosyntaxe, au lexique et, de façon plus générale, aux variétés de
français nord-américaines. Les seuls éléments phonétiques pris en considération lors de
la transcription sont les liaisons non standard (p. ex. : Je suis Tun homme riche) et la
prononciation des consonnes finales (p. ex. : bouT, faiT, genS), que nous considérons
comme des phénomènes morphophonétiques lexicaux. Autrement, la représentativité
morphosyntaxique est respectée dans son intégralité, dans le sens où les paroles des
locuteurs sont reproduites fidèlement et ce, indépendamment de leur impropriété
perçue par les prescriptivistes. À titre d’exemple, les formes verbales non standard
comme « ils jousaient » (‘ils jouaient’) et « ils sontaient » (‘ils étaient’) sont transcrites
telles quelles ; l’omission de « ne » et de « que » est respectée ; des lexèmes récurrents
dans certaines variétés sont transcrits sans normalisation, par exemple, « astheure » en
français laurentien (et non ‘à cette heure’), « marabouse » (féminin de ‘marabout’, qui
est invariable) en français acadien, « ployer » (pour ‘plier’) en français cajun.
21 Les protocoles de transcription énumérés en début de section et celui du projet Le
français à la mesure d’un continent ont également ceci en commun qu’ils incluent des
mesures pour noter les amorces, les répétitions, les pauses, et les chevauchements,
Corpus, 15 | 2016
31
quoique la notation soit différente. Ils divergent cependant en ce qui a trait à la
démarcation des énoncés pour former ce qu’on appelle, à défaut d’un terme plus
approprié, une « phrase ». Nous avons opté pour accepter une certaine délimitation
sommaire des éléments phrastiques, mais avons toutefois limité les éléments de
ponctuation au point et au point d’interrogation.
22 Étant donné qu’un des axes de recherche du projet porte sur les variétés de français en
contexte majoritaire/minoritaire et les effets linguistiques du contact entre les
communautés, certains éléments susceptibles d’intéresser les usagers du Corpus FRAN
ont été étiquetés directement dans le texte. C’est le cas des mots anglais et des
anglicismes (ceints de guillemets français), des calques et des extensions sémantiques
(ceints de chevrons) et des mots étrangers (ceints d’accolades). Il est à noter que ce
repérage initial ne remplace pas la recherche exhaustive que doit effectuer le
chercheur chevronné ; son utilité consiste à attirer l’attention sur ces phénomènes
ainsi qu’à permettre à notre moteur de recherche, PhiloLogic, de dégager une liste de
toutes ces occurrences en entrant l’un ou l’autre de ces codes dans le champ de
recherche des mots.
2.2.2.2 Le protocole de retranscription de manuscrits
23 La retranscription des manuscrits (lettres, journaux) s’effectue selon un protocole dont
la directive première est de retranscrire le texte exactement tel qu’il apparaît. Ainsi,
l’orthographe, même si elle dévie des normes modernes ou de l’époque, la grammaire,
la ponctuation, les coquilles, l’agglutination des mots et autres phénomènes propres à
l’écriture sont-ils inchangés par rapport à l’original. Ceci inclut l’utilisation du
caractère < ſ > (s long) et des majuscules considérées « inopportunes » selon les
standards actuels. Les caractères raturés, soulignés ou supérieurs sont également
représentés tels quels sur l’écran.
24 Quant aux éléments hors teneur de la lettre, dont sa mise en page, ils ne sont pas
représentés à l’écran par PhiloLogic. Les alinéas, les marques de sceau, l’écriture
perpendiculaire dans la marge et autres éléments similaires sont toutefois attestés par
le biais d’une note du transcripteur placée entre crochets.
2.3 L’interface PhiloLogic
25 Afin de rendre accessible le corpus FRAN à la communauté internationale, nous avons
implanté sur notre serveur le logiciel PhiloLogic et développé une interface qui tient
compte de paramètres sociohistoriques5. Les corpus ont été anonymisés et sont
accessibles par mode d’interrogation de type concordance ; les corpus des personnalités
ne sont pas accessibles en ligne pour des raisons éthiques, l’anonymat des locuteurs
étant difficile à préserver en raison de la nature des entrevues, mais peuvent être
consultés au laboratoire Polyphonies du français (directrice F. Martineau), à l’Université
d’Ottawa. Des corpus patrimoniaux, notamment ceux pour lesquels nous n’avons pas
l’autorisation de mettre en ligne, et des bases de données sont aussi accessibles au
laboratoire.
Corpus, 15 | 2016
32
2.3.1 Liste des textes disponibles et accès au Corpus FRAN
26 Une liste de tous les documents disponibles pour interrogation est disponible sur le site
web. Elle inclut le titre du document et sa forme (type entrevue, lettre, etc.), ainsi que
le lieu et la date de sa création. L’internaute désirant avoir accès à ces documents doit
faire une demande d’accès au Corpus FRAN et s’engager à respecter les conditions
d’utilisation.
2.3.2 PhiloLogic et son interface
27 PhiloLogic est un moteur de recherche développé à l’Université de Chicago, dans le
cadre du projet ARTFL6 (American Research on the Treasury of French Language) et du
DLDC7 (Digital Library Development Center). Le projet Le français à la mesure d’un
continent a reçu une subvention de la Fondation canadienne pour l’innovation (FCI)
destinée à adapter le gratuiciel et son interface aux spécifications particulières que
requiert l’interrogation de notre corpus.
28 L’interface du moteur de recherche PhiloLogic permet la recherche de mots ou
d’expressions. Il est possible de raffiner la recherche en choisissant des filtres qui
s’appliquent soit au document, soit à l’individu qui est à la source du document. Les
critères de recherche relatifs aux documents sont par exemple ceux du sous-corpus
(voir Figure 1) auquel il appartient, de son type (voir Figure 2) et de son origine géo-
temporelle (voir Figure 3).
Figure 1. Filtres de recherche pour les documents : critère sous-corpus
Figure 2. Filtres de recherche pour les documents : critère type de document
Corpus, 15 | 2016
33
Figure 3. Filtres de recherche pour les documents : critère province de création
29 Les critères de recherche relatifs aux locuteurs et aux scripteurs, quant à eux, sont de
nature socio-économique et permettent, en sus des critères biographiques de base
comme le sexe et le lieu et la date de naissance, l’ajout de filtres comme l’occupation,
les langues parlées, lues et écrites, ainsi que le niveau d’éducation le plus élevé. Il est
possible de jumeler certains critères, par exemple l’occupation et le niveau d’éducation,
afin de situer socialement les documents issus des locuteurs/ scripteurs que l’on veut
interroger.
2.3.3 La recherche avec le moteur PhiloLogic
30 Il est possible d’effectuer la recherche d’un mot ou d’une expression avec ou sans filtre.
La fonction recherche de mots similaires permet de repérer à la fois les formes standards
des mots et celles dont l’orthographe n’est pas moderne (p. ex. : « françois » pour
‘français’) ou non régulière (p. ex. dans le cas des écrits des peu lettrés) (voir Figures 4
et 5).
Figure 4. Recherche de(s) mot(s) : Recherche de mots similaires
Corpus, 15 | 2016
34
Figure 5. Recherche de mots similaires à « françois » : résultats
31 De plus, différents opérateurs de recherche sont disponibles afin d’élargir le champ de
recherche ou de le restreindre. Par exemple, si on cherche toutes les déclinaisons d’un
verbe, comme le verbe « aimer », on écrira « aim* » dans le champ de recherche pour
obtenir « aime, aimes, aimons, aimez, aiment, etc. » (voir Figure 6). Cette recherche ne
remplace pas une réelle lemmatisation (qui permettrait par exemple de trouver toutes
les formes irrégulières du verbe « aller ») mais permet néanmoins de ratisser assez
large.
Figure 6. Trois premiers résultats de la recherche avec l’opérateur * (aim*)
32 Une liste de ces opérateurs (caractères wildcard) se trouve en fenêtre contextuelle dans
l’interface. Il existe également une fenêtre contextuelle pour afficher une version
abrégée du protocole de transcription.
2.3.4 Les résultats de recherche
33 L’interface de recherche permet l’affichage des résultats de deux manières. Par défaut,
on obtient l’occurrence recherchée en concordance, c’est-à-dire accompagnée des
lignes de textes immédiatement adjacentes. PhiloLogic fournit aussi la référence du
texte et, au bas de la page, la bibliographie (voir Figure 7).
Corpus, 15 | 2016
35
Figure 7. Affichage des résultats en mode concordance
34 Il est aussi possible de faire une requête pour les résultats en affichage KWIC (Key Word
in Context), comme démontré plus haut dans la Figure 6.
3. Variation et changement : deux études de cas
3.1 La variable du futur périphrastique à Hochelaga-Maisonneuve,Montréal8
35 Les locuteurs francophones de l’est de Montréal, majoritaires depuis l’urbanisation du
territoire à la fin du XIXe siècle (Linteau, 2012), ont créé un milieu qui s’est transformé
au fil du temps en une zone de mixité sociale où les pratiques culturelles et langagières
s’entremêlent, et les contacts avec les locuteurs anglophones ne sont pas absents. Nous
présentons les premiers résultats d’une étude qui s’est intéressée aux trajectoires
géographiques, familiales et sociales d’un groupe de douze locuteurs âgés de
Hochelaga-Maisonneuve (HOMA), quartier ouvrier de l’est de Montréal, qui a connu
dans la dernière décennie une gentrification (Martineau, Blondeau & Frenette, 2014 ;
Gadet & Martineau, 2014). La variable de la 1re personne de l’auxiliaire aller employé
comme auxiliaire du futur périphrastique (je vais/ je vas/m’as partir) est un bon
analyseur sociolinguistique de la variation diastratique et diatopique (voir entre autres
Martineau & Mougeon, 2005 ; Martineau, 2009, 2012). En français canadien, trois
variantes coexistent pour marquer la première personne du futur périphrastique : je
vais, associé au français soutenu (1a), je vas, associé à un emploi familier et même
neutre (1b), et m’as, associé au français populaire (1c). En français continental, la
variante m’as est pour ainsi dire inexistante, ce qui a pour effet que la variante je vas est
généralement associée à un français familier ou populaire/régional9.
(1) a. Je vais partir. b. Je vas partir. c. M’as partir.
36 À partir de l’analyse de cette variable, en particulier de l’emploi de m’as, nous montrons
comment les réseaux qu’ont tissés les locuteurs permettent de comprendre les
continuités/ ruptures linguistiques et les alliances communicationnelles entre
locuteurs dans un quartier dit culturellement homogène.
Corpus, 15 | 2016
36
37 La Figure 8 montre la fréquence d’emploi des trois variantes chez les locuteurs âgés
interrogés.
Figure 8. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller,auxiliaire du futur périphrastique chez douze locuteurs âgés d’Hochelaga-Maisonneuve à Montréal
Je vais Je vas M’as Total
18,8 %
(39/207)
70 %
(145/207)
11,2 %
(23/207)
100 %
(207/207)
38 Comme le montre la Figure 8, les locuteurs âgés que nous avons interrogés affichent
une fréquence élevée de l’emploi de la variable je vas (70 %) ; rien d’étonnant donc
puisqu’au Québec – et plus généralement dans le parler laurentien – c’est la variante
par défaut à l’oral. La variante m’as est la moins fréquente, et ce, même dans un
quartier populaire. Ces données, lorsqu’on les compare à des locuteurs nés à la fin du
XIXe siècle, montrent que la variante m’as a subi un déclin progressif (je vais 0,3 % ; je vas
60,1 % ; m’as 39,6 %, Martineau, 2014). Cette tendance vers une régression de l’emploi de
la variante la plus associée au parler populaire est confirmée par l’étude de Sankoff &
Thibault (2011), qui comparent le corpus de Montréal 1971 à celui de 1984. Dans le
premier, le pourcentage d’emploi de m’as est de 30,7 % (177/576), alors que dans le
second, il n’est plus que de 15,9 % (217/1368). Dans leur corpus recueilli en Estrie à
Stanstead en 2001, les auteures montrent que le pourcentage est encore plus bas (12,2 %
19/156), résultat qui se rapproche des chiffres révélés par la Figure 8. Lorsqu’on ne
considère que le groupe des jeunes, comme l’ont fait Martineau, Blondeau & Frenette
(2014) à partir du corpus d’Hochelaga-Maisonneuve, l’emploi de m’as est encore plus
bas, soit à peine 1 % des occurrences, sans doute en partie en raison d’un effet de la
gentrification du quartier (voir aussi, pour des résultats similaires chez les jeunes,
Martineau & Dumouchel-Trudeau, 2013, pour la ville de Gatineau, située au Québec à la
frontière avec Ottawa, en Ontario). Ces résultats doivent évidemment tenir compte
d’autres facteurs, comme la classe sociale ou le sexe, mais il n’empêche que cette
variante m’as semble avoir connu une régression depuis le début du XXe siècle, et ce,
même dans des quartiers à caractère ouvrier comme Hochelaga-Maisonneuve, comme
le démontrent nos résultats à la Figure 8. Mais ce tableau cache une grande
hétérogénéité entre locuteurs qui ne peut se comprendre que par une étude du
parcours sociobiographique des locuteurs et de leur position dans le réseau social de
leur communauté. Nous nous arrêterons sur trois locuteurs, habitant à quelques rues
les uns des autres, mais dont les réseaux, les parcours et les aspirations sont bien
différents.
39 Le premier locuteur, Gérard, est retraité et a été contremaître dans une usine située
dans le quartier. Il a vécu sa jeunesse dans un quartier ouvrier en périphérie de
Montréal, puis a déménagé dans le quartier Hochelaga-Maisonneuve lorsqu’il s’est
marié. En cela, il correspond au profil ouvrier de Hochelaga-Maisonneuve, bien que le
poste qu’il a occupé ait impliqué des responsabilités importantes. La Figure 9 montre
les résultats pour la variable à l’étude.
Corpus, 15 | 2016
37
Figure 9. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller,auxiliaire du futur périphrastique chez le locuteur Gérard, d’Hochelaga-Maisonneuve
Je vais Je vas M’as Total
7,4 %
(2/27)
77,7 %
(21/27)
14,9 %
(4/27)
100 %
(27/27)
40 Les usages linguistiques de Gérard montrent un emploi fréquent de la variante neutre je
vas, en accord avec les fréquences moyennes du quartier. Ce serait donc le locuteur
type du quartier, ce qui est appuyé par le fait qu’il est d’ailleurs très bien réseauté dans
le quartier et membre de plusieurs organismes bénévoles. En accord avec ce milieu
ouvrier qui connaît des racines militantes à la cause souverainiste et à la protection du
français dans la sphère publique, Gérard est sensible au statut du français au Québec. Il
dira ainsi : « On appelle ça une shop en anglais, mais c’est modèlerie en français ».
41 Le second locuteur, Jacques, connaît Gérard et habite à quelques rues de chez lui. Mais,
contrairement à Gérard, pour Jacques, son usage le plus fréquent est je vais, en rupture
avec les ‘normes’ de son quartier, comme le montre la Figure 10.
Figure 10. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller,auxiliaire du futur périphrastique chez le locuteur Jacques, d’Hochelaga-Maisonneuve
Je vais Je vas M’as Total
53,3 %
(8/15)
46,7 %
(7/15)
0 %
(0/15)
100 %
(15/15)
42 La position sociale de Jacques est assez semblable à celle de Gérard, en ce sens qu’il a
occupé au cours de sa vie un poste à responsabilité, celui de commis pharmacien. Il
n’appartient toutefois pas au même monde ouvrier que Gérard. Même s’il a vécu, à
partir de sa prime enfance, dans le quartier de Hochelaga-Maisonneuve, contrairement
à Gérard, qui s’identifie à l’élément ouvrier et œuvre dans des groupes
communautaires, Jacques est très conscient de sa position sociale. Il se dit pharmacien
alors que, même s’il a sans doute travaillé très fort à la pharmacie, il n’en a pas le titre
et a été commis à la pharmacie. Il a le sentiment d’être le gardien du passé glorieux du
quartier et réagit fortement lorsqu’il y a migration de quartiers plus pauvres vers son
quartier.
(2) Pis d’autant plus on euh je me souviens parce qu’à partir des années soixante etdix euh moi j’avais pas vu ça dans le quartier ici en pharmacie des poux. <I1 : Ahoui.> Mais c’est drôle quand même c’était une coïncidence peut-être mais on a vuune épidémie de poux arriver en même temps que ces euh (phrase non terminée)<I1 : Oui oui oui.> Ça c’est une affaire qui m’avait marqué à l’époque on en parlaitsouvent. L’épidémie de poux là quand ça a commencé dans ces <I1 : Oui oui oui.> onappelait ça euh oui ça a changé de façon radicale le quartier.
43 On ne peut pas associer Jacques à la nouvelle gentrification du quartier. C’est
essentiellement un petit ouvrier dont les aspirations sont à la fois celles de son
quartier, auquel il est très attaché, mais qu’il idéalise. Comme Gérard, il présente une
très grande sensibilité au statut du français dans la métropole montréalaise et il exige
de se faire servir en français, partout où il va.
Corpus, 15 | 2016
38
44 Contrairement à Gérard et à Jacques, le troisième locuteur, Lucien, n’a pas de racines
aussi profondes dans le quartier. C’est un enfant de migrant. Son père est né en France,
à Carnières, département du Nord de la France et arrive à Montréal à l’âge adulte au
début du XXe siècle, peut-être en rupture sociale avec une famille de notaires bien
établie dont il était issu. Sa mère est de Québec. Lucien a habité Montréal toute sa vie,
surtout dans l’est ouvrier, mais il n’a pas vécu toute sa vie dans Hochelaga-
Maisonneuve. Il représente le groupe d’invasion d’habitants des quartiers pauvres vers
Hochelaga-Maisonneuve qu’a décrit Jacques.
45 Dans son entrevue, Lucien marque clairement sa rupture avec le passé français de son
père, comme l’illustre le passage suivant :
(3) Pis euh les « chum »s à mon père ils venaient chez nous pis ils me disaient« Comment ça fait tu parles pas français ? » J’ai dit « Moi si je parle français icittem’as me faire tuer. » Parce que les/ les/ les gars je me tiens avec là c’est pas des/c’est pas des gars qui/ c’est des gars qui sacraient pis des gars qui parlaient mal pisen tout cas. Pis si je parle français ils vont prend/ me prendre pour une tapette.
46 Lucien ne participe pas activement aux activités du quartier. C’est un marginal,
côtoyant parfois la violence. Son emploi de la variante m’as, comme le montre la
Figure 11, beaucoup plus élevé que dans le quartier Hochelaga-Maisonneuve, ou qu’au
Québec, reflète cette marginalité, sa rupture avec le passé français de son père, mais
aussi sa rupture avec le quartier Hochelaga-Maisonneuve.
Figure 11. Fréquence d’emploi de trois variantes de la première personne du singulier du verbe aller,auxiliaire du futur périphrastique chez le locuteur Lucien, d’Hochelaga-Maisonneuve
Je vais Je vas M’as Total
0 %
(0/13)
15,3 %
(2/13)
84,7 %
(11/13)
100 %
(13/13)
47 Cette étude de la variable de la première personne du singulier du futur périphrastique,
en particulier de m’as, montre qu’en dehors des questions de classes sociales ou de
territoires (que ce soit quartier, ville ou région), il est nécessaire de tenir compte des
réseaux, auxquels se sentent liés ou pas les individus. Dans Hochelaga-Maisonneuve,
l’emploi de m’as correspond à ce que l’on trouve généralement ailleurs dans les parlers
laurentiens, mais lorsqu’on examine de plus près les données, il devient évident que des
locuteurs habitant la même rue, qui ont le même âge, qui sont issus de mêmes
conditions sociales, et qui se côtoient sans doute dans les dépanneurs du coin, peuvent
avoir des usages très différents selon leur parcours de vie et leurs réseaux sociaux. De
même, les jeunes, qu’ils soient de Montréal ou de Gatineau, ont plus en commun du fait
d’appartenir à la même génération, ouverte à une certaine mondialisation et à la
standardisation du français, ce qui explique à la fois leur fréquence très basse d’un trait
comme m’as, non seulement associé au parler populaire mais aussi au parler laurentien,
et leur intégration de termes anglais, même lorsqu’ils vivent dans des contextes où le
français est majoritaire et a un statut officiel, comme c’est le cas au Québec.
Corpus, 15 | 2016
39
3.2 La variable de conséquence (so, ça fait que, donc, alors) :français en contexte minoritaire et majoritaire
48 Le Corpus FRAN, en plus de permettre des études sur des facteurs externes comme le
sexe, l’âge, la classe professionnelle, l’éducation, permet également de comparer des
communautés en contexte minoritaire et majoritaire, dans des situations linguistiques
à différents pôles de la restriction linguistique. Par exemple, à Welland et à Moncton, le
français est en contexte minoritaire. Mais tandis qu’à Moncton il se trouve dans une
province officiellement bilingue (le Nouveau-Brunswick), ce n’est pas le cas de Welland,
qui se trouve dans une province officiellement unilingue anglophone (l’Ontario). Dans
une métropole comme Montréal, le français est en contexte majoritaire, autant dans
des quartiers à forte densité francophone comme Hochelaga-Maisonneuve que dans des
quartiers multiculturels comme Montréal-Nord, où il coexiste avec des langues issues
de l’immigration ; à Gatineau (Québec), ville frontalière avec Ottawa, en Ontario, le
français est en contact étroit avec l’anglais. Aux États-Unis, comme en Louisiane ou en
Nouvelle-Angleterre, il est en étiolement, et parlé presque exclusivement par la
génération la plus âgée.
49 On peut faire l’hypothèse que ces contextes variés auront une influence sur les usages,
qu’ils soient associés au français canadien traditionnel, ou au contact étroit avec
l’anglais. La variable de la conséquence, en emploi interphrastique, est
particulièrement intéressante, car elle permet de tester notamment la présence
d’innovations comme so (4a), dans des communautés en contact étroit avec l’anglais,
innovations qui pourraient être absentes en français québécois, ainsi que la présence de
variantes vernaculaires comme (ça) fait que (4b) ou de variantes plus formelles attestées
en québécois (donc et alors, 4c, d) (les exemples sont tirés de Mougeon, Nadasdi &
Rehner, 2009).
(4) a. je suis pas une jaseuse so c’est un peu difficile b. je trouve ça pas mal théorique à Ottawa (ça) fait que j’irais plutôt faire mon bac enpsychologiec. je suis pas une personne gênée alors j’y réponds t’saisd. elle a trois mois de convalescence donc j’ai eu beaucoup d’ouvrage
50 Les études de Dessureault-Dober (1974) et Thibault & Daveluy (1989) sur le français
montréalais montrent a) l’absence de la variante so dans cette variété de français
b) l’emploi plus marqué de (ça) fait que dans la classe ouvrière et dans un registre
informel c) l’emploi d’alors par les classes socialement plus élevées d) le caractère très
marginal de donc, renvoyé au style hyperformel (voir Mougeon, Nadasdi & Rehner,
2009). La comparaison de ces résultats en contexte majoritaire avec différentes études
de Mougeon (Mougeon & Béniak, 1991, Mougeon, 2006) en contexte franco-ontarien,
montre que a) (ça) fait que demeure associé à la classe ouvrière et est un trait de
locuteurs pour qui le français est d’usage courant (les locuteurs non restreints)
(Mougeon & Béniak, 1991, Mougeon, 2006) b) alors que so est absent des études de
Dessureault-Dober et de Thibault & Daveluy sur le français québécois, cette variante est
surtout présente chez les locuteurs franco-ontariens de la classe ouvrière (Mougeon &
Beniak, 1991 ; Golembeski, 1998 ; Mougeon, 2006) et chez les locuteurs semi-restreints,
c’est-à-dire ceux qui font un emploi presque égal du français et de l’anglais, et les
locuteurs restreints, c’est-à-dire ceux qui sont anglo-dominants (Mougeon & Beniak,
1991 ; Golembeski, 1998 ; Mougeon, 2006) c) alors et donc sont employés par les
locuteurs socialement plus élevés (Mougeon & Beniak, 1991 ; Mougeon, 2006) mais aussi
Corpus, 15 | 2016
40
par des locuteurs restreints (Mougeon, 2006). Dans ce dernier cas, l’emploi de variantes
formelles s’explique par le fait que les locuteurs s’expriment généralement en français
dans un contexte scolaire. Comme le notent Mougeon et collaborateurs (2009),
« l’emploi de so par les adolescents franco-ontariens, et en particulier par les locuteurs
semi-restreints et restreints, symboliserait leur identité bilingue et l’importance de
l’anglais dans leur vie quotidienne. » L’étude de Mougeon et collaborateurs (2009) sur le
parler d’adolescents de la communauté francophone dominante, comme Hawkesbury,
montre toutefois une progression de la variante so et une raréfaction de la variante
alors, deux aspects qui distinguent les usages des jeunes franco-ontariens de cette
communauté de Québécois, si on s’en tient aux études faites sur les corpus montréalais
de 1971 et 1984. La variable de la conséquence a également été examinée dans la variété
acadienne par Wiesmath (2006), qui montre que les variantes (ça) fait que, so et alors
sont utilisées tandis que donc est rare. Toutefois, dans le corpus de chiac, « so y est
généralisé et n’alterne avec aucun des équivalents français » (p. 100).
51 L’intérêt d’examiner cette variable de façon panlectale dans des corpus francophones
nord-américains est multiple ; a) à la fois pour situer la variante so, associée aux
contextes où le français est minoritaire, et pour vérifier si cette variante, qui semble
jouir d’un prestige voilé chez les francophones en milieu minoritaire, a progressé en
contexte majoritaire, dans un contexte où la mondialisation et les échanges sont plus
importants ; b) pour mesurer la compétition entre alors et donc, la seconde variante
étant très formelle, et vérifier si, en contexte de standardisation, non seulement en
milieu minoritaire où cet effet est lié à des locuteurs restreints ou non restreints
parlant le français à l’école, mais aussi en contexte majoritaire où le français se
standardise, la variante alors régresse au profit de donc ; c) mesurer l’emploi de (ça) fait
que, lié au milieu ouvrier, et sa diffusion dans les communautés en milieu minoritaire et
majoritaire.
52 Nous avons donc relevé la variable de conséquence en contexte interphrastique dans
différents sous-corpus du Corpus FRAN, à la fois en contexte majoritaire et minoritaire,
de façon à dégager certaines tendances. La recherche est à l’étape exploratoire étant
donné que le Corpus FRAN est encore en cours de construction et que toutes les
entrevues ne sont pas recueillies ou transcrites. Les différents emplois de cette variable
sont un indice de la vitalité du français vernaculaire ((ça) fait que), des emprunts
intersystémiques et de la perception qui peuvent y être associées (comme so), ainsi que
de tendances vers la standardisation (alors, donc). Les résultats sont présentés dans la
Figure 12.
Figure 12. Fréquence d’emploi de quatre variantes de la conséquence dans différentescommunautés nord-américaines dans le corpus FRAN10
TerrainÇa fait que/fait
que (%)So (%) Donc (%)
Alors
(%)
Total
(%)
Minoritaire
16,06
(333/
2074)
51,93
(1077/
2074)
1,30
(27/
2074)
30,71
(637/
2074)
100
(2074)
Corpus, 15 | 2016
41
Gardner, Massachusetts
(22 locuteurs)
1,62
(11/679)
77,91
(529/
679)
0,29
(2/679)
20,18
(137/
679)
100
(679)
Lafourche, Louisiane
(9 locuteurs)
9,89
(26/263)
73,76
(194/
263)
2,28 %
(6/263)
14,07
(37/
263)
100
(263)
Moncton, Nouveau-Brunswick
(6 locuteurs)
2,41
(2/83)
97,59
(81/83)
0,00
(0/83)
0,00
(0/83)
100
(83)
Welland, Ontario
(23 locuteurs)
28,03
(294/1049)
26,02
(273/
1049)
1,81
(19/
1049)
44,14
(463/
1049)
100
(1049)
Majoritaire
67,72
(1114/
1645)
0,12
(2/
1645)
16,47
(271/
1645)
15,68
(258/
1645)
100
(1645)
Hochelaga-Maisonneuve, Montréal,
Québec
(22 locuteurs)
62,04
(773/1246)
0,08
(1/
1246)
19,58
(244/
1246)
18,30
(228/
1246)
100
(1246)
Montréal, Québec
(4 locuteurs)
98,58
(139/141)
0,00
(0/141)
1,42
(2/141)
0,00
(0/141)
100
(141)
Montréal-Nord, Québec
(2 locuteurs)
94,81
(146/154)
0,65
(1/154)
2,60
(4/154)
1,95
(3/154)
100
(154)
Gatineau, Québec
(10 locuteurs)
53,85
(56/104)
0,00
(0/104)
20,19
(21/
104)
25,96
(27/
104)
100
(104)
53 On peut, à partir de la Figure 12, faire une première distinction entre les milieux où le
français est minoritaire (hors Québec) et où il est en contexte majoritaire (au Québec) ;
à Montréal et à Gatineau, situés au Québec, il y a quasi-absence d’emploi de so dans les
entrevues et la variante ça fait que/fait que est la plus courante ; nos locuteurs sont de
tous groupes d’âge, et la présence de ça fait que est ainsi répartie dans tous les groupes
d’âge. C’est donc dire que les locuteurs de notre corpus de Gatineau, même s’ils
habitent à la frontière avec Ottawa, en Ontario, où le français est en contexte
minoritaire, se comportent comme des locuteurs en contexte majoritaire ;
géographiquement, ils sont plus près d’Ottawa, mais linguistiquement, ils
appartiennent au couloir Gatineau-Montréal. On remarque aussi un emploi
relativement important de la variante alors dans certaines communautés minoritaires
et majoritaires (Gardner, Lafourche, Welland, Gatineau, Montréal à Hochelaga-
Maisonneuve) tandis que la variante donc semble plutôt limitée aux communautés
majoritaires. Ce résultat est à contraster avec ceux obtenus par Mougeon et
Corpus, 15 | 2016
42
collaborateurs (2009) qui montrent que dans le parler d’adolescents franco-ontariens,
là où le français est majoritaire, comme à Hawkesbury, donc est une variante
relativement peu employée (14 % en 1975 ; 8 % en 2005) tandis que alors est pour ainsi
dire inexistant (p. 157 ; p. 162-163), données qui vont dans le même sens que les nôtres
auprès de communautés majoritaires adultes. Par contre, en milieu minoritaire, donc
serait moins bien installé que alors, comme nos données révèlent pour Gardner,
Lafourche et Welland ; Mougeon et ses collaborateurs (2009) montrent toutefois à
Pembroke, dans leur corpus adolescents de 2005, une remontée de donc, peut-être due à
l’effet de l’école chez de jeunes adolescents pour qui il s’agit du principal lieu de
socialisation en français.
54 Ce que nos résultats montrent également, c’est la différence entre les milieux en
contexte minoritaire. Dans deux milieux où le français est en étiolement et parlé par
des locuteurs âgés, à Garner et à Lafourche, c’est la variante anglaise so qui domine,
suivie de la variante alors associée à la formalité ou au code écrit. La variante la plus
courante du français laurentien, ça fait que/fait que, est peu utilisée, bien qu’elle se
maintienne à Lafourche. Ces résultats vont dans le sens des résultats des études de
Mougeon et ses collaborateurs (2009), qui ont montré que ça fait que est un trait des
locuteurs pour qui le français est d’usage courant, ce qui n’est le cas ni en Louisiane ni
en Nouvelle-Angleterre. En ce sens, Moncton se distingue de la Nouvelle-Angleterre et
de la Louisiane, puisque l’emploi de so est presque catégorique, avec un emploi
marginal de ça fait que mais aussi un emploi inexistant de alors ou de donc,
contrairement à Gardner, Welland et Lafourche, qui présentent encore un emploi
variable de ces variantes. En ce sens, nos données de Moncton ressemblent à celles de
Wiesmath (2006) pour le chiac où la variante so a supplanté toutes les autres. Welland
se détache des autres communautés minoritaires examinées. En effet, contrairement à
ces dernières, so est en forte compétition avec la variante traditionnelle (ça) fait que à
Welland, qui est presque autant utilisée ; les deux variantes vernaculaires se font
compétition, avec un pourcentage plus important d’emploi de so chez les plus jeunes
(47,1 % vs 22,3 % chez les plus âgés) et de (ça) fait que chez les plus âgés (32,3 % chez les
plus âgés vs 3,2 % chez les plus jeunes). Cette tendance selon laquelle l’emploi de so
serait en progression chez les locuteurs les plus jeunes va dans le sens des données
relevées pour Hawkesbury, selon les études de Mougeon et ses collaborateurs (2009). La
variante alors est la variante la plus utilisée, contrairement aux autres communautés
minoritaires où so domine. On peut s’interroger sur cette robustesse de alors à Welland
tandis que cette variante est en régression dans les milieux majoritaires, mais aussi,
comme l’ont montré Mougeon et ses collaborateurs (2009) pour Pembroke, dans
certains milieux minoritaires ; ces résultats devraient être explorés en examinant
notamment des facteurs de formalité et de statut des locuteurs en fonction de leur
restriction linguistique. Il y aurait donc des configurations linguistiques différentes du
français en milieu minoritaire, notamment entre des milieux comme Moncton et
Welland, cette dernière communauté présentant encore une robustesse de la variante
traditionnelle.
55 Un dernier commentaire sur le quartier multiculturel de Montréal-Nord. Les résultats
laissent entrevoir la richesse des corpus provenant de locuteurs issus de l’immigration,
dans les grandes métropoles francophones comme Montréal ou Paris. Les locuteurs
interrogés, tous deux jeunes, présentent des traits semblables à ceux des jeunes
Québécois, c’est-à-dire avec une nette préférence pour l’emploi de la variante (ça) fait
Corpus, 15 | 2016
43
que/fait que. Il faut dire que l’un des deux jeunes est une locutrice née à Montréal d’un
père d’origine libanaise avec qui les liens n’ont pas été étroits alors que sa mère est
d’origine québécoise. Le deuxième locuteur est sans doute plus typique du milieu
multiculturel ; d’origine haïtienne, il présente vraiment un réseau d’amis québécois et
haïtiens. On sait que la communauté haïtienne est très vivante à Montréal et bien
intégrée à la communauté francophone montréalaise ; la fréquence élevée d’un trait
associé au français laurentien comme la variante (ça) fait que signale cette intégration
linguistique.
4. Conclusion
56 L’avancée des technologies numériques permet de croiser des données sur de grands
ensembles linguistiques, de façon à faire émerger les convergences et les divergences
entre les communautés et à mettre en évidence la variation linguistique. L’Amérique
française est un véritable laboratoire linguistique par sa longue histoire (plus de quatre
siècles), par l’étendue de son territoire dont les frontières ont été remodelées au fil du
temps, par le statut du français qui y est différent selon les pays, les provinces et les
communautés. Le Corpus FRAN est le premier corpus en ligne à englober le fait français
nord-américain de façon aussi vaste, à la fois de façon synchronique et diachronique,
en s’intéressant à la fois aux usages et aux représentations de la langue. Les résultats
préliminaires présentés ici montrent comment ce corpus permet des études sur les
réseaux et les communautés et dégage des pistes de réflexion sur ce qui définit une
variété linguistique, au-delà des étiquettes commodes de variété acadienne ou
laurentienne, de variété en contexte minoritaire ou majoritaire.
BIBLIOGRAPHIE
Anderson B. (1996). L’Imaginaire national. Réflexions sur l’origine et l’essor du nationalisme. Traduction
de l’anglais par Pierre Emmanuel Dauzat. Paris : La Découverte.
Boersma P. & Weenink D. (2001-). Praat : doing phonetics by computer [Programme d’ordinateur].
Dernière mise à jour : 7 septembre 2015. http://www.praat.org/.
Bouchard Ch. (2002). La Langue et le nombril : histoire d’une obsession québécoise. Montréal : Fides,
coll. « Nouvelles études québécoises ».
Boudreau A. (2009). « La construction des représentations linguistiques : le cas de l’Acadie », in
F. Martineau, R. Mougeon, T. Nadasdi & M. Tremblay (éd.) Revue canadienne de linguistique 54, 3 :
439-459.
Boudreau A. & Ali-Khodja M. (éd.) (2009). « Le français en milieu minoritaire », Langage et société
129 : 3.
Chaudenson R., Mougeon R. & Beniak E. (1993). Vers une approche panlectale de la variation du
français. Paris : Didier Érudition.
Corpus, 15 | 2016
44
Dessureault-Dober. D. (1974). Étude sociolinguistique de (ça) fait que : « coordonnant logique » et
« marqueur d’interaction », Thèse de doctorat, Université du Québec à Montréal.
Dister A. & Simon A. C. (2007). « La transcription synchronisée des corpus oraux. Un aller-retour
entre théorie, méthodologie et traitement informatisé », Arena Romanistica 1, 2 : 54-79.
Dister A., Francard M., Geron G., Giroul V., Hambye Ph., Simon A. C. & Wilmet R. (2006).
« Conventions de transcription régissant les corpus de la banque de données VALIBEL », http://
valibel.fltr.ucl.ac.be.
Durand J., Laks B. & Lyche Ch. (2009). « Le projet PFC : une source de données primaires
structurées », in J. Durand, B. Laks et Ch. Lyche (éd.) Phonologie, variation et accents du français.
Paris : Hermès, 19-61.
Ernst G. (2010). « ‘qu’il n’y a orthographe ny virgule encorre moins devoielle deconsol et pleinne
delacunne’: la norme des personnes peu lettrées (XVIIe et XVIIIe siècles) », in M. Iliescu, H. Siller-
Runggaldier & P. Danler (éd.) Actes du XXVe Congrès international de linguistique et de philologie
romanes, Innsbruck 2007, vol. 3. Berlin : De Gruyter, 543-551.
Francard, M. (éd.) (1994). L’Insécurité linguistique dans les communautés francophones périphériques,
avec la collaboration de Geneviève Géron et Régine Wilmet, vol. 1, Cahiers de l’Institut de
linguistique de Louvain 19, 3-4, 1993 [paru en 1994] ; vol. 2, Cahiers de l’Institut de linguistique de
Louvain 20, 1-2.
Gadet F. (2013). « Les lieux du style en français oral contemporain », in Sld M.-G. Boutier,
P. Hadermann & M. Van Acker Helsinki (éd.), La Variation et le changement en langue (langues
romanes), Helsinki : Société Néophilologique, 7-20.
Gadet F. (2003). La Variation sociale en français. Paris : Ophrys.
Gadet F. & Martineau F. (2014). « Le maillage du français en Amérique du Nord, dans un cadre de
francophonie », in 10e Colloque international « Français du Canada – Français de France » L’Amérique
francophone – Carrefour culturel et linguistique, Trêves, 19-22 juin 2014.
Gadet F. & Martineau F. (2012). « Le français panfrancophone saisi à travers un maillage de
réseaux », Cahiers de linguistique, Construction des connaissances sociolinguistiques. Du terrain au
positionnement théorique 38, 2 : 63-88.
Gellner E. (1989). Nations et nationalisme. Traduction de l’anglais par Bénédicte Pineau, Paris :
Payot.
Golembeski D. (1998). French Language Maintenance in Ontario, Canada : A sociolinguistic portrait of the
community of Hearst. Thèse de doctorat, Indiana University.
Hobsbawm E. (1992). Nations et nationalisme depuis 1780. Traduction de l’anglais par Dominique
Peters. Paris : Gallimard.
Linteau P.-A. (2012). « The francophone reconquest of Montreal : the early years », atelier Urban
Francophone Language Practices in North America : A Comparative Perspective, Sociolinguistics
Symposium 19, Berlin, août.
Martineau F. (2014) « Le français des pionniers de la Saskatchewan : quelques pistes de
réflexion », in S. Hallion & R. Papen (éd.) À l’ouest des Grands Lacs : communautés francophones et
variétés de français dans les Prairies et en Colombie-Britannique. Québec : Les Presses de l’Université
Laval, coll. « Voies du français », 155-188.
Corpus, 15 | 2016
45
Martineau F. (2012). « Les voix silencieuses de la sociolinguistique historique », Cahiers de
linguistique. Construction des connaissances sociolinguistiques. Variation et contexte social, 38,
1 : 111-135.
Martineau F. (dir.) (2011-). Corpus FRAN Corpus du français d’Amérique du Nord, élaboré dans le
cadre du projet Le français à la mesure d’un continent : un patrimoine en partage.
www.continent.uottawa.ca.
Martineau F. (dir.) (2010). Le Corpus MCVF (Modéliser le changement : les voies du français).
www.voies.uottawa.ca.
Martineau F. (2009). « Vers l’Ouest : les variétés laurentiennes », in L. Baronian & F. Martineau
(éd.) Le français, d’un continent à l’autre. Québec : Presses de l’Université Laval, coll. « Voies du
français », 291-325.
Martineau F. (2007). « Variation in Canadian French Usage from the 18th to the 19th Century »,
Multilingua 26, 2-3 : 203-227.
Martineau F. (dir.) (2005-). Le Corpus LFFA (laboratoire de français familier ancien).
www.polyphonies.uottawa.ca.
Martineau F., Blondeau H. & Frenette Y. (2014). « Francophonie montréalaise : évolution des
pratiques linguistiques en contexte », Les Métropoles francophones en temps de globalisation, 5-7 juin
2014.
Martineau F. (dir.) (2014) en collaboration avec M.-Cl. Séguin, A. Bertrand, J. Dumouchel-Trudeau,
R. Mougeon & D. Thomas. « Protocole de transcription du projet GTRC Le français à la mesure d’un
continent : un patrimoine en partage », version 3.0.
Martineau F. & Dumouchel-Trudeau J. (2013). « Enquête écologique à Gatineau, le français autour
de la table », Panel Pratiques et idéologies linguistiques en Amérique du Nord : Des réalités en tension ?,
ACFAS, Québec, 7-8 mai 2013.
Martineau F. & Mougeon R. (2005). « Vais, vas, m’as in spoken French : a diachronic and dialectal
perspective », Linguistic Symposium on Romance Languages, Austin, février 2005.
Mougeon R. (2012). « La communauté francophone de Welland durant les années 1970 : le début
de l’érosion linguistique et culturelle ? », Communication au Centre de recherches en civilisation
canadienne-française, Université d’Ottawa, 27 mars.
Mougeon R. (2006). « Diversification du parler des adolescents franco-ontariens : le cas des
conjonctions et locutions de conséquence », Cahiers de la Société Charlevoix 7 : 231-276.
Mougeon R., Nadasdi T. & Rehner K. (2009). « Les conjonctions et locutions de conséquence dans
le parler des adolescents franco-ontariens de Hawkesbury : variation sociostylistique et
changement linguistique (1978-2005) », in F. Martineau, R. Mougeon, T. Nadasdi &
M. Tremblay (éd.) Le français d’ici : études linguistiques et sociolinguistiques sur la variation du français
au Québec et en Ontario. Toronto : GREF, 145-184.
Mougeon R., Nadasdi T. & Rehner K. (2005). « Contact-induced linguistic innovations on the
continuum of language use : The case of French in Ontario », Bilingualism : Language and Cognition
8, 2 : 99-115.
Mougeon R. & Beniak É. (1991). Linguistic Consequences of language contact and restriction : The case of
French in Ontario, Canada. Oxford : Oxford University Press.
Corpus, 15 | 2016
46
Poplack Sh. & Levey S. (2011). « Variabilité et changement dans les grammaires en contact », in
F. Martineau & T. Nadasdi (éd.) Le français en contact. Québec : Presses de l’Université Laval, coll.
« Voies du français », 247-280.
Remysen W. (2010). « L’évaluation des emplois canadiens à l’aune de leurs origines françaises : le
point de vue des chroniqueurs de langage », in C. LeBlanc, F. Martineau & Y. Frenette (éd.) Vues
sur les français du Canada. Québec : Presses de l’Université Laval, coll. « Voies du français »,
241-266.
Poirier Cl. (1979). « Créoles à base française, français régionaux et français québécois : éclairages
réciproques », Revue de linguistique romane 43 : 400-425.
Sankoff G. & Thibault P. (2011). « Sur les traces de m’as en français québécois de 1971 à 2001 », in
F. Martineau & T. Nadasdi (dir.) Le français en contact : Hommages à Raymond Mougeon. Québec :
Presses de l’Université Laval, coll. « Voies du français », 351-354.
Schneider E. (2002). « Investigating variation and change in written documents », in J. Chambers,
P. Trudgill & N. Schilling-Estes (éd.) The Handbook of Language Variation and Change. Oxford/
Cambridge : Blackwell, 67-96.
Thibault A. (2008). « Français des Antilles et français d’Amérique : les diatopismes de Joseph
Zobel, auteur martiniquais », Revue de linguistique romane 72 : 115-156.
Thibault P. & Daveluy M. (1989). « Quelques traces du passage du temps dans le parler des
Montréalais, 1971-1984 », Language Variation and Change 1, 1 : 19-45.
Van der Wal M., Rutten G. & Simons T. (2012). « Letters as loot : Confiscated letters filling major
gaps in the history of Dutch », in M. Dossena & G. Del Lungo Camiciotti (éd.) Letter Writing in Late
Modern Europe. Amsterdam : John Benjamins, 139-161.
Wiesmath R. (2006). Le français acadien. Analyse syntaxique d’un corpus oral recueilli au Nouveau-
Brunswick/ Canada. Paris : L’Harmattan.
Wittenburg P., Brugman H., Russel A., Klassmann A. & Sloeutjes H. (2006). ELAN : a Professional
Framework for Multimodality Research, Max Planck Institute for Psycholinguistics, The Language
Archive, Nijmegen. [programme d’ordinateur]. Dernière mise à jour : version 4.7.3. http://
tla.mpi.nl/tools/tla-tools/elan/.
NOTES
1. www.continent.uottawa.ca
2. Le choix du logiciel est laissé au responsable de terrain d’enquête, puisque ELAN permet la
conversion des formats de transcription depuis ou vers Praat.
3. Variétés linguistiques du français en Belgique.
4. Terme utilisé par Gadet (2003) et qui désigne les mécanismes servant à représenter certains
aspects phonétiques de la parole dans l’écrit, p. ex. une apostrophe correspondant à la syncope
d’un schwa.
5. http://continent.uottawa.ca/fr/corpus-et-ressources-electroniques/corpus/
6. https://artfl-project.uchicago.edu/ Nous tenons à remercier Mark Olsen pour son appui dans
le développement de PhiloLogic pour les besoins du projet.
7. http://dldc.lib.uchicago.edu/
8. Cette section provient en partie de deux communications, l’une présentée à Paris au colloque
Les métropoles francophones en temps de globalisation (Martineau, Blondeau & Frenette, 2014) et
Corpus, 15 | 2016
47
l’autre à Trêves au colloque international « Français du Canada – Français de France »
L’Amérique francophone – Carrefour culturel et linguistique, (Gadet & Martineau, 2014).
9. Nous avons exclu de notre étude la variable de aller, verbe de mouvement (je vas/je vais), qui
ne fait pas intervenir la variante m’as.
10. Les corpus font tous partie du Corpus FRAN (dir. F. Martineau). Ils sont constitués des sous-
corpus suivants : Gardner : Corpus Jane Smith-Cynthia Fox 2005 enrichi (Fox, Smith & Martineau,
2013) ; Lafourche : Corpus Sylvie Dubois de la paroisse Lafourche 1997 enrichi (Dubois & Martineau,
2013) ; Moncton : Corpus Marie-Marthe Roy 1976 enrichi (Roy & Martineau, 2012) ; Welland : Corpus
Welland France Martineau-Raymond Mougeon, 2011 ; Hochelaga-Maisonneuve : Corpus Hochelaga-
Maisonneuve Hélène Blondeau-France Martineau-Mireille Tremblay, 2012 ; Montréal : Corpus France
Martineau, 2012 CIEL-Québec, corpus CIEL international sous la conduite de Françoise Gadet ;
Montréal-Nord : Corpus MOMU Hélène Blondeau-Mireille Tremblay 2013 ; Gatineau : Corpus Martineau,
2012, CIEL-Québec, corpus CIEL international sous la conduite de Françoise Gadet. Nos résultats
sont présentés à titre indicatif ; le dépouillement présente un nombre important d’occurrences,
qui permettent de brosser un premier tableau de pourcentages. Une étude de nature statistique
pourrait venir valider les différences significatives entre communautés.
RÉSUMÉS
Cet article présente le Corpus FRAN, premier corpus panfrancophone en ligne sur les variétés de
français nord-américaines, élaboré dans le cadre du projet international Le français à la mesure
d’un continent (dir. F. Martineau). Il présente d’abord les grandes questions théoriques qui sous-
tendent le projet et l’élaboration du Corpus FRAN, puis discute de l’architecture du Corpus FRAN
ainsi que de l’interface élaborée pour son interrogation et du protocole de transcription. La
configuration du Corpus FRAN, couvrant plusieurs siècles et plusieurs communautés, permet des
recherches croisées qui sont susceptibles de mettre en évidence les convergences et divergences
entre ces communautés et d’examiner le parcours particulier des locuteurs et scripteurs. Nous
illustrons les perspectives qu’ouvre le Corpus FRAN sur la variation et le changement
linguistiques par l’étude de deux traits typiques du français nord-américain : la variante m’as (et
les variantes associées je vas et je vais) et les variantes de la conséquence ça fait que et so (et les
variantes associées alors et donc).
This article aims to introduce Corpus FRAN, the first online pan-francophone corpus pertaining
to North American varieties of French, developed as part of the international project Le français à
la mesure d’un continent (F. Martineau, dir.). We begin by stating the general theoretical questions
underlying the project as a whole, and the development of Corpus FRAN in particular. We
continue with a discussion of the architecture of the corpus, its transcription protocols, and the
user interface. Corpus FRAN was designed so as to cover several centuries and different
communities. It features a mode of crossed interrogation allowing the study of converging and
diverging trends within and between communities, as well as insights into the life paths of
speakers and writers. We illustrate some of the research possibilities afforded by the corpus with
the study of two variants that are typical of North American French: m’as (and the related
variants je vas and je vais) and the variants of consequence ça fait que and so (and the related alors
and donc).
Corpus, 15 | 2016
48
INDEX
Keywords : corpus linguistics, digital humanities, varieties of French, sociolinguistic variation,
consequence discourse markers, semi-modal “aller”
Mots-clés : linguistique de corpus, humanités numériques, variétés de français, variation
sociolinguistique, la variable de conséquence, « aller » semi-auxiliaire
AUTEURS
FRANCE MARTINEAU
Université d’Ottawa
MARIE-CLAUDE SÉGUIN
Université d’Ottawa
Corpus, 15 | 2016
49
Le projet ORFÉO : un corpus d’étudepour le français contemporainThe ORFEO project: a study corpus for contemporary French
Christophe Benzitoun, Jeanne-Marie Debaisieux et Henri-José Deulofeu
1. Introduction
1 Le projet ORFÉO (Outils et recherches sur le français écrit et oral) est un projet financé
par l’Agence nationale de la recherche (ANR 12-CORP-0005) et qui a été retenu dans le
cadre de la campagne Corpus, données et outils de la recherche en sciences humaines
et sociales 2011. Le projet a démarré en février 2013. Dans cet article, nous
présenterons les objectifs généraux du projet, le traitement en cours des données
orales (collecte, harmonisation, métadonnées), l’état du travail sur l’enrichissement des
données par des annotations syntaxiques et la plate-forme d’interrogation. Dans le
texte ci-dessous, nous abordons uniquement la composante orale du projet ORFÉO.
2. Les objectifs généraux du projet
2 ORFÉO a pour objectif de mener différentes études comparatives sur des données de
genres variés (notamment écrit vs oral) sur un corpus préalablement outillé. La
constitution du corpus, et notamment des données secondaires, est la tâche la plus
importante. Les corpus que nous rassemblons sont des corpus existants libres de droits
ou mis à disposition par les ayants droit. Les données secondaires sont de nature
diverse : métadonnées, transcriptions harmonisées, alignement texte et son,
annotations morphosyntaxiques (PoS), syntaxiques, sémantiques, conversationnelles,
prosodiques, segmentations en unités « élémentaires » de texte (macro-syntaxe).
Corpus et données seront accessibles au travers d’une plate-forme d’interrogation
permettant une sélection par les métadonnées et des recherches à l’aide de requêtes
simples (chaîne de caractères ou expressions régulières) ou complexes (requêtes sur les
différents niveaux d’annotation). Les utilisateurs seront guidés dans la sélection et
Corpus, 15 | 2016
50
l’utilisation des outils par l’accès à des analyses pilotes relevant de différents domaines
de la linguistique : morphosyntaxe, sémantique, analyse du discours et des interactions.
La plate-forme permettra ainsi un accès unique à un corpus d’étude comportant
plusieurs millions de mots (3M à l’oral et 6M à l’écrit).
3 L’enrichissement des données proposées par des annotations morphosyntaxiques et en
dépendances permettra d’interroger sur des structures complexes qu’un accès par
concordancier basique ou par expressions régulières simples ne permet pas d’atteindre
de façon satisfaisante. Un travail de thèse (Bérard, 2012) portant sur les structures dites
« de contrôles à distance » telles que :
(1) qu’est-ce que vous voulez que j’y fasse(2) l’hypothèse que je crois qu’on peut avancer(3) c’est où qu’il faut qu’elle se présente
4 a montré que les résultats pertinents d’interrogation d’un corpus de 2M de mots sont
multipliés par six grâce au recours à des données annotées. Au-delà des progrès
envisagés dans l’analyse, le projet relève d’un enjeu politique majeur pour la
linguistique de corpus. Il s’agit, d’une part, de mutualiser les résultats de recherches
antérieures, conçus dans le cadre des ANR Rhapsodie, Annodis et Decoda et, d’autre
part, de donner à la linguistique de corpus un outil de travail conforme aux standards
internationaux.
3. Les partenaires du projet
5 Le projet est rendu possible par la collaboration de 7 laboratoires français : LATTICE (U.
Paris 3/Ens.-UMR 8094), MoDyCo (Université Paris Ouest Nanterre La Défense - UMR
7114), ATILF (U. de Lorraine-UMR 7118), LORIA (CNRS -UMR 750), LIF (Université Aix-
Marseille-UMR 7279), ICAR (U. Lyon 2-UMR5191), CLLE-ERSS (U. Toulouse-UMR 5263) et
de chercheurs étrangers (Suisse, Belgique, Japon). La complémentarité des recherches
impliquant des linguistes et des informaticiens aboutit à une répartition des tâches
fonctionnelle au regard de la chaîne de traitement des données :
– La mise en forme des ressources s’effectue au sein de l’ATILF (sous la responsabilité de
C. Benzitoun et d’E. Jacquey, avec la collaboration de L. Bérard), qui est chargé de
l’unification des formats (données + métadonnées), de l’uniformisation des conventions
de transcription et de leur correction.
– L’alignement automatique au phonème des données orales relève du Loria (resp.
C. Cerisara) et permettra des analyses prosodiques fines. Deux outils ont été
développés : le LASTAS (Loria Automatic Speech-Text Alignment Software) dédié au
traitement de précision de courts segments et JTrans dédié au traitement de longs
fichiers de parole.
– Les corpus oraux n’étant pas ponctués, un premier logiciel de calcul de frontières
d’énoncé a été développé au sein de Modyco (Wang, 2013, Wang et al., 2014), dans le
cadre d’un stage de travail de master. Mais, compte tenu de la grande diversité des
types de texte (cf. infra), l’équipe a dû revenir à un système de segmentation manuelle.
Cette segmentation est nécessaire au parseur syntaxique qui ne peut calculer de
dépendances qu’au sein de segments clairement délimités.
– Les annotations morphosyntaxiques (PoS) et les annotations en dépendances,
inspirées en partie de l’annotation en dépendance développée dans le cadre du projet
Rhapsodie (ANR Rhapsodie, 2008-2012, sous la direction d’A. Lacheret) sont le résultat
Corpus, 15 | 2016
51
d’une étroite collaboration entre les linguistes et les informaticiens de l’équipe TALEP
(F. Bechet, A. Nasr, Carlos Ramisch, J. Deulofeu, et A. Valli), au sein du LIF.
6 L’ensemble de ces outils devraient être testés dans le cadre d’études pilotes
développées au sein des laboratoires CLAPI et CLLE-ERSS, portant sur des phénomènes
linguistiques sensibles aux effets de genre : les formes non canoniques de « noyaux
macrosyntaxiques », la famille des constructions « modales » et les marqueurs
d’attitude, la famille des constructions avec réalisations de place syntaxique par listes
(p. ex. : j’ai vu un oiseau une sorte de pélican) ou avec « effet deux points » (p. ex. : il y a un
truc chez Marie elle est renversante) et les structures de clause linking. Dans ce cadre,
certaines sous-parties du corpus doivent être enrichies d’annotations
macrosyntaxiques (F. Sabio), d’annotations en relations de discours (M. Ho-dac), en
références et coréférences (F. Landragin) et d’annotations « interactionnelles »
(V. Traverso).
4. Le traitement des données orales
7 La partie orale de la base ORFÉO provient de la mutualisation d’un ensemble de corpus,
déjà diffusés pour certains. La totalité des transcriptions était donc existante avant le
lancement du projet, mais devait être harmonisée et complétée. Le résultat constitue
une large couverture en termes de situations de parole : réunions de travail, entretiens,
interviews, réunions publiques, contes, récits, conversations téléphoniques, etc. Au
total, plus de 2 000 locuteurs sont représentés dans les enregistrements, provenant de
trois pays francophones : Belgique, France et Suisse. Différentes étapes ont été suivies
entre la réception des données et leur future diffusion.
8 Le premier problème auquel l’équipe a été confrontée réside dans l’hétérogénéité des
formats des données collectées (txt, doc, xml, etc.) qui ont dû être transformés en un
format unique : Transcriber (.trs). Certains formats ont été par ailleurs conservés pour
l’alignement automatique (voir infra). Les conventions de transcription étaient
également fort hétérogènes. Les transcriptions ont dû être uniformisées afin de
permettre l’interrogation de l’ensemble. La convention retenue est celle de
l’orthographe standard, qui facilite la lecture et les annotations automatiques. La
plupart des systèmes produisent en effet de meilleurs résultats sur des données
linguistiques respectant les conventions orthographiques standard. Un système de
balise a permis de séparer texte et commentaires (événements extralinguistiques, rires,
commentaires, pauses, etc.).
9 Le travail le plus important a été celui de correction des transcriptions qui a porté sur
une grande partie de la base. Un grand nombre de transcriptions ont été revues par
deux personnes différentes. Ce travail est extrêmement chronophage (plus d’une heure
pour vingt-cinq minutes de transcription). Il ne garantit pas l’absence d’erreur mais le
haut niveau de qualité des transcriptions proposées. Parallèlement à la phase de
correction, une partie manuelle du travail d’homogénéisation a été menée. Une partie
des corpus a également fait l’objet d’un alignement manuel texte/son afin de faciliter
l’alignement ultérieur. La tâche de correction a été couplée au repérage des segments à
anonymiser et à l’enrichissement des métadonnées par la rédaction d’un bref résumé
du contenu. L’ensemble des transcriptions a été hébergé sur un système de versionnage
et mis à jour au fur et à mesure de l’avancement du travail.
Corpus, 15 | 2016
52
10 L’équipe a également développé un outil permettant de soustraire automatiquement
des fichiers sonores les passages non transcrits qui peuvent se situer en début, en fin,
mais aussi au cours de l’enregistrement. Après avoir repéré les sections non transcrites
(marquées préalablement par des sections « nontrans » dans le logiciel Transcriber),
l’outil supprime les passages en question du fichier son, insère une balise
correspondant à la durée retranchée et recalcule automatiquement l’alignement texte/
son pour la suite de la transcription. Au final, les fichiers sons correspondent
exactement aux passages transcrits. La démarche évite le risque de diffusion de
données sensibles non anonymisées.
11 Après correction, le LORIA a procédé à l’alignement texte/son automatique à l’aide des
outils LASTAS et JTrans1. Le logiciel JTrans prend en entrée des fichiers au format trs ou
TextGrid (Praat, Boersma & Weenink 2015). Les fichiers peuvent comporter un
alignement sommaire préalable, mais ils peuvent également ne pas être alignés du tout
avant traitement. L’alignement automatique se fait au mot et au phonème. Les
principales difficultés d’alignement se situent au niveau des chevauchements de parole.
En sortie, le logiciel génère plusieurs fichiers TextGrid, dont l’un est utilisé pour l’étape
ultérieure, à savoir celle de l’anonymisation.
12 L’anonymisation des fichiers son s’est faite à partir de l’alignement automatique. Un
fichier au format TextGrid a été généré comportant deux tiers (tierces ?) : un tiers (une
tierce ?) comportant exclusivement le mot-clef « buzz », en lieu et place de chaque
portion à anonymiser, et un second tiers comportant les parties à anonymiser lisibles
(afin de faciliter la phase de vérification de l’alignement). Une réécoute systématique a
permis de vérifier que les parties discursives en question correspondaient bien au
signal sonore. Dans le cas contraire, un réalignement manuel a été effectué. Les fichiers
vérifiés ont été ensuite traités par le script d’anonymisation élaboré par D. Hirst sous le
logiciel Praat.
13 Les transcriptions au format TextGrid alignées texte/ son et anonymisées sont mises
ensuite dans un format TEI en vue de la réalisation des annotations automatiques
ultérieures, de la génération des divers formats de diffusion et de l’exploitation à l’aide
de la plate-forme d’interrogation.
14 Les métadonnées comme les transcriptions étaient très hétérogènes tant au niveau des
formats que du contenu. Afin de conserver l’intégralité des informations fournies tout
en rendant possible les interrogations sur l’ensemble de la base, deux niveaux ont été
distingués. Le premier, purement informatif, représente la transposition des
métadonnées initiales, propres à chaque corpus. Elles seront mises à disposition des
utilisateurs mais ne permettront pas de construire des requêtes pour constituer des
sous-corpus. Le second niveau, propre à ORFÉO, est homogène et commun à l’ensemble
de la base et servira à la création de requêtes. L’homogénéisation des métadonnées a
nécessité un travail de saisie manuelle, seul garant de la cohérence des dénominations.
Cette saisie a été faite à partir de fichiers xml générés automatiquement. Les
métadonnées communes ont été corrigées et complétées dans l’éditeur Oxygen, à l’aide
d’un schéma de document contraignant la saisie afin de limiter les erreurs.
15 Les principales métadonnées communes que nous avons retenues sont les suivantes :
identifiant du corpus, type (oral/écrit), langue, identifiant du fichier, responsable(s),
nature (entretien, réunion, transaction, etc.), milieu (professionnel, privé), médium
(face-à-face, téléphone, radio, etc.), résumé, date, durée, qualité du son, lieu, nombre de
locuteurs, degré de planification (non-planifié, semi-planifié, planifié), conditions
Corpus, 15 | 2016
53
d’utilisation, nombre de mots, identifiant du locuteur, âge, sexe, statut de la langue
française, profession, niveau d’études, lieu de naissance. Ces métadonnées seront
ensuite validées par les producteurs des ressources puis projetées dans des en-têtes TEI.
16 Ce travail a été possible grâce à l’intervention d’un grand nombre de personnes. En
premier lieu, les producteurs des corpus mais aussi les étudiants, qui ont été rémunérés
pour réaliser les tâches de corrections, de saisie et d’anonymisation, des membres du
laboratoire ATILF (B. Husson, B. Gaiffe, J. Perignon) qui sont intervenus à divers stades
et ont assuré, notamment, les aspects informatiques, L. Bérard qui a suivi de près
l’ensemble des étapes et a assuré de nombreuses vérifications automatiques et
manuelles, des membres du LORIA (C. Cerisara, D. Fohr, O. Mella, D. Jouvet) pour
l’alignement automatique, L. Lampen pour la mise en place du système de versionnage
et C. Étienne pour le travail de réflexion sur les métadonnées. C. Benzitoun a assuré la
coordination de l’ensemble.
17 Nous avons également bénéficié des discussions et des avancées du consortium corpus
oraux (IRCOM, France) et du groupe ISO (Europe) pour la TEI. Une table ronde sur les
formats de transcription et les métadonnées a été organisée, en juin 2014, par
C. Benzitoun, O. Baude, C. Étienne et C. Parisse. Un atelier sur les métadonnées dans les
corpus oraux a été présenté dans le cadre de la journée de bilan IRCOM, en septembre
2014, par C. Benzitoun et C. Étienne.
18 Le tableau ci-dessous synthétise les données qui ont été traitées et seront mises à
disposition sur la plate-forme Ortolang. Un tableau détaillé sera mis à disposition sur le
site du projet2. Il s’agit pour l’instant d’une approximation, les données qui seront
diffusées pouvant être légèrement différentes de ce qui est mentionné.
Figure 1. Corpus oraux mis à disposition en fin de projet
Identifiant du corpusNb. de
fichiersTaille (mots) Durée
Corpus d’entretiens 10 13 000 1h
Corpus de référence du
français parlé134 440 000 37h
Corpus de français parlé parisien 34 500 000 40h
C-ORAL-ROM 175 300 000 25h
Corpus d’entretiens
(Y. Kawaguchi)77 728 000 45h
Corpus d’entretiens 37 62 000 5h
Corpus Clapi 14 210 000 16h
Corpus domaine
académique (Fleuron)51 40 000 3h
Corpus réunions 29 200 000 24h
Corpus, 15 | 2016
54
Corpus contes (French Oral Narrative) 87 140 000 16h
Corpus VALIBEL 74 450 000 40h
Corpus TCOF 98 400 000 35h
Corpus OFROM 122 330 000 28h
TOTAL 942 3 813 000 315h
5. Le système d’annotation morphosyntaxique ORFÉO
19 Le système d’annotation syntaxique doit permettre de faire des requêtes sur les textes
du corpus enrichis d’analyses en parties de discours et en relations de dépendances. La
ressource majeure pour l’entraînement des outils est le French Treebank (Abeillé et al.,
2003), conçu à partir de textes écrits. Il n’existe pas de corpus de taille suffisante pour
le français oral. Le corpus annoté Rhapsodie (Lacheret-Dujour, Kahane & Pietrandrea, à
paraître) ne comporte que 30 000 mots. Le corpus DECODA, que nous utilisons comme
ressource auxiliaire, comporte certes 800 000 mots partiellement annotés à la main,
mais le caractère particulier de son origine (conversations téléphoniques) ne permet
pas de garantir les performances de l’analyseur sur d’autres types de corpus (en
particulier de longs monologues). Pour la partie écrite, les performances de notre
analyseur sont comparables à celles des autres ressources : 86 % d’analyses correctes en
moyenne. Des aménagements ont été nécessaires pour obtenir des résultats
comparables sur l’oral. Il reste qu’il convient d’améliorer cette performance, si l’on
veut que la ressource serve d’outil à des analyses linguistiques. Une des retombées du
projet pourrait être d’ailleurs d’évaluer quel est le niveau de performance des
annotations automatiques qui est requis pour rassembler des données fiables en vue
d’une analyse linguistique. Les études pilotes prévues dans le projet nous permettront
d’évaluer notre outil dans ce sens. Le système d’annotation prévu cherche avant tout à
être fiable. Cette recherche de fiabilité peut amener à des analyses qui ne sont pas
immédiatement utilisables pour des recherches linguistiques. Cet inconvénient sera en
partie supprimé grâce aux corrections automatiques des sorties de l’analyseur pour
rapprocher l’annotation des standards de l’analyse linguistique. Il faut enfin signaler
que la précision de l’annotation automatique ou semi-automatique n’est qu’un élément
de l’efficacité d’un corpus outillé. L’autre est la performance et la facilité d’utilisation
du langage de requêtes qui permet de rassembler toutes les configurations répondant à
un certain schéma d’annotation. Le projet ORFÉO comporte la construction d’un tel
langage. Bien qu’interdépendants dans la pratique, ces deux outils ne relèvent pas des
mêmes compétences informatiques. En tout état de cause, si de nombreux corpus oraux
ont été automatiquement annotés en parties du discours (PoS), l’annotation
automatique en relations de dépendance conçue par le LIF peut être considérée comme
pionnière pour le domaine français.
20 Nous commencerons par recenser les difficultés particulières posées à l’annotation
automatique par la spécificité des corpus oraux, en indiquant les stratégies mises en
Corpus, 15 | 2016
55
œuvre pour les surmonter. Dans une deuxième partie, nous exposerons les grandes
lignes des outils en construction pour l’outillage ORFÉO.
5.1 Les difficultés rencontrées dans l’annotation morphosyntaxiquede l’oral spontané
5.1.1 La segmentation
21 Les corpus oraux que nous rassemblons ne comportent pas les marques de ponctuation
qui servent de balises pour fixer le domaine d’action des analyseurs à l’écrit.
L’analyseur ne peut fonctionner efficacement que sur des segments de taille limitée.
Pour le corpus DECODA, constitué de demandes de renseignement téléphoniques, la
segmentation en tours de parole suffisait, mais il a fallu créer des balises pour les autres
corpus et donc réviser la segmentation de DECODA. Nos tentatives de créer un système
de segmentation automatique en unités de texte correspondant aux phrases de l’écrit
n’ayant, pour l’instant, pas débouché sur la détermination de balises fiables, nous avons
décidé de segmenter à la main 1 000 000 de mots du corpus oral pour tester les outils le
plus vite possible. Un guide de segmentation a été écrit pour assurer le maximum de
convergence entre les annotateurs. Mais il faut accepter un certain degré de variation.
Variation que l’on observe d’ailleurs dans la ponctuation des corpus écrits, et qui ne
sera pas normalisée, par exemple dans l’utilisation du point, balise utilisée par les
parseurs disponibles (Deulofeu, 2011).
5.1.2 La tokenisation
22 Une source d’erreurs importante tient au regroupement d’ordinaire effectué dès le
dictionnaire de plusieurs mots en un seul composé. On relève ainsi dans le dictionnaire
LEFFF, qui avait été utilisé tel quel pour le traitement du corpus DECODA, la conjonction
composée bien#que. Cette prise de position a priori interdit, de fait, une analyse
correcte des séquences où les deux termes du composé doivent être dissociés : par
exemple dans je sais bien que tu voulais venir. Pour pallier cette difficulté, nous avons
décidé d’organiser de façon originale la chaîne de traitement : il s’agit de retarder la
détermination des composés de ce type le plus possible, c’est-à-dire au moment du
passage de l’analyseur syntaxique. La composition est considérée comme une relation
syntaxique spécifique (dépendance MORPH) que l’analyseur doit apprendre à placer.
Les premiers essais dans ce domaine sur diverses conjonctions au départ composées
dans le dictionnaire donnent de bons résultats. La démarche sera donc étendue à
d’autres cas (déterminants, adverbes).
5.1.3 Analyse syntaxique
23 Il faut distinguer la question des constructions caractéristiques de l’oral spontané et les
obstacles que la « performance » met à la bonne reconnaissance des constructions
quelles qu’elles soient. Comme exemple du premier cas, on peut prendre la question
des périphériques.
Corpus, 15 | 2016
56
5.1.3.1 Traitement des périphériques
24 Dans l’exemple qui suit, on a un groupe nominal, les chaussures, qui ne peut être analysé
de façon satisfaisante par aucune des relations existantes dans le jeu des relations
syntaxiques standard.
(4) toi les chaussures tu aurais jamais dû essayer de faire des économies
25 Nous allons mettre au point une procédure d’évaluation pour choisir entre deux
traitements possibles de cette structure :
– affecter le ‘hanging topic’ les chaussures de la même relation de dépendance (ajout)
que les cas canoniques d’ajout non prépositionnel : la semaine dernière ;
– introduire un nouveau lien PERIPH pour les cas de ‘hanging topic’.
26 On rencontre un problème voisin avec des périphériques phrastiques. Ainsi, dans
l’exemple suivant, prononcé par un agriculteur qui insiste sur le travail préparatoire à
sa participation au Salon de l’agriculture,
(5) on part pas à Paris on prend la vache et on y va //
27 on aimerait analyser la séquence comme une parataxe à l’intérieur d’une seule unité de
segmentation. Ce qui permettrait d’obtenir directement la bonne interprétation : « on
part pas à Paris en se contentant de prendre la vache et d’y aller ». Cette interprétation
est impossible si l’on segmente on part pas à Paris comme une unité indépendante.
L’analyse syntaxique souhaitable impliquerait donc qu’on établisse une relation de
dépendance (PARAtaxe) entre les deux verbes, ce qui n’est pas canonique mais qui
permettrait d’analyser la séquence en une seule unité. L’analyse pourrait être étendue
aux exemples :
(6) il y a trois semaines il est venu(7) elle s’est mariée elle avait trois ans(8) il y a des gens ils n’ont pas de quoi vivre
28 Mais là encore le choix d’une solution implique de tester la capacité pour le programme
de reconnaître avec fiabilité les liens modélisant la parataxe. En cas d’échec, on
adoptera une analyse sous-spécifiée.
5.1.3.2 Les obstacles aux bons rattachements dans les constructions canoniques
29 Il s’agit de phénomènes liés aux modes de production des énoncés propres à l’oral
spontané. Leur point commun est d’introduire des discontinuités dans la régularité des
séquences syntaxiques canoniques, soit en créant des séquences agrammaticales
(disfluences), soit en éloignant le dépendant de son gouverneur.
5.1.3.2.1 Disfluences
30 Sous ce terme classique, on regroupe des phénomènes qui ne sont pas sans intérêt pour
l’analyse linguistique, notamment pour mieux comprendre les conditions d’insertion
lexicale dans les positions syntaxiques. Il ne s’agit donc pas d’en perdre la trace. Pour ce
faire, nous avons choisi de laisser le programme d’analyse syntaxique décider lui-même
du statut de disfluence. La stratégie consiste à rattacher dans le corpus d’apprentissage
la partie disfluente à la séquence régulière par un lien arbitraire DISLINK. Comme on le
voit dans la figure 5 (ci-dessous) où l’amorce dans le de « enregistré dans le dans le métro »
est rattachée à enregistré sans que cela perturbe le bon rattachement du dépendant non
disfluent. L’analyseur syntaxique apprend donc à placer le lien DISLINK. Le dispositif
Corpus, 15 | 2016
57
fonctionne bien pour des répétitions de segments courts, qui peuvent être repérés
automatiquement. Nous cherchons à l’étendre à d’autres cas, ainsi qu’à donner une
représentation moins arbitraire des disfluences. Par exemple en établissant une
relation de type coordination entre séquence disfluente et séquence régulière.
5.1.3.2.2 Parenthèses
31 Après une parenthèse, on constate souvent qu’un constituant soit n’est pas rattaché du
tout, soit est rattaché à un mauvais gouverneur interne à la parenthèse. Ainsi dans
l’exemple suivant qu’ gouverné par a (conscience) est rattaché à tort à ressens :
(9) et là on a conscience depuis quelques mois (enfin c’est ce que je ressens) qu’ilfaudra encore peut-être bien une génération
32 Pour pallier cette difficulté, l’équipe a décidé d’annoter les parenthèses dans le corpus
d’entraînement (CE). Leur contenu sera ignoré au cours de l’analyse syntaxique. La
solution peut être étendue aux incises (je crois, dit-il) et de façon générale à tous les
éléments y compris certains types de disfluences qui viennent s’insérer entre un
gouverneur et un dépendant sans être eux-mêmes intégrés à la structure grammaticale
de la phrase.
5.1.3.2.3 Énumérations / listes
33 Les énumérations sans coordonnants sont difficiles à analyser, car on ne peut s’appuyer
sur un cordonnant pour commander les relations de coordination et, par là même, les
rattacher au contexte :
(10) ça on n’en veut pas des exécutants et puis qui en même temps sont despompiers inefficaces et impuissants devant les conséquences de cette politique / lamisère /le chômage/ la délinquance
34 Nous avons choisi d’annoter manuellement ces cas par un slash (l’équivalent de la
virgule de l’écrit) devant chaque terme de l’énumération, ce qui permet une analyse
standard en coordination.
5.2 Organisation de l’annotation automatique
5.2.1 La chaîne de traitement
35 À partir des considérations précédentes, nous avons adopté la chaîne de traitement
suivante pour l’oral :
– Segmentation
– Tokenisation (avec un minimum de mots composés)
– Étiquetage en PoS
– Lemmatisation
– Intégration des informations du dictionnaire de valences3
– Élimination des « parenthèses »
– Analyse en dépendances
36 Le dispositif est tel que l’analyseur a accès à une partie de l’information contenue dans
Dicovalence (caractéristiques syntaxiques du complément, réalisations possibles en
POS, traits sémantiques des compléments (+/- subjonctif) pour désambiguïser certaines
séquences.
Corpus, 15 | 2016
58
5.2.2 Analyse morphosyntaxique
5.2.2.1 Méthode
37 Elle consiste à entraîner un programme probabiliste sur un corpus oral segmenté,
analysé manuellement en POS et Dépendances (désigné par CE). L’évaluation est faite
sur un corpus distinct annoté manuellement (désigné par CT). Le CE choisi pour
l’oral est le corpus DECODA. Il est constitué de conversations téléphoniques finalisées.
Les tours de parole généralement assez brefs sont utilisés comme segmentation. Une
partie du corpus sera re-segmentée à la main.
5.2.2.2 Les jeux d’étiquettes
5.2.2.2.1 Critères de choix
38 Nous avons adapté le jeu utilisé pour DECODA. Plusieurs critères ont guidé le choix des
étiquettes. Nous montrons sur quelques exemples comment ils ont été mis en œuvre et
articulés.
5.2.2.2.2 Fiabilité des résultats
39 L’analyse de l’item de comme PRE (préposition) ou DET dans : je n’ai pas de feu est l’objet
de nombreuses controverses linguistiques. Et son analyse automatique, source de
nombreuses erreurs. Nous avons testé deux solutions. Soit distinguer dans le CE
l’analyse en PRE et en DET, comme pour DECODA ; soit affecter à de la seule catégorie
PRE. La reconnaissance étant meilleure dans le deuxième cas, nous avons décidé de
toujours l’analyser comme une PRE, en laissant à l’analyse syntaxique la tâche de
distinguer les différentes constructions où entre cette PRE.
40 Nous voulions cependant éviter que ce choix ait des conséquences indésirables dans
l’analyse en relations de dépendance. Avec le jeu de relations original, (11) et (12)
auraient eu la même analyse en dépendance (complément prépositionnel), et (12) et
(13), des analyses différentes, ce qui est contre-intuitif sur le plan linguistique.
(11) je mange des amandes(12) je parle des amandes(13) je grille les amandes
41 C’est la raison pour laquelle nous avons introduit la relation SPE (spécifieur). La
préposition peut alors être analysée comme spécifieur dans (11), ce qui permet de dire
que le complément y est « direct » comme en (13), tandis qu’elle est complément du
verbe dans (12), qui présente donc un complément indirect.
5.2.2.2.3 Adéquation avec analyse linguistique admise
42 Comme les autres jeux de catégories et de relations, celui de DECODA reprend assez
largement les catégories de la grammaire scolaire. Cette démarche est cohérente avec
l’idée que l’analyseur ne fournit pas une analyse définitive des structures, mais permet
de rassembler des données servant de base à des analyses qui peuvent être
d’orientations théoriques différentes. La grammaire implicite sous-jacente à
l’établissement des étiquettes doit donc tendre vers cette Basic Linguistic Theory, dont le
descriptiviste Dixon dit qu’elle est la grammaire traditionnelle, moins les erreurs les
Corpus, 15 | 2016
59
plus flagrantes. C’est, en fait, cette direction que nous avons suivie en intégrant à notre
grammaire implicite certains acquis de la linguistique descriptive. La différence
principale tient à l’articulation catégorie/fonction. La grammaire traditionnelle
distingue plusieurs fonctions (épithète, complément de nom) en relation avec les
catégories concernées (adjectif, groupe nominal), là où les approches descriptives ne
voient qu’une seule relation (complément) pouvant porter sur plusieurs catégories.
43 Ce principe nous a amenés à réduire le nombre de relations par rapport au jeu
d’étiquettes DECODA, comme on le verra plus bas ; à supprimer la catégorisation
multiple en adverbe, préposition, conjonction, en fonction du contexte pour des mots
comme pour, sans, après, au profit de la classification unique comme PRE, adoptée par la
linguistique descriptive ; à distinguer la catégorie déterminant (DET) de la relation
syntaxique Spécifieur (SPE). Le SPE est le dépendant gauche du N en position sujet. Les
DET sont les items qui ne peuvent exercer que cette fonction. Le dépendant SPE peut-
être un DET (le livre) un adjectif (quelques livres), une préposition : j’ai de beaux
livres… Parfois, le critère d’adéquation descriptive entre en conflit :
– tantôt avec celui de fiabilité des résultats produits par l’analyseur.
44 Ainsi, la catégorie PRQ (pronom qu-) est en adéquation avec les descriptions
contemporaines en ce qu’elle ne distingue pas pronoms relatifs et pronoms
interrogatifs au niveau des POS et efface la distinction entre pronoms (quoi) et adverbes
(où) relatifs. Mais nous avons maintenu, malgré son inadéquation descriptive, la double
catégorisation traditionnelle de que en PRQ et CSU (conjonction de subordination) et
classé qui sujet PRQ pour faciliter la reconnaissance des relatives par rapport aux
complétives. En effet, les programmes ne pouvant reconnaître ce qui serait dans
certaines analyses linguistiques une catégorie vide, analyser les que dans les relatives
comme conjonctions (complémentiseurs) aboutirait à donner la même analyse
syntaxique à le fait qu’il a signalé et le fait qu’il ait regretté ça.
– tantôt avec celui de la facilité de compréhension par l’utilisateur.
45 En dehors des classes réduites CLI (clitique) et PRQ, on maintient la distinction entre
pronom (lui, quelqu’un ) et adverbe (là, quelque part ) sur critère morphologique
conformément aux analyses les plus courantes.
5.2.2.3 Jeu d’étiquettes POS
46 L’adaptation du jeu DECODA s’est faite de façon automatique. Le travail principal a été
la révision du dictionnaire LEFFF, en particulier pour le traitement des composés. Le
tableau ci-dessous présente les étiquettes retenues dans le projet.
Corpus, 15 | 2016
60
Figure 2. Liste des étiquettes retenues
47 La classe interjection regroupe les mots qui ne peuvent avoir de gouverneurs (sauf
verbes introducteurs de discours direct), à savoir les interjections classiques (eh, hélas,
bof…) et des items qui sont aujourd’hui classés comme particules discursives (euh, ben,
voilà…). La performance globale de l’étiqueteur en POS est de 98,25 % conforme aux
standards en matière d’analyse de l’oral. L’évaluation a été faite sur une partie de
DECODA annotée manuellement.
5.2.2.4 Jeu d’étiquettes des relations de dépendances
48 Nous sommes partis du jeu de relations utilisé pour DECODA, soit :
Figure 3. Relations utilisées pour le corpus DECODA
OBJ objet direct
AFF clitique sans fonction (s’en aller)
D-COORD dépendant de la conjonction de coordination
MOD modifieur (complément autre qu’objet du verbe)
SUJ sujet
Corpus, 15 | 2016
61
ROOT racine de l’énoncé ou absence de gouverneur
MOD_REL lien antécédent relative
AUX lien verbe-auxiliaire
P_OBJ objet prépositionnel
COORD dépendant de la conjonction de coordination
DET déterminant
49 Nous l’avons modifié à la suite de l’évaluation des résultats qui peut être résumée dans
le tableau ci-dessous. Le tableau indique d’abord la relation, puis sa fréquence, puis la
précision de la reconnaissance, et enfin l’impact de la précision en fonction de la
fréquence.
Figure 4. Evaluation des résultats
LABEL FREQ ACC IMPACT
OBJ 19.55 90.51 11.32
AFF 1.20 94.08 0.44
D-COORD 2.31 83.56 2.32
MOD 12.86 75.16 19.52
SUJ 11.37 95.89 2.86
ROOT 26.50 80.83 31.06
MOD_REL 0.65 65.24 1.38
AUX 1.53 98.71 0.12
P_OBJ 4.02 71.30 7.05
COORD 1.41 69.58 2.62
DET 8.39 94.19 2.98
DISFLINK 10.19 70.48 18.41
50 En général, on observe 87 % de bons gouverneurs et 84 % de bonnes étiquettes. (Le
corpus d’entraînement et de test est DECODA). Le rappel des résultats pour l’écrit de
référence (French Treebank : 87 %).
51 La Figure 5 présente le résultat d’une analyse correcte sous forme tabulaire simplifiée.
La première colonne donne l’ordre linéaire des items ; la deuxième, l’item ; la troisième,
Corpus, 15 | 2016
62
le lemme ; la quatrième, la POS ; la cinquième, la position du gouverneur ; et la
dernière, la fonction de l’item numéroté dans la première colonne. Cette présentation
sera transformée en un format plus classique de Treebank pour l’utilisateur.
Figure 5. Analyse syntaxique d’une portion de DECODA
1 ah ah INT 0 ROOT
2 non non INT 0 ROOT
3 ça ça CLI 7 SUJ
4 a avoir VRB 6 AUX
5 pas pas ADN 7 MOD
6 été être VPP 7 AUX
7 enregistré enregistrer VPP 0 ROOT
8 dans dans PRE 7 DISFLINK
9 le le_ DET 8 DISFLINK
10 dans dans PRE 7 MOD
11 le le DET 12 DET
12 métro métro NOM 10 COMP
52 Ces tableaux permettent notamment de repérer les sources d’erreurs les plus
fréquentes. Mais une première source d’erreurs pourrait bien découler d’un fait
général : il est difficile d’annoter automatiquement des données très éloignées de celles
qui ont été utilisées pour entraîner l’analyseur syntaxique. Des essais sont en cours
pour pallier cette difficulté :
– Ajouter au Corpus d’entraînement d’autres types de corpus annotés en relations :
Rhapsodie, le French Treebank ;
– Annoter manuellement un ensemble de « genres » différents pour ré-entraîner le
parseur, voire procéder à différents paramétrages.
53 Une deuxième source d’erreurs tient sans doute au nombre de relations à identifier. On
trouve ainsi, dans DECODA, pour les dépendances verbales : Pobj ; obj ; mod ; mod_rel.
Leur taux de reconnaissance est très variable : 90 % pour obj, mais mod, Pobj et mod_rel
ne sont reconnues qu’à moins de 75 %. Nous avons choisi d’éliminer le plus possible les
relations à problèmes. Les étiquettes mod, mod_rel, Pobj sont un héritage de la
tradition, mais elles représentent en fait une seule relation de dépendance au verbe, les
distinctions étant en réalité redondantes avec l’analyse en POS des compléments (NP,
PP, ADV…). Nous avons donc réduit toutes ces relations à deux : OBJ pour objet direct et
COMP (pour les autres cas). L’utilisation des informations contenues dans le
dictionnaire de valences permet ensuite de distinguer sur des bases fiables, parmi les
COMP, ceux qui appartiennent à la valence des verbes, seule distinction à la fois
Corpus, 15 | 2016
63
linguistiquement pertinente et utile pour la désambiguïsation des séquences. Nous
travaillons donc, pour l’instant, avec le jeu suivant de relations, présentées ici en
fonction du gouverneur :
– Pour le gouverneur Verbe, on retient les relations de dépendance AUX, COMP et OBJ.
– Pour les autres gouverneurs (ADJ, NOM, ADV, PRE…), on utilise SPE et COMP.
– Les conjonctions de coordination ont un système particulier de dépendances, elles
sont reliées par la relation COOR à leur gouverneur et par la relation COMP à leur
dépendant.
54 Des évaluations du nouveau dispositif sont en cours sur une partie segmentée du
corpus ORFÉO. Nous constituerons à partir de là une liste de constructions présentant
des difficultés d’analyse et donc exigeant un approfondissement du traitement
syntaxique.
6. Plate-forme d’accès et de requêtes
55 Le travail est en cours, notamment grâce à Lari Lampen, en contrat d’ingénieur
d’études, sous la responsabilité de Kim Gerdes et de Sylvain Kahane. La première tâche
a consisté à évaluer les plates-formes actuelles d’interrogation de corpus arborés
(treebanks). L’outil Annis, développé actuellement à l’Université de Postdam
(Allemagne), a été jugé le plus performant pour le projet, sous réserve de modifications.
La première concerne la possibilité d’accepter plusieurs formats qui peuvent être
appareillés : TEI, CONLL.
56 La deuxième modification en cours doit permettre de gérer des fichiers à plusieurs
stades de développement, avant ou après intégration de certaines annotations,
lesquelles peuvent ensuite être modifiées. De même, les formats d’encodage peuvent
être amenés à évoluer, notamment lors de l’intégration à la plate-forme Ortolang dans
la phase finale.
57 L’interface utilisateur prévoit, outre la constitution d’un corpus de travail à partir des
métadonnées des corpus existants, plusieurs niveaux d’interrogation. Un niveau de
requête simple aboutira à une consultation « à la Google » et à un tableur présentant
des indications statistiques sur la fréquence de l’item choisi. Un niveau intermédiaire
sera dédié à la recherche par lemme et POS. Ces deux interfaces constituent une
surcouche par rapport à l’interface de requêtes d’Annis, qui permet, elle, des
interrogations en dépendances.
58 Par ailleurs, les données seront interrogeables directement par un lien vers les
différents corpus sources de la plate-forme. Le principe est que cet outil soit le plus aisé
possible à manipuler. Des fenêtres d’aide permettront aux utilisateurs novices de
comprendre le fonctionnement des outils mis à disposition (concordancier et requêtes
complexes). L’objectif du projet est en effet d’encourager l’utilisation des corpus et des
outils, que ce soit à des fins de recherche ou d’enseignement. Au moment de la
rédaction de cet article, le projet vient de se voir accorder une prolongation. La plate-
forme et les données qui lui sont associées seront donc disponibles courant 2017.
Corpus, 15 | 2016
64
BIBLIOGRAPHIE
Abeillé A., Clément L. & Toussenel F. (2003). « Building a treebank for french », in A. Abeillé (éd.)
Treebanks. Kluwer : Dordrecht.
Bawden R., Botalla M.-A., Gerdes K. & Kahane S. (2014). « Correcting and Validating Syntactic
Dependency in the Spoken French Treebank Rhapsodie », Proceedings of the 9th Language Resources
and Evaluation Conference (LREC), Reykjavik.
Benzitoun C. & Bérard L. (2010). « Mutualisation et uniformisation de ressources de français
parlé », Cahiers de praxématique 54-55 : 175-188.
Bérard L. (2014). « Dépendances à longue distance et genres textuels », Actes du Congrès mondial de
linguistique française, 2349-2365.
Boersma P. & Weenink D. (2015). Praat : doing phonetics by computer [Computer program]. Version
5.4.18, retrieved 7 September 2015 from http://www.praat.org/.
Botalla M.-A., (2014). Analyse du flux de dépendance dans un corpus de français oral annoté en
microsyntaxe, Mémoire de master, Université Sorbonne Nouvelle.
Deulofeu J. (2011). « Peut-on établir un système de ponctuation des transcriptions de textes oraux
linguistiquement fondé », Langue française 171.
Groupe ICOR (Bruxelles S., Jouin-Chardon E., Traverso V.) & Guinamard I. « “Du coup” dans
l’interaction orale en français : description de ses usages situés à partir d’une base de données
multimédia, et considérations didactiques », in Synergie pays riverains du Mékong.
Lacheret-Dujour A., Kahane S. & Pietrandrea P. (en préparation). Rhapsodie : a Prosodic and
Syntactic Treebank for Spoken French. Amsterdam : Benjamins.
Nasr A., Bechet F., Favre B., Bazillon T., Deulofeu J. & Valli A. « Automatically Enriching Spoken
Corpora with Syntactic Information for Linguistic Studies », in International Conference on Language
Resources and Evaluation (LREC), mai 2014.
Wang I. (2013). Segmentation automatique d’un corpus de français oral en unités macrosyntaxiques,
Mémoire de master, Université Sorbonne Nouvelle.
Wang I., Kahane S. & Tellier I. (2014). « Macrosyntactic Segmenters of a spoken French Corpus »,
9th Language Resources and Evaluation Conference (LREC), Iceland, 1-6.
Liste des corpus oraux constitués et mis à disposition partiellement ou intégralement par
les ayants droit :
French Oral Narrative – Janice Carruthers
http://frenchoralnarrative.qub.ac.uk/
Corpus du français parisien des années 2000 – Sonia Branca, Serge Fleury, Florence Lefeuvre
http://cfpp2000.univ-paris3.fr/
Corpus oral de français parlé en Suisse romande – Mathieu Avanzi, Marie-José Béguelin et
Federica Diémoz
http://www11.unine.ch/
Corpus de référence du français parlé – Équipe Delic
http://sites.univ-provence.fr/~veronis/pdf/2004-presentation-crfp.pdf
Corpus, 15 | 2016
65
C-ORAL-ROM – E. Cresti, M. Moneglia
http://lablita.dit.unifi.it/coralrom/
Corpus de langue parlée en interaction – V. Traverso, L. Mondada, S. Bruxelles, C. Étienne,
E. Jouin-Chardon, S. Teston Bernard
http://clapi.ish-lyon.cnrs.fr/
Corpus VALIBEL – Discours et variation – Anne Catherine Simon
http://www.uclouvain.be/valibel
Corpus TUFS – Yuji Kawaguchi
http://www.coelang.tufs.ac.jp/multilingual_corpus/fr/index.html?
contents_xml=corpus&menulang=en
Corpus Traitement de corpus écrits et oraux (TCOF) – V. André, C. Benzitoun, E. Canut, J.-
M. Debaisieux
http://www.cnrtl.fr/corpus/tcof/
Corpus Français langue étrangère universitaire, Ressources et outils numériques (FLEURON) –
V. André, M. Ciekanski, F. Poncet, J.-M. Debaisieux
https://apps.ATILF.fr/fleuron2/
(site en cours d’expérimentation)
Corpus d’entretiens – Ensemble de transcriptions fournies par S. Caddéo, J.-M. Debaisieux, et
élaborées dans le cadre d’enseignements
Corpus de réunions de travail – M. Husianycia (élaboré dans le cadre de son travail de thèse)
http://www.ATILF.fr/IMG/pdf/theses/These_Husianycia_Magali_2011.pdf
Corpus Rhapsodie - A. Lacheret
http://www.projet-rhapsodie.fr/
NOTES
1. Le logiciel JTrans est librement téléchargeable à l’adresse suivante : https://github.com/
synalp/jtrans/releases/latest.
2. http://www.projet-orfeo.fr/
3. Le dictionnaire choisi est Dicovalence (www.bach.arts.kuleuven.be/ dicovalence/).
RÉSUMÉS
L’article présente le projet ORFEO (outils pour l’étude du Français écrit et oral). Ce projet a
consisté à rassembler 4M de mots de Français oral et 6M de mots d’écrit à partir de ressources
existantes. Les ressources orales ont été unifiées dans un format trs et alignées avec les fichiers
sons au phonème. Les corpus sont présentés avec des métadonnées qui permettent de constituer
des sous-corpus d’étude. Les données orales ont été segmentées et annotées en POS et relations
de dépendance semi automatiquement. La précision des annotations a fait l’objet d’une
Corpus, 15 | 2016
66
évaluation. L’ensemble est interrogeable à partir d’une plateforme adaptée du logiciel libre
ANNIS. La ressource sera mise à disposition en open source courant 2017.
The paper presents the outcomes of the project ORFEO (tools for the study of spoken and written
French). The outcomes consist of a 4M words spoken French and 6M written French sampled
corpus. Detailed metadata allows the user to build his own study corpus according to his research
purposes. Oral resources have been unified under trs. Format aligned with sound files. Spoken
data have been segmented and annotated into POS and dependency relations. The precision of
these annotations has been evaluated and meets the current standards. Queries are possible
through a platform adapted from ANNIS free software. The whole resource will be available
during the year 2017.
INDEX
Keywords : equipped corpus, spoken and written French, POS annotation, dependency
annotation
Mots-clés : corpus outillé, français parlé, français écrit
AUTEURS
CHRISTOPHE BENZITOUN
Université de Lorraine, Atilf UMR 7118
JEANNE-MARIE DEBAISIEUX
Université Paris 3 Sorbonne Nouvelle, Lattice UMR 8094
HENRI-JOSÉ DEULOFEU
Université Aix-Marseille, Lif UMR 7279
Corpus, 15 | 2016
67
Le Corpus de français parlé auQuébec (CFPQ) et la langue desconversations familières : Exemplede mise à profit des données à partird’un examen lexico-sémantique dela séquence je sais pasThe Corpus de français parlé au Québec (CFPQ) and the Language of Informal
Conversation. An Example of Data Mining Based on a Lexical-Semantic
Examination of the Sequence je sais pas
Gaétane Dostie
1 Cet article se déroule en deux temps. Il présente d’abord le contexte général ayant
conduit à l’élaboration du Corpus de français parlé au Québec (CFPQ) et les principes
méthodologiques ayant présidé à sa confection (section 1). Il illustre ensuite l’intérêt
que représente cette ressource documentaire pour l’étude de la langue parlée en
contexte informel par le biais d’un examen lexico-sémantique d’une séquence qui y est
fréquente, à savoir je sais pas (section 2).
1. Présentation du corpus
1.1 Les corpus lexicaux québécois
2 En 1997, le Secrétariat à la politique linguistique du Québec lançait une vaste entreprise
afin de donner accès, à partir d’un portail commun, aux principaux corpus de langue
qui avaient été constitués jusque-là dans les universités québécoises. Le projet, du nom
de « Corpus lexicaux québécois », prenait fin en 2007. Le site Internet créé reliait
désormais entre eux 15 corpus reflétant la langue, d’époques différentes, en usage dans
Corpus, 15 | 2016
68
des genres communicatifs extrêmement variés (p. ex. : textes littéraires parus entre
1837 et 1919, entrevues dirigées et semi-dirigées réalisées entre 1960 et 1990 dans le
cadre d’enquêtes sociolinguistiques…).
3 Huit ans plus tard, ce site est toujours accessible et les objectifs poursuivis par ses
promoteurs y sont énoncés dans les termes suivants :
• Mettre en œuvre des actions concertées visant l’emploi et la qualité du français enusage au Québec.• Instrumenter les chercheurs en vue de permettre une description scientifique dufrançais en usage au Québec.• Favoriser l’élaboration d’ouvrages de référence qui peuvent tenir compte de laréalité linguistique québécoise (faune et flore, géographie, institutions etorganisations sociopolitiques, environnement, etc.).• Créer, dans Internet, un réseau de banques de données textuelles représentativesdu français en usage au Québec à l’intention des chercheurs québécois et autresinternautes de la Francophonie.• Accroître la participation et la visibilité du Québec au sein de la francophonieinternationale.Site : Secrétariat à la politique linguistique,Gouvernement du Québec1.
4 La consultation simultanée des corpus ici regroupés se veut simple et efficace. « On
peut taper [peut-on lire], par exemple, les mots bozo, bouette, érablière ou ouananiche, et
découvrir pour chacun ce qu’en révèlent les différentes sources de ces riches corpus »
(site : Secrétariat à la politique linguistique, Gouvernement du Québec).
5 Conformément à ses objectifs, la base de données « Corpus lexicaux québécois »
constitue une référence précieuse pour décrire une partie non négligeable du lexique
propre à la culture québécoise – notamment, les unités à valeur référentielle comme
celles données en exemple ci-dessus. Cependant, elle est moins propice à soutenir les
analyses axées sur la langue contemporaine usitée dans les conversations familières.
Cette forme de langue, on le sait, foisonne de marqueurs à valeur grammaticale et
pragmatique, soit absents des ouvrages de référence, soit décrits de manière plutôt
sommaire. À ce chapitre, un exemple récent dans les anales lexicographiques
québécoises est celui du dictionnaire Usito (2012-) où, à titre illustratif, les expressions
et mots suivants, typiques de la langue de tous les jours, n’ont pas droit de cité : coudon,
pis, mets-en, fait que, ben / ben ben…
6 En un sens, on ne peut reprocher à Usito d’ignorer tout un pan du lexique courant, dans
la mesure où il vise à « décrire le français standard en usage au Québec », indique-t-on
sur son site internet2. Voilà donc qui explique en partie maintes exclusions3, auxquelles
il apparaît tout aussi légitime d’accorder priorité.
1.2 Le CFPQ et la langue des conversations familières
7 C’est dans le contexte exposé ci-haut que le projet relatif à la création du Corpus de
français parlé au Québec (CFPQ) a vu le jour. Son but, clairement affiché, était de venir
appuyer les études sémantiques portant sur le lexique caractéristique de la langue orale
familière, notamment les études axées sur les marqueurs à valeur grammaticale et
pragmatique. Les travaux entourant la mise en place du corpus ont démarré en 2006
dans le cadre des activités du Centre d’analyse et de traitement informatique du
français québécois (CATIFQ) de l’Université de Sherbrooke4.
Corpus, 15 | 2016
69
8 Le CFPQ regroupe aujourd’hui 30 sous-corpus de conversations à bâtons rompus
enregistrées sur support audiovisuel ; chacun d’entre eux dure approximativement
1 heure et demie. Au total, 45 heures d’enregistrement ont ainsi été effectuées entre
2006 et 2013, dans diverses régions du Québec. Les différents sous-corpus mettent en
scène 3 ou 4 locuteurs qui se connaissent très bien. En tout, 109 locuteurs, dont l’âge va
de 15 à 95 ans, ont pris part au projet ; ils discutent librement, dans un lieu familier, de
sujets divers (p. ex. : le travail, la maladie, les loisirs, les autres…).
9 Une trentaine d’étudiants assistants ont collaboré aux travaux du CFPQ
(enregistrements, transcription, révision, support technique…), et un analyste-
informaticien à l’emploi de l’Université de Sherbrooke a assuré la mise en place de la
base de données (accessible en ligne) à laquelle nous revenons un peu plus bas.
10 Les transcriptions sont effectuées à l’aide du logiciel Transana, qui permet un
alignement du son, de l’image et du texte. Les conventions de transcription, présentées
sur le site du corpus, sont relativement standards pour la langue orale. Celles-ci visent
à refléter, au mieux, le caractère multimodal des interactions verbales en face-à-face.
Ainsi, en plus de noter le matériel verbal (c’est-à-dire les mots selon l’orthographe
habituelle), les transcripteurs prennent également en compte le matériel paraverbal (p.
ex. : les pauses, la vitesse et le volume de la voix) et le matériel non verbal (les gestes
significatifs sur le plan communicationnel, comme hocher la tête négativement ou faire
un clin d’œil en signe de complicité).
11 La base de données, créée en 2011, permet actuellement d’effectuer des recherches
dans 21 sous-corpus, ce qui correspond à 31 heures et demie de conversations à bâtons
rompus. Dans leurs versions transcrites, ces sous-corpus équivalent à 471 575 unités
graphiques au sein desquelles figurent 21 016 unités graphiques différentes. Les
transcriptions des 9 derniers sous-corpus sont déjà bien amorcées et devraient être
disponibles prochainement5. La taille finale du corpus sera alors d’environ
675 000 unités graphiques.
12 Le site Internet du CFPQ présente les métadonnées relatives aux enregistrements
(dates, lieux, principaux thèmes abordés…), aux participants (âges, professions/
occupations, scolarité…) et aux transcriptions (dates où elles ont été effectuées, nom
des transcripteurs…). À l’exception des informations portant sur les transcriptions, les
métadonnées peuvent faire l’objet d’une recherche croisée avec des données dans les
fichiers-textes (tous téléchargeables en format PDF). En guise d’exemple, il est possible
d’effectuer des recherches combinant l’âge et la scolarité, d’un côté, et tel ou tel
marqueur, de l’autre.
13 Par ailleurs, le site présente, par ordre décroissant, les unités graphiques les plus
fréquentes sur une base individuelle, de même que les séquences les plus fréquentes où
2, 3, voire 4 unités graphiques apparaissent en cumul. Ainsi, on découvre que c’est ça,
parce que et fait que se logent respectivement au premier, deuxième et troisième rangs
pour ce qui concerne les séquences les plus fréquentes du corpus composées de 2 unités
graphiques. De même, on repère, de manière automatique sur le site, les unités
graphiques les plus souvent répétées en contiguïté (de 2 à 5 fois). Sur ce point, il n’y a
pas de surprise : non non non non non est la séquence la plus fréquente dans laquelle une
même unité figure 5 fois de suite. Elle est suivie de près par oui oui oui oui oui.
14 Ces deux derniers exemples illustrent bien le fait que le CFPQ est un corpus de langue
orale typique des interactions verbales spontanées. De ce fait, il constitue un bon
Corpus, 15 | 2016
70
repère pour identifier les marqueurs et les séquences de mots à étudier en priorité, si
l’objectif est d’accorder une attention spéciale à la langue des conversations familières,
en vue notamment de la voir un jour mieux représentée dans les dictionnaires… Cela
dit, dans la mesure où ce dernier point relève pour l’immédiat davantage de l’utopie
que de la réalité, nous le laisserons en suspens pour nous attaquer maintenant à notre
étude de cas à partir des données prélevées dans le corpus.
2. Je sais pas : de séquence verbale à marqueurdiscursif
15 Nous présentons dans ce qui suit quelques données quantifiées qui font ressortir
l’intérêt d’examiner la séquence morphologiquement complexe je sais pas, en français
québécois spontané (section 2.1). Par la suite, nous portons notre attention sur ses
emplois verbaux (section 2.2) afin d’établir comment celle-ci a pu en venir à acquérir
une valeur qui l’apparente, dans certains contextes, à un marqueur discursif (MD), tel
que souligné notamment dans Gauvin 1999, de Sève 2005 et Pop 2009 (voir aussi sur I
don’t know en anglais, qui est proche de je sais pas, Diani 2004, Grant, 2010 et Aijmer,
2014). Nous focalisons notre attention, en terminant, sur la valeur discursive associée à
l’expression considérée et insistons sur le double rôle qu’elle assume alors : ce rôle est
de l’ordre à la fois de la collaboration et de la protection de soi (section 2.3).
16 L’étude d’une séquence telle je sais pas ramène vite à la problématique classique relative
à la dissymétrie entre la première personne du présent de l’indicatif et les autres
personnes de la conjugaison propre à certains verbes appelés diversement, entre
autres, verbes assertifs, verbes parenthétiques et verbes d’attitude propositionnelle, comme je
crois que P, je trouve que P et je sais que P (notamment, Urmson 1952 ; Récanati 1984 ;
Schneider 2007a, 2007b et 2013). Nous y revenons plus loin.
2.1 Quelques données quantifiées
17 Notre intérêt pour je sais pas (prononcé [ʃepɑ]) vient d’abord d’un constat : sa fréquence
d’emploi est particulièrement élevée dans le CFPQ, eu égard à sa morphologie
complexe. Ainsi, il s’agit de la séquence la plus fréquente du corpus composée de
3 unités graphiques. On en trouve 705 occurrences, ce qui la place devant les 4
séquences complexes suivantes, elles aussi formées de 3 unités graphiques se succédant
dans le texte : en tout cas (576 occurrences), oui c’est ça (352 occurrences), fait que là
(332 occurrences) et tout le temps (313 occurrences). De plus, le CFPQ contient
97 occurrences d’une forme équivalente à je sais pas, transcrite je le sais pas (prononcée
[ʒəlʃepɑ]), si bien que le nombre total d’occurrences relatif à la séquence en question
est en réalité encore plus important (on en dénombre 802 en tout).
18 L’importance quantitative de je sais pas dans le CFPQ et donc, vraisemblablement, dans
les conversations à bâtons rompus, se vérifie encore de deux façons :
– le plus souvent, (le) sais pas est précédé, dans le corpus, de je et non pas de tu. Il y a en
effet 1 050 occurrences de (le) sais pas, ce qui signifie que dans 76 % des cas c’est je qui
introduit (le) sais pas et non pas tu. Les séquences il (le) sait pas et on (le) sait pas
n’apparaissent, quant à elles, que 7 fois et 38 fois, respectivement ;
Corpus, 15 | 2016
71
– de même, la probabilité est grande pour que pas suive immédiatement je (le) sais. À ce
propos, le corpus renferme 900 occurrences de je (le) sais, ce qui revient à dire que pas
figure à sa droite dans 89 % des cas6.
19 En somme, ce n’est pas seulement la fréquence élevée de je (le) sais pas qui frappe dans
l’ensemble des séquences complexes utilisées dans notre corpus ; c’est aussi – et peut-
être même davantage – la forte attirance exercée entre je, (le), sais et pas. De là, on peut
supposer que le degré d’« entrenchment » (c’est-à-dire d’enracinement) relatif à la
suite considérée est grand, qu’elle est mémorisée en tant que séquence
morphologiquement complexe ayant atteint, dans certains contextes, un degré élevé de
figement (entre autres, Langacker 1987 : 59-60). Parmi ces contextes se trouvent ceux
où elle agit à titre de MD7.
2.2 Je sais pas : séquence verbale
20 Savoir a un potentiel pour la factivité : le locuteur en use, dans certains contextes, en
présupposant la véracité de la proposition complément (Kiparsky & Kiparsky, 1970).
Nous disons que ce verbe a un potentiel pour la factivité, parce qu’il n’est pas
systématiquement employé de manière factive, ce qui en fait un verbe semi-factif
(Levinson, 1983 ; Korzen, 2001). Il sera factif notamment dans les contextes positifs
comme celui relevé en (1) où la proposition P renvoie à l’idée, présentée comme vraie
par J.-M., selon laquelle la prière effectuée par une tierce personne (en l’occurrence,
une étudiante prénommée Hasmina) diffère quelque peu de celle faite par les
catholiques.
(1) M. : non mais [ <all<t’sais>> elle se décrit comme une bonne musulmane là jeveux dire elle respecte ses paRENTS elle respecte t’sais <dim<la plupart des des>> (.)pis elle fait sa prière sauf que elle elle nous l’a bien dit que genre la priÈre pi :s peuimporte les ablutions tout ce qui va avec (.) euh (.) t’sais pour elle c’est comme (.)dans le Coran son interprétation à elle en tout cas c- elle ce qu’elle nous disait c’estque […]J.-M. : mais (.) la prière du vendredi je sais que c’est une priè :re qui est comme unpeu différente des autres là(CFPQ, sous-corpus 10, segment 1, p. 3, ligne 5)
21 Savoir perd sa factivité dans certains contextes négatifs 8, dont celui présenté en (2) :
nous y trouvons alors la séquence qui nous intéresse particulièrement, c’est-à-dire je
sais pas. Dans cet exemple, savoir n’est pas factif puisque J affirme précisément ne pas
savoir à quelle heure elle s’est levée, en réponse à la question de K. Notons qu’il refuse
la construction complétive *je ne sais pas que P pour des raisons sémantiques évidentes :
il serait pour le moins curieux d’affirmer qu’on ne sait pas si ce qu’on présente comme
vrai est vrai9. La construction en si P serait en revanche acceptable puisqu’elle
donnerait une valeur hypothétique à la subordonnée conformément au sémantisme du
verbe lorsqu’il est nié à la première personne du présent de l’indicatif, ce que montre
(3).
(2) K : [tu t’es levée à quelle heure toi à matin/J : [(inaud.)J : à quelle heure/K : hum hum J : je sais pas
Corpus, 15 | 2016
72
C : (RIRE) tard
(CFPQ, sous-corpus 17, segment 1, p. 11, ligne 7 ; 8 min, 4 s)(3) VE : je sais pas si ça dérange si on est cinq / (RIRE)
(CFPQ, sous-corpus 19, segment 6, p. 54, ligne 26 ; 3 min 18 s)
22 À côté de l’emploi où la séquence je sais pas sert au locuteur à indiquer son ignorance
vis-à-vis de la proposition P, comme en (2), on en trouve un second, où elle lui permet
cette fois d’indiquer un doute ou une incertitude face à la véracité de cette proposition,
comme en (4). Cet emploi n’est donc pas sans rappeler celui illustré en (3), sauf qu’ici, il
y a économie de la proposition si P.
(4) J : pis le Planétarium K : ouin non tu feras je pense pas que tu vas pouvoir y aller (en souriant et en hochantlégèrement la tête négativement)C : <p<je sais pas>> (en souriant légèrement) J : <pp<euh je pense que tu peux>> (en hochant la tête affirmativement) mais si tu tefais refuser (en haussant les épaules comme pour signifier « tant pis ») euh ben tudemanderas à ton prof (en inclinant la tête vers la droite comme pour désigner lapersonne dont elle parle) (CFPQ, sous-corpus 17, segment 4, p. 43, ligne 15 ; 2 min 40 s)
23 Ainsi, en (4) comme en (2), je sais pas renvoie à l’expression d’un savoir déficient, ce que
souligne Diani 2004 pour I don’t know. Par exemple, en réaction à l’affirmation de
l’interlocutrice K, selon laquelle il ne sera pas permis à C d’aller au Planétarium, cette
dernière utilise je sais pas en (4) pour signaler une incertitude vis-à-vis de ce qui est dit
(et non une négation catégorique). Je sais pas est alors proche de formules comportant
un modalisateur épistémique du type je suis pas certain ou je suis pas sûr. Dans l’exemple
considéré, tout porte à croire que l’incertitude exprimée par C quant à la véracité de P
tient au fait qu’elle cherche à ne pas contrer K ouvertement. De ce point de vue, l’usage
de la séquence examinée relève d’une stratégie de politesse qui consiste à ne pas
afficher de but en blanc son désaccord avec l’interlocuteur afin de ne pas heurter sa
face positive (Brown & Levinson, 1987 ; Diani, 2004 ; Aijmer, 2014).
24 De même, en (5), le locuteur S utilise je sais pas pour exprimer une incertitude face à
l’affirmation de R et non pour s’y opposer. L’intonation montante, bien notée dans cet
exemple par le transcripteur, paraît assez typique de l’emploi discuté. Celle-ci n’induit
pas une valeur de question, en ce sens que le locuteur ne se demande pas « s’il sait que
P ». Au contraire, l’emploi sous examen paraît davantage correspondre à ce que
Kerbrat-Orecchioni (1991) appelle une « quasertion » ou une « semi-question », c’est-à-
dire à un acte illocutoire intermédiaire entre l’assertion pure et simple et la question en
bonne et due forme. Je sais pas joue ici un double rôle : en premier lieu, il permet au
locuteur d’exprimer une incertitude face à ce qui est dit et, en second lieu, il constitue
un moyen, peu contraignant pour l’interlocuteur, de tenter de vérifier, sans en avoir
l’air, l’exactitude de ses propos, un peu comme un ah bon↑, un ah oui↑ ou un
vraiment↑. Nous disons qu’il s’agit d’un moyen peu contraignant d’agir de la sorte, parce
que l’interlocuteur peut décider de ne pas réagir à une semi-question, alors qu’il lui
serait plus difficile, sur le plan interactionnel, d’ignorer une véritable question sans
risque de paraître un tantinet malpoli. Ainsi, R laisse en suspens l’assertion-question de
S en (5) sans qu’aucun malaise entre les interactants semble s’installer.
(5) [En parlant d’un enfant turbulent dont on est en train de raconter les méfaits, lelocuteur dit :]R : il est (.) il est dur pour son corps pis il est dur sur le corps des autres J : oui (dit en riant)
Corpus, 15 | 2016
73
(RIRE GÉNÉRAL)
B : sur le corps pis sur le moralS : mais que tu le connaisses tu vas comprendre tout qu’est-ce qu’on te dit/ (.)seigneur […]R : les oreilles [doivent lui siller lui J : [mais il comprendra [pas (.)S : [je sais pas↑ (en réaction à ce que dit Robert)J : il comprendra pas (.) pas parce qu’il est pas fin ↓ mais parce que tout le mondequi le rencontre il trouve qu’il est juste charmant (CFPQ, sous-corpus 15, segment 8, p. 138, ligne 12 ; 4 min 55 s)
25 Dans les exemples précédents, la séquence je sais pas a incontestablement un statut
verbal. À ce titre, elle n’est pas figée à la première personne du présent de l’indicatif, si
bien qu’on rencontre des emplois tels je savais pas et on sait pas, comme en (6) et (7). En
(6), je savais pas nie un savoir, en écho à l’exemple (2) ; en (7), on sait pas indique une
possibilité, parallèlement aux exemples (4) et (5).
(6) E : ouin ouin il y a juste le : le coussin là (en désignant le coussin sur lequel elle estassise) [le rembourrage là que j’ai fait faire I : [ah ouin/ ah <p<ouin ça je je>> [ah/ ouais ah/ je savais pas\ É : [mai :s <f<il a du TALENT le frérot↑ hein↑>> (CFPQ, sous-corpus 16, segment 1, p. 2, ligne 19 ; 1 min)(7) A : oui apparemment qui q- apparemment qu’ils avaient été averTIS (en pointantson crayon dans les airs comme pour insister sur ses propos) (.) que c’était (.)R : ben c’est possible qu’ils aient pu faire quelques e- éléments de risquesadditionnels AN : ah ça on peut on sait pas hein /(CFPQ, sous-corpus 20, segment 7, p. 78, ligne 15 ; 1 min 32 s)
2.3 Je sais pas : marqueur discursif
26 Comme cela était à prévoir, le MD je sais pas ne joue pas un rôle au sein de l’énoncé, si
bien que sa suppression ne rend pas agrammaticale la répartie du locuteur qui en use10.
Ainsi, le segment textuel pis c- me semble ça nous CALME ça fait du bien serait
syntaxiquement recevable en (8).
(8) M : on s’éVADE là-dedans (.) c’est pas croyable comme on s’évade dans ça (.) desfois là euh : ben là ça fait euh : quasiment six mois que j’ai pas touché à mon pianolà mais euh quand ça me le disait là je m’en allais au piano pis j’improvisais là pist’sais euh t’sais euh •vas-y vas-y° là pis c- je sais pas me semble ça nous CALME çafait du bien (.) ouin (en hochant la tête affirmativement) (CFPQ sous-corpus 11, segment 5, p. 60)
27 Dans l’emploi considéré, la séquence je sais pas correspond à ce que Schneider 2007a et
2007b appelle une « clause parenthétique réduite » à valeur modale. Elle présente,
grosso modo, les particularités sémantiques les plus communes dégagées par Urmson
1952, dans l’extrait suivant, pour ce qu’il nomme « verbes parenthétiques ».
They [= parenthetical verbs] themselves have not, in such a use, any descriptive sensebut rather function as signals guiding the hearer to a proper appreciation of thestatement in its context, social, logical, or evidential. They are not part of thestatement made, or additional statements, but function with regard to a statementmade rather as ‘READ WITH CARE’ functions in relation to a subjoined notice, or asthe foot stamping and saluting can function in the Army to make clear that one ismaking an official report. Perhaps they can be compared to such stage-directions as
Corpus, 15 | 2016
74
‘said in a mourful (confident) tone’ with reference to the lines of the play. They helpthe understanding and assessment of what is said rather than being a part of whatis said. (Urmson, 1952 : 495-496)
28 Dans ce cadre, je sais pas se loge dans la troisième des 4 classes (concernant les clauses
parenthétiques réduites) identifiées par Schneider 2007a et 2007b. Celle-ci réunit des
marqueurs mettant en jeu des verbes de croyance qui ont grosso modo comme fonction,
selon l’auteur, « d’atténuer directement l’obligation communicative du locuteur ». Cela
étant, il reste maintenant à préciser comment s’opère le passage du verbe savoir au je
sais pas discursif à portée atténuante.
29 Dans l’un de ses emplois verbaux, nous l’avons vu, la séquence je sais pas permet au
locuteur d’indiquer que, pour lui, la proposition P est indéterminée. Lorsque celle-ci
fait office de MD, il y a déplacement de l’indétermination : elle se situe non plus vis-à-
vis d’une proposition P et donc du dit, mais plutôt vis-à-vis du dire. De ce fait, le
locuteur signale, en usant du marqueur, qu’il est engagé dans un processus cognitif
relatif à la mise en mots de sa pensée. Il hésite et se demande à voix haute que dire et/
ou dans quels termes. En guise d’exemple, la locutrice VE manifeste explicitement, par
je sais pas en (9), qu’elle est en mode réflexif, qu’elle cherche comment poursuivre sa
narration. Cela ressort d’autant mieux, ici, que la séquence sous examen est précédée
d’une marque d’hésitation explicite (cf. euh) et d’une pause relativement longue (de
près de 3 secondes). De plus, les premiers mots qui suivent immédiatement je sais pas ne
forment pas un texte fluide. On y retrouve ce que Blanche-Benveniste (1997 : 21)
appelle un « entassement paradigmatique » : c’était si est en concurrence, au plan
paradigmatique, avec c’est qui est finalement l’option retenue pour l’enchaînement
narratif (cf. c’est important de faire des beaux partys de Noël). Ce court extrait montre donc
que je sais pas est une trace, parmi d’autres, qui traduit, dans le texte, l’effort cognitif
que fournit le locuteur au moment même où il met en mots sa pensée.
(9) VE : c’est cool des partys de Noël sérieux c’est comme euh (2,8”) je sais pas jetrouve que c’était si c’est important de faire des beaux partys de Noël (CFPQ, sous-corpus 19, segment 6 p. 52, ligne 2 ; 11 s)
30 En affichant ouvertement, grâce à je sais pas, qu’il est en mode réflexif et qu’il est
hésitant, le locuteur pose ouvertement un regard critique sur les limites de son savoir :
son dit a pour cette raison une allure plus ou moins assurée. Ce faisant, celui-ci
collabore honnêtement à l’échange. Il respecte en tous points les maximes
conversationnelles du type formulées par Grice 1979 et plus spécifiquement la sous-
maxime de qualité que l’auteur énonce comme suit : « N’affirmez pas ce que vous
croyez être faux ; n’affirmez pas ce pour quoi vous manquez de preuve » (p. 61). Je sais
pas est donc un marqueur foncièrement interactionnel qui s’inscrit dans une démarche
collaborative. Par exemple en (10), sa présence illustre le fait que H, sans y avoir
réfléchi au préalable, cherche dans le vif de la discussion, une solution au dilemme
apparent d’un tiers absent11 : écouter une émission de télévision ou aller à une fête à
l’occasion d’un mariage. La solution avancée est qu’il n’y a pas forcément à choisir. Les
deux activités sont possibles, si l’émission de télévision est enregistrée ou écoutée lors
d’une reprise le lendemain.
(10) H : enregistre-le je sais pas ou écoute-le demain là c’est un party qu’il y a à soirlà •ah je connais pas ben ben Domingue là° (.) pis ça crime (.) c’est un mariage là (.)en plus c’est la c’était la fin (CFPQ, sous-corpus 14, segment 8, p. 86, ligne 6)
Corpus, 15 | 2016
75
31 En somme, si je sais pas discursif n’est pas nécessaire au plan référentiel, il l’est au plan
pragmatique. Voici un dernier exemple qui, à nouveau, le montre bien. En (11), R (un
homme dans la soixantaine) rend explicite, par le biais du marqueur, l’effort cognitif
qu’il déploie au moment de parole pour exprimer son point de vue sur un sujet délicat
relativement aux groupes de jeunes gens dont le pouvoir collectif exerce trop souvent,
selon lui, une pression excessive sur les choix individuels. Aussi, en plus d’être un
marqueur collaboratif, je sais pas en est-il un foncièrement égotiste. En effet, grâce à lui,
le locuteur se prémunit contre d’éventuelles représailles résultant d’une prise de parole
qui, autrement, aurait pu être perçue, par l’interlocuteur, comme étant peu réfléchie.
(11) R : a un certain moment donne en tout cas je sais pas je vois peut-être ça malmais moi je me dis la a un certain moment donne une gang ensemble […] une gangensemble tu sais pas quoi faire […]R : a un certain moment donne il y en a un qui sort quelque chose il sort quelquechose (en claquant des doigts comme pour représenter la rapidité de l’événement dont ilparle)[…]R : et go pis tout le monde est ensemble pis aïe je peux pas dire non/ écoute je vasavoir l’air d’un maudit pissou pissou (CFPQ, sous-corpus 20, segment 3, p. 28, ligne 19 ; 4 min 32 s)
32 Pour terminer, remarquons que le glissement de savoir à je sais pas discursif a sans
doute été facilité par le fait que, dans son emploi verbal, celui-ci renvoie, si l’on en croit
Rémi-Giraud 1986, à un savoir où « le sujet reste dans la réalité intérieure d’un
processus mental » (p. 250). Or c’est également ce qui se passe, on l’a vu, avec je sais pas
discursif. Dans les termes de Rémi-Giraud, savoir1 signifie « avoir dans l’esprit l’acte
mental qui permet de former et d’affirmer une phrase (exprimée dans le C.O.D.) »
(p. 254). Par comparaison, son synonyme proche, connaître1, renvoie à un « savoir
d’expérience lié à l’espace des réalités non linguistiques » ; il signifie « avoir dans
l’esprit l’image qui correspond à un objet extérieur (exprimé dans le C.O.D.) » (p. 254).
Dans cette veine, pourquoi, à côté de je sais pas discursif, n’a-t-on pas, par exemple, je
connais pas discursif ? Une hypothèse plausible est que connaître n’est pas foncièrement
tourné vers la pensée mais vers le monde, contrairement au verbe « assertif fort »,
savoir, tout entier centré sur « le cours ou l’aboutissement [d’un] processus cognitif »
(Borillo 1982 : 35) ; cela est aussi le propre de je sais pas discursif12.
3. Conclusion
33 Cette étude avait comme premier objectif de présenter le contexte général ayant
conduit à la confection d’un corpus de langue orale usitée au Québec, en contexte
informel, dans les années 2000, à savoir le CFPQ. Elle visait également à exposer les
grands principes méthodologiques ayant présidé à la constitution du corpus, ainsi que
ses principales caractéristiques (allant de l’enregistrement des données sur support
audiovisuel à la mise en ligne des transcriptions et à leur interrogation).
34 Le second objectif poursuivi était d’illustrer en quoi un corpus de langue familière
comme le CFPQ pouvait s’avérer utile pour choisir et analyser finement nombre
d’expressions fréquentes, caractéristiques de la variété diatopique/diaphasique de
langue ciblée. De telles expressions sont généralement absentes des dictionnaires, y
compris des plus récents.
Corpus, 15 | 2016
76
35 Pour atteindre ce deuxième objectif, l’intérêt s’est porté du côté de la séquence la plus
fréquente du corpus composée de 3 unités graphiques, c’est-à-dire je sais pas. Cette
séquence est tantôt verbe, tantôt MD. Lorsque je sais pas est verbe, soit il nie
catégoriquement un savoir, soit il laisse en suspens sa véracité. Dans ce cas, la séquence
considérée n’est pas figée à la première personne du présent de l’indicatif et elle
participe au contenu propositionnel de l’énoncé. Le statut de je sais pas se modifie
lorsque l’indétermination face à un contenu propositionnel se transpose au plan
métadiscursif. La séquence, qui ne joue alors plus un rôle au plan propositionnel ou
référentiel, devient syntaxiquement optionnelle. Elle traduit en pareil cas l’effort
déployé par un locuteur engagé dans un processus cognitif complexe consistant à
mettre en mots sa pensée. Celui-ci hésite : il cherche que dire et/ou dans quels termes
s’exprimer. Dans ce cas-ci, je sais pas est employé comme MD.
36 Pour bien faire, il faudrait désormais confronter les résultats obtenus ici pour je sais pas
à des données prélevées dans d’autres corpus oraux du français, tels le CFPP2000, ESLO
et OFROM. La voie est tracée : nous aurons certainement l’occasion de nous y engager
dans une prochaine étude.
BIBLIOGRAPHIE
Aijmer K. (2014). « I don’t know as a marker of youth language », in K. Helgesson et al. (éd.) Fint
språk/Good Language. Festskrift till Lars-Gunnar Andersson. Göteborgs : Utgiven i serie vid Göteborgs
universitet, 1-14.
Blanche-Benveniste Cl. (1997). Approches de la langue parlée en français. Paris : Ophrys.
Borillo A. (1982). « Deux aspects de la modalité assertive : croire et savoir », Langages 67 : 33-53.
Brown P. et S. C. Levinson (1987). Politness. Some Universals in Language Usage. Cambridge :
Cambridge University Press.
De Sève S. (2005). « Quand la morphologie devient une ressource interactive », in D. Banks (éd.)
Les marqueurs linguistiques de la présence de l’auteur. Paris : L’Harmattan, 243-254.
Diani G. (2004). « The Discourse Functions of I Don’t Know in English Conversation », in K. Aijmer
et A.-Br. Stenström (éd.) Discourse Patterns in Spoken and Written Corpora. Amsterdam : Benjamins,
157-171.
Gauvin K. (1999). Une approche énonciative et interactive de je sais et je sais pas, mémoire de
maîtrise. Moncton : Université de Moncton.
Grant L. E. (2010). « A Corpus Comparison of the Use of I Don’t Know by British and New Zealand
Speakers », Journal of Pragmatics 42, 8 : 2282-2296.
Grice H.-P. (1979). « Logique et conversation », Communications 30 : 57-72.
Kiparsky P. et C. Kiparsky. (1970). « Fact », in M. Bierwisch (éd.) Progress in Linguistics. A collection
of Papers. The Hague : Mouton, 143-173.
Corpus, 15 | 2016
77
Kerbrat-Orecchioni C. (1991). « L’acte de question et l’acte d’assertion : opposition discrète ou
continuum ? », in C. Kerbrat-Orecchioni (éd.) La Question. Lyon : Presses universitaires de Lyon,
87-111.
Korzen H. (2001). « Factivité, semi-factivité et assertion. Le cas des verbes savoir, ignorer, oublier et
cacher », in H. Kronning et al. (éd.) Langage et référence. Acta Universitatis Upsaliensis : Uppsala,
323-333.
Langacker R. W. (1987). Foundations of Gognitive Grammar. Theoritical Prerequisites, vol. 1. Sandford :
Standford University Press.
Levinson St. C. (1983). Pragmatics. Cambridge : Cambridge University Press.
Poirier Cl. (2015). « Un pas en avant, un pas en arrière. Analyse du dictionnaire de l’Équipe
FRANQUS », Cahiers de lexicologie 105, 1 : 21-53.
Pop L. (2009). « Quelles informations se pragmatisent ? Le cas des verbes plus ou moins
marqueurs », Revue roumaine de linguistique 54, 1-2 : 61-172.
Récanati Fr. (1984). « Remarques sur les verbes parenthétiques », in P. Attal et Cl. Muller (éd.) De
la syntaxe à la pragmatique. Amsterdam : Benjamins, 319-352.
Rémi-Giraud S. (1986). « Étude comparée du fonctionnement sémantique et syntaxique des
verbes savoir et connaître », in S. Rémi-Giraud et M. Le Guern (éd.) Sur le verbe. Lyon : Presses
Universitaires de Lyon, 169-306.
Schneider St. (2007a). Reduced Parenthetical Clauses as Mitigators. A Corpus Study of Spoken French,
Italian and Spanish. Amsterdam et Philadelphia : Benjamins.
Schneider St. (2007b). « Les clauses parenthétiques réduites en français, italien et espagnol. Une
analyse pragmatique fondée sur des corpus de la langue parlée », in D. Trotter (éd.) Actes du XXIVe
Congrès international de linguistique et de philologie romanes. Aberystwyth, 2-5 août 2004, vol. 3.
Tübingen : Niemeyer, 423-432.
Schneider St. (2013). « Clauses parenthétiques réduites et type d’interaction verbale. Quelques
considérations », in H. Chuquet (éd.) Des sentiments au point de vue : études de linguistique contrastive.
Rennes : Presses universitaires de Rennes, 175-194.
Urmson J. O. (1952). Parenthetical Verbs, Mind 61, 244 : 480-496.
Usito 2012-, Équipe Franqus. Sous la direction éditoriale de H. Cajolet-Laganière et P. Martel.
Sherbrooke : Éditions Delisme inc.
En ligne : https://www.usito.com. (Consulté le 5 mars 2015).
Corpus
CFPP2000 (Corpus de français parlé parisien des années 2000), Université Paris 3 – Sorbonne
nouvelle.
Site : http://recherche.flsh.usherbrooke.ca/cfpq/ (Consulté le 21 septembre 2014).
CFPQ (Corpus de français parlé au Québec), CATIFQ, Université de Sherbrooke.
Site : http://recherche.flsh.usherbrooke.ca/cfpq/
Sous-corpus 1 à 21 exploités dans le cadre de la présente étude (= environ 31 h ½
d’enregistrement). (Consulté le 21 septembre 2014)
Corpus lexicaux québécois, Secrétariat à la politique linguistique, Gouvernement du Québec,
1997-2007. Site : http://www.spl.gouv.qc.ca/languefrancaise/corpuslexicaux/ (Consulté le 5 mars
2015).
Corpus, 15 | 2016
78
ESLO (Enquêtes sociolinguistiques à Orléans, Université d’Orléans.
Site : http://eslo.huma-num.fr/ (Consulté le 21 septembre 2014)
OFROM (Corpus oral de français parlé en Suisse romande), Université de Neuchâtel.
Site : http://www11.unine.ch/ (Consulté en 21 septembre 2014).
NOTES
1. http://www.spl.gouv.qc.ca/languefrancaise/corpuslexicaux
2. C’est nous qui plaçons en italiques le terme français standard.
3. Il en va de même pour le traitement plus que minimal de certains mots courants, notamment
ceux d’origine anglaise (entre autres, Poirier, 2015).
4. Le projet, dirigé par la signataire du présent article, a reçu l’appui financier de l’Université de
Sherbrooke, du Fonds de recherche québécois sur la société et la culture (FRQSC, 2007-2014 ;
subvention d’équipe accordée au CATIFQ) et du Conseil de recherche en sciences humaines du
Canada (CRSH, subvention individuelle, 2008-2012).
5. Il est prévu que les transcriptions restantes soient accessibles en ligne au plus tard à
l’automne 2015.
6. Les pourcentages sont établis sur la base des calculs suivants :
– dans le premier cas, 802 occurrences de je (le) sais pas sur 1 050 occurrences de (le) sais pas
équivaut à 76 % ;
– dans le second cas, 802 occurrences de je (le) sais pas sur 900 occurrences de je (le) sais
correspond à 89 %.
7. Dans ce qui suit, nous faisons l’économie du le entre parenthèses pour des raisons de
simplicité, étant entendu que les deux prononciations relevées plus haut et transcrites
respectivement je sais pas et je le sais pas sont possibles.
8. Nous écrivons que savoir perd sa factivité dans certains contextes négatifs, car celle-ci peut
réapparaître à des temps autres que l’indicatif présent, comme à l’imparfait (p. ex. : je savais pas
que P) ou au plus-que-parfait (p. ex. : j’avais pas su que P).
9. L’interrogative indirecte du type je ne sais pas à quelle heure (que) je me suis levé est toutefois
acceptable, parce que l’affirmation d’un non-savoir porte cette fois sur le syntagme nominal qui
suit savoir (cf. à quelle heure) et non sur la complétive. Dans cet exemple, la complétive introduit
une idée présentée comme vraie (cf. je me suis levé) car elle n’est pas directement sous la portée de
savoir.
10. On le sait, le fait qu’une séquence puisse être omise n’est pas une caractéristique exclusive
des MD (par exemple, les adverbes d’énonciation sont également optionnels). Le caractère
optionnel d’une séquence n’est donc pas une condition suffisante pour qu’il y ait MD. Il faut
plutôt y voir une condition nécessaire (sauf, encore là, dans les cas connus de mots-phrases tels
ok ou coudon lorsqu’ils constituent par eux-mêmes une intervention).
11. Dans l’exemple considéré, H fait allusion à un problème rencontré par un ami qui ne
participe pas à l’échange.
12. Sur le plan syntaxique, on pourrait encore ajouter que les constructions *connaître que P /
*connaître si P n’existent pas. Ce fait, signalé par les chercheures précitées comme étant une
conséquence de surface distinguant savoir et connaître, serait donc également en lien avec
l’absence de je ne connais pas dans la zone discursive.
Corpus, 15 | 2016
79
RÉSUMÉS
Cet article présente le contexte général ayant conduit à l’élaboration du Corpus de français parlé
au Québec (CFPQ) et les principes méthodologiques ayant présidé à sa confection. Il illustre
ensuite l’intérêt que représente cette ressource documentaire pour l’étude de la langue parlée en
contexte informel par le biais d’un examen lexico-sémantique de la séquence je sais pas.
L’intérêt pour cette séquence vient d’abord d’un constat : celle-ci est particulièrement fréquente
dans le corpus pris comme cible. En effet, elle y occupe le premier rang, en terme de fréquence,
pour ce qui concerne la présence de trois unités graphiques figurant en contiguïté. Ce constat
oriente vers l’idée selon laquelle son degré d’« entrenchment » (c’est-à-dire d’enracinement) doit
être grand, qu’elle a toute chance d’être mémorisée en bloc dans un certain nombre de contextes,
à la manière des séquences complexes ou expressions (semi-)figées. L’attention se focalise sur des
exemples où je sais pas agit à titre d’expression verbale, puis d’expression discursive.
This article examines the sequence je sais pas (‘I don’t know’) in the context of its spontaneous
usage in Quebec French. The interest of this sequence of units primarily stems from the
observation of its particularly high frequency in the queried corpus, namely the Corpus de
français parlé au Québec (CFPQ). Indeed, it is the most frequent sequence of three graphical units
that appear in contiguity. This observation suggests that the sequence is strongly “entrenched”
and that it is likely to be memorized as a whole in a certain number of contexts, following the
example of complex sequences or (semi-)fixed expressions. The article focuses on examples in
which je sais pas acts as a verbal expression, and then as a discursive expression.
INDEX
Keywords : corpus linguistics, frequency, congealing, discourse marker
Mots-clés : linguistique de corpus, fréquence, figement, marqueur discursif
AUTEUR
GAÉTANE DOSTIE
Département des lettres et communications
Faculté des lettres et sciences humaines
Université de Sherbrooke, Québec, Canada
Corpus, 15 | 2016
80
Corpus international écologique dela langue française (CIEL-F) : uncorpus pour la recherche comparéesur le français parléThe international ecological linguistic corpus of French (CIEL_F): A database for
comparative research in spoken French
Lorenza Mondada et Stefan Pfänder
1. Introduction
1 Cet article a pour objectif de présenter le travail de constitution du Corpus
international écologique de la langue française (CIEL-F) et quelques potentialités, mais
aussi défis, qu’il implique pour une analyse comparée du français dans différentes
zones communicatives et au sein de différents types d’activités. Pour ce faire, l’article
est organisé en deux parties, la première présentant le corpus et le projet qui l’a
motivé, et la seconde offrant un exemple d’analyse.
2 Il existe aujourd’hui plusieurs corpus de français oral disponibles, qui ont été conçus à
partir d’arrière-plans théoriques et disciplinaires, impliquant par là nécessairement des
méthodologies distinctes qui ont des effets sur la manière dont les données sont
collectées et transcrites – notamment PFC1 conçu à partir d’un intérêt pour la
phonologie du français, ESLO2 à partir d’un projet sociolinguistique, poursuivi à travers
deux phases de recueil historiquement bien distinctes (1968 et actuellement), CLAPI3 à
partir des principes de la linguistique interactionnelle, VALIBEL4 à partir de la
sociolinguistique variationniste, etc. Ces banques de données constituent des corpus
d’une richesse importante qui rendent difficile de répéter aujourd’hui les constats sur
le manque de données pour le français qui ont émaillé la littérature pendant
longtemps. Toutefois, cette richesse de données laisse intacts plusieurs problèmes : les
« données » y sont définies de façons très diverses, allant de tâches plus ou moins
Corpus, 15 | 2016
81
écologiques, plus ou moins dialogiques ou monologiques, aux interviews et aux
interactions sociales situées ; les enregistrements couvrent de manière très hétérogène
les espaces régionaux, nationaux et internationaux où le français est parlé, laissant de
nombreuses régions géolinguistiques dans l’ombre, et certains types d’activités y sont
sur-représentés (p. ex. : l’entretien ou la conversation), alors que de nombreux autres
sont alors plus ou moins totalement ignorés ; les métadonnées documentées sont très
diverses ; les transcriptions obéissent à des standards mais aussi à des niveaux de
granularités très hétérogènes ; les données sont plus ou moins annotées ou taguées,
selon des conventions différentes ; les corpus sont plus ou moins interrogeables, par
des outils qui, là aussi, varient énormément dans les types de requêtes qu’ils
permettent de formuler. Ce constat met aujourd’hui au centre de l’attention
technologique la question de l’interopérabilité des corpus/des banques de données et
au centre de l’attention analytique la question de la comparabilité des données.
3 Le corpus CIEL5 a été constitué au sein d’un projet financé par le programme franco-
allemand ANR-DFG6, réunissant 5 partenaires : Françoise Gadet (UMR MoDyCO, Paris),
Ralph Ludwig (Univ. Halle), Lorenza Mondada (UMR ICAR, Lyon), Stefan Pfänder (Univ.
Freiburg-im-Breisgau), et Anne-Catherine Simon (Univ. Louvain-la-Neuve), pendant la
période 2008-2012. Le projet répond à une partie des questions évoquées ci-dessus :
émanant de linguistes actifs dans les domaines de la grammaire de l’oral, de la
sociolinguistique et de la linguistique interactionnelle, il vise un corpus qui puisse
permettre d’accéder à des données du français enregistrées dans des conditions
écologiques dans différentes aires communicatives, recueillies dans des contextes
comparables, renseignées par rapport aux mêmes métadonnées, transcrites avec les
mêmes conventions et critères. Les corpus sont réunis dans une banque de données qui
réunit les expertises des équipes ayant réalisé la plateforme CLAPI7 (Corpus de langue
parlée en interaction) au laboratoire ICAR à Lyon et développé le système [moca]8
(multimodal oral corpora administration) à Freiburg et à Louvain-la-Neuve.
2. Le corpus CIEL : critères de constitution
4 Le corpus CIEL vise à rassembler des données de français recueillies en différents points
géographiques sur plusieurs continents, enregistrées dans des conditions écologiques
(voir Dister et al., 2008 ; Gadet, Ludwig, Mondada, Pfänder & Simon, 2012).
5 Il s’agit tout d’abord d’un corpus écologique : ce terme renvoie à plusieurs acceptions
dans la littérature que le projet CIEL tente d’intégrer et d’articuler (voir Ludwig,
Mühlhäusler & Pagel, éds, à paraître). Haugen (1972) est parmi les premiers à utiliser ce
terme en linguistique, renvoyant par là à une conception de la langue comme inscrite
dans un réseau complexe d’interdépendances, que ce soit avec l’environnement social
et naturel ou avec d’autres langues, et dont l’ancrage social se manifeste concrètement
dans la communication en situation d’interaction. À partir de Haugen, l’écologie
linguistique a pris d’une part au sérieux le concept biologique, en pensant l’évolution
linguistique en termes de langue en train de survivre, de se développer ou bien de
disparaître ; d’autre part le concept a été utilisé de manière métaphorique pour
renvoyer à un système d’interdépendances plus abstrait et aussi davantage orienté vers
les dynamiques sociales. L’approche de l’écologie dans le projet CIEL distingue
différents niveaux : le niveau macro-écologique reconnaît la formation historique de
contextes d’usage du français – comme, par exemple, la francophonie africaine ou le
Corpus, 15 | 2016
82
Levant – ; le niveau méso-écologique tient compte des contextes urbains, régionaux, ou
insulaires (cf. infra, les aires communicatives) ; le niveau micro-écologique considère les
contextes sociaux et institutionnels d’usage du français, ainsi que les environnements
spatiaux et matériels dans lesquels la langue est utilisée comme ressource pour
l’interaction sociale située (cf. infra, les types d’activité). Méthodologiquement, la
dimension écologique est comprise et implémentée dans le corpus CIEL sous la forme
de l’exigence de se doter d’enregistrements de la parole située dans son contexte social
ordinaire et routinier, sans qu’elle soit élicitée ou orchestrée par le chercheur
(Mondada, 2012).
6 Ces différents principes issus de la notion d’écologie ont été traduits dans le corpus
CIEL sous la forme d’une triple exigence : des données naturalistes enregistrées in situ
qui documentent une variété de zones communicatives – qui émanent d’une typologie
des aires – et des types d’activités distincts – qui émanent d’une typologie des
situations d’usage.
7 La typologie des aires communicatives (cf. Gadet, Ludwig & Pfänder 2009) est inspirée d’une
révision critique de la question de l’ancrage spatial, géographique et politique des aires
linguistiques. L’aire communicative renvoie à un espace qui est moins défini de
manière géopolitique ou selon les frontières de l’État-nation, que dans la perspective
des locuteurs et de leurs usages, faisant intervenir le prestige, la vitalité, le contact avec
d’autres variétés linguistiques, ainsi que la fonctionnalité communicative. La typologie
se fonde sur quatre critères : a) l’espace socio-géographique (distinguant entre centres
urbains et zones plus périphériques et rurales), b) le contact linguistique (distinguant
entre formes de contact dominantes vs non-dominantes, avec une vs plusieurs variétés ;
entre contact avec une langue typologiquement proche (européenne) ou non ; et entre
contact avec des variétés écrites vs non écrites), c) la dimension fonctionnelle
(contemplant les types d’usages, dans différents contextes, formels vs informels, privés
vs publics, en situation d’oralité vs de littératie) et d) la dimension de dynamisme
langagier (incluant la vitalité vs l’obsolescence de la variété considérée). Sur cette base,
différentes aires en Algérie, Antilles françaises, Belgique, Burkina Faso, Cameroun,
Canada, Congo, Côte d’Ivoire, Égypte, France, Inde, La Réunion, Maurice, Sénégal, Suisse
et Togo ont été documentées.
8 La typologie des activités communicatives a été privilégiée par rapport à un
échantillonnage des locuteurs qui régit souvent les enquêtes sociolinguistiques, mais
qui soulève de nombreux problèmes dès que l’on pense moins en termes d’individus et
davantage en termes d’interactions sociales. Ces activités sont abordées en respectant
leur caractère situé : il ne s’agit pas d’activités provoquées ou orchestrées par un
enquêteur (cela exclut les entretiens, les données sollicitées ou expérimentales), mais
d’activités telles qu’elles se déroulent ordinairement (Mondada, 2012 ; Groupe ICOR,
2010). Le choix des activités s’inspire des travaux de l’ethnographie de la
communication, de la linguistique anthropologique et de l’analyse conversationnelle.
En particulier, il a été inspiré par la notion de « speech event » de Gumperz (1982) et
d’« activity type » de Levinson (1979). Les activités ainsi définies sont à la fois
solidement ancrées dans leur contexte et repérables dans des contextes divers. Le
corpus a privilégié des types d’activités répondant à une série de critères socio-
interactionnels : a) des échanges interactionnels comportant plus de deux et si possible
moins de six locuteurs (afin de limiter le risque de schismes conversationnels),
b) constituant des activités dont les frontières temporelles et spatiales sont
Corpus, 15 | 2016
83
naturellement identifiées par les locuteurs (comme un repas ou une réunion, délimitées
entre un début et une fin vers lesquelles s’orientent les participants), c) ainsi que des
activités reconnaissables de manière endogène (émique) par les participants et
membres du groupe concerné, d) qu’il est possible de documenter, avec des variations,
dans des cultures et des sociétés très différentes, e) et qui permettent d’observer des
pratiques langagières et interactionnelles diversifiées (contextes ordinaires informels
vs institutionnels, contextes faisant intervenir des groupes de même âge vs différentes
générations, interactions plus ou moins ancrées dans le corps et la gestualité, pouvant
aussi intéresser l’analyse multimodale). Du point de vue méthodologique, il s’agissait
aussi de retenir des types d’activités accessibles à l’enregistrement, ne posant pas de
problèmes de confidentialité, et, du point de vue éthique et juridique, pouvant être
diffusés (cela motivant l’exclusion de situations impliquant des contenus confidentiels
et intimes). Sur cette base, trois types d’activités ont été privilégiés :
– conversations durant des repas entre amis ou en famille ;
– interactions en contexte professionnel (par exemple réunions) ;
– interactions enregistrées sur une radio locale.
9 Pour chaque aire et chaque type d’activité, 3 enregistrements ont été visés – avec
actuellement un corpus constitué de 183 enregistrements.
3. Traitement et archivage des corpus : des donnéesaux banques de données
10 Le travail effectué pour réaliser le corpus CIEL implique de nombreux paliers et un
réseau de collaborations et d’expertises. Le corpus a été conçu par les 5 équipes en
charge du projet. Les données ont été enregistrées en partie par les mêmes équipes en
partie par des collaborateurs distribués sur plusieurs continents et qui ont accepté de
contribuer au projet. Elles ont été ensuite transcrites, en grande partie par les équipes
du projet mais aussi avec l’aide des collaborateurs externes9. Enfin, elles ont été
alignées, décrites par des métadonnées et intégrées sous un format XML à la base de
données. Chacune de ces étapes suppose un travail de coordination et de
standardisation important, qui pose des problèmes conceptuels, méthodologiques et
techniques, mais aussi disciplinaires, épistémologiques et humains.
11 Le travail d’enregistrement des données a souvent reposé sur un contact étroit avec les
locuteurs sur place et donc sur la collaboration avec des personnes y résidant ou y
travaillant. Cela a supposé une réflexion en matière de conception des enregistrements
et de recours à des technologies adéquates, implémentée dans un protocole pour le
recueil d’enregistrements audio et vidéo (Mondada, 2011). Cela a supposé surtout la
formation correspondante des équipes et la résolution de nombreux problèmes
techniques, notamment dans les zones les plus périphériques et lointaines, ne
disposant pas des mêmes équipements. Les conditions d’accès au terrain sont très
différentes d’un contexte culturel à un autre : selon les sites, le fait même d’enregistrer
est largement accepté voire banalisé, par les usages de Facebook et par une acceptation
tacite de la vidéo-surveillance, ou bien il est rejeté, du fait d’une sensibilisation à la sur-
médiatisation des enregistrements de la vie privée et aux violations de l’intimité des
personnes, ou encore il fait l’objet de résistances plus ou moins ouvertes, du fait de
conceptions très différentes de ce qu’est la sphère « privée ». De même, les possibilités
d’enregistrer peuvent fortement varier d’un contexte national à l’autre : par exemple,
Corpus, 15 | 2016
84
dans certains contextes académiques, il est déontologiquement et juridiquement
difficile pour les chercheurs d’enregistrer des conversations privées, les interactions
institutionnelles étant plus accessibles (Canada), alors que dans d’autres ce sont les
interactions institutionnelles et professionnelles qui posent des problèmes de
confidentialité (Europe).
12 Le travail de transcription a également reposé sur un travail important d’harmonisation
et de standardisation des pratiques et des conventions. Comme on le sait, la
transcription repose sur une série de choix qui explicitement ou tacitement reposent
sur des modèles et des présupposés théoriques (Ochs, 1979), distinguant souvent des
communautés disciplinaires mais aussi, au sein de mêmes traditions épistémologiques,
nationales. La démarche d’harmonisation et de standardisation passe donc par des
négociations qui sont aussi bien théoriques que pratiques. C’est ainsi qu’une
convention a été préalablement discutée entre les équipes du projet (Simon, Gadet,
Ludwig, Mondada, Pfänder & Skrovec, 2012) sur la base des bonnes pratiques
existantes. Acceptant le caractère fini, sélectif et interprétatif de la transcription
comme donnée secondaire – dont le caractère contraignant est relativisé par la
possibilité de la vérifier sur la base de l’enregistrement ou donnée primaire –, le projet
CIEL a procédé à une transcription fondée sur un certain nombre de principes de base.
Parmi eux, citons l’adoption d’une transcription orthographique standard pour faciliter
la lisibilité mais aussi l’interrogeabilité des textes, doublée d’une transcription
orthographique adaptée pour s’approcher davantage de la production orale
enregistrée, ainsi que d’une traduction ou glose pour les passages qui le nécessitaient
(dans d’autres langues que le français ou dans des variétés particulières). Ces
différentes versions sont toutes accessibles sous le logiciel Praat10, qui permet un
alignement entre le signal sonore et les différentes lignes (tiers) de la transcription :
cela facilite non seulement l’analyse prosodique, mais surtout permet la multiplication
virtuellement infinie des lignes d’annotation pour différentes finalités ; en outre ce
format (text-grid) est exportable à la fois comme texte et comme fichier intégrable dans
une banque de données. De même, un script Praat a été utilisé pour l’anonymisation
(par beepage permettant de garder le même contour prosodique du segment
anonymisé) des détails personnels privés évoqués par des participants dans les
enregistrements.
13 Chaque enregistrement et sa description ont fait l’objet d’une description sous forme de
métadonnées, dont les champs à renseigner ont aussi fait l’objet préalable de discussions
et négociations auprès des équipes du projet. Le choix des catégories à renseigner
implique non seulement des intérêts de recherche mais aussi et d’abord des
présupposés théoriques. Par exemple, loin d’être un simple recueil d’informations
objectives sur les locuteurs, les métadonnées révèlent des choix théoriques concernant
les dimensions pertinentes pour définir l’identité (culturelle, sociale, linguistique…) du
locuteur. Ainsi consigner les langues parlées par le locuteur amène à une discussion sur
le statut de catégories telles que « locuteur natif », « langue première », « langue
maternelle », « langue seconde » etc. ; consigner son appartenance socio-économique
soulève la question de la segmentation et description pertinentes de la structuration
sociale d’un groupe ; consigner son appartenance ethnique soulève des problèmes
épineux de catégorisation. Ces problèmes ont été discutés dans la littérature (voir par
exemple la membership categorisation analysis de Sacks, 1972), mais l’implémentation de
ces discussions dans des choix au sein d’une série de métadonnées, elles-mêmes à
traduire dans des questionnaires à soumettre sur le terrain, n’est pas un processus
Corpus, 15 | 2016
85
linéaire et évident. En outre, les métadonnées ne concernent pas uniquement les
locuteurs et les phénomènes enregistrés, mais documentent également les conditions
d’enregistrement et de transcription. Ces renseignements sont une trace importante
d’un processus réflexif dont certains détails peuvent se révéler importants lors des
analyses. Cela ne fait qu’exhiber la différence radicale entre les corpus que les
chercheurs enregistrent pour leurs propres analyses et les corpus que des chercheurs
recueillent pour les mettre à disposition de la communauté. Dans ce dernier cas,
l’architecture du corpus, et crucialement les métadonnées, construisent la possibilité,
qui ne va pas de soi, que l’on puisse procéder à une analyse de données que l’on n’a pas
soi-même collectées.
14 Les enregistrements, les transcriptions et les métadonnées ont été ensuite consignés
dans une architecture informatique en permettant l’archivage ainsi que l’interrogation,
sous la forme d’une banque de données. Celle-ci est accessible à partir de deux
interfaces, liées à deux plateformes : CLAPI et [moca].
15 CLAPI est une banque de données de corpus de parole en interaction enregistrées en
audio et en vidéo, développée depuis les années 2000 au laboratoire ICAR à Lyon et
mettant actuellement librement à disposition de la communauté scientifique 50 heures
de données interrogeables, 120 corpus transcrits, 30 heures de données
téléchargeables11. CLAPI peut être utilisé comme une archive de corpus, permettant
d’en identifier, sélectionner et consulter les données primaires et les données
secondaires, alignées sur le même timing, sur la base d’un riche jeu de métadonnées,
mais fonctionne surtout comme une banque de données permettant de formuler des
requêtes complexes, qui ont la particularité d’intégrer, au-delà des concordanciers
habituels, des requêtes combinant recherche de formes linguistiques et de
caractéristiques interactionnelles (par exemple : rechercher les occurrences de « non »
en début de tour, éventuellement précédées de « euh » et de pauses inter tours et
suivies d’un chevauchement par le tour de parole suivant) (voir Bert, Bruxelles,
Étienne, Jouin-Chardon, Lascar & Mondada, 2010, pour une présentation). Les requêtes
effectuées et leurs résultats peuvent être sauvegardés dans un espace de travail
personnalisé de l’usager.
16 [moca] est une plateforme12 qui permet d’administrer des corpus sous forme de fichiers
audio et vidéo, et d’importer des fichiers txt/doc, ainsi que Exmaralda, Praat ou ELAN.
Les corpus peuvent être recherchés et identifiés sur la base de métadonnées contenant
la caractérisation sociolinguistique des locuteurs et les conditions de recueil du corpus.
Des requêtes basées sur des suites de caractères permettent d’interroger les
transcriptions ; les résultats sont affichés sous la forme de fragments de transcriptions
dont le signal est consultable. La spécificité de cet outil est la visualisation des corpus
sur une représentation cartographique, permettant de capturer en un coup d’œil la
distribution géographique des données ; il permet des recherches complexes et offre
aussi la possibilité d’une annotation personnalisée des données par des labels et des
étiquettes que l’usager peut créer et qu’il peut ensuite regrouper et sauvegarder sous la
forme de sous-corpus (voir Ehmer & Martinez, 2014, pour une présentation).
17 Le projet CIEL a fait le choix de permettre la consultation de ses données par le biais de
ces deux interfaces : cela présente l’avantage de multiplier les possibilités quant à
l’interrogation des données par des outils ; de profiter de différentes interfaces selon
les préférences des usagers ; et d’exploiter les caractéristiques spécifiques des deux
plateformes – notamment les requêtes complexes orientées vers la linguistique
Corpus, 15 | 2016
86
interactionnelle de CLAPI, les possibilités d’annotations personnalisées de [moca]. Une
des conséquences de ce double choix est aussi une avancée dans la discussion –
aujourd’hui fondamentale – sur l’interopérabilité entre bases de données, grâce aux
efforts conjoints des informaticiens des deux équipes (Carole Étienne à Lyon et Daniel
Alcón à Freiburg).
4. Enjeux analytiques
18 La mise à disposition de corpus est un desideratum fort de la communauté scientifique ;
leur mise à disposition avec des outils de requête et d’interrogation potentialise ces
corpus et permet des analyses sur de grandes masses de données ; leur structuration –
dès la collecte – en un ensemble cohérent permettant différents types de comparaisons
représente un apport encore plus crucial. Sur ce dernier point, l’originalité et la valeur
du corpus CIEL-F est de mettre à disposition des données interrogeables de manière
outillée qui sont fondées sur une conception du terrain, des enregistrements, des
métadonnées et de l’architecture de la base de données, elle-même fondée sur la
comparaison. CIEL-F permet la comparaison au sein de la même activité
communicative, mais aussi entre activités communicatives (p. ex. : est-ce que voilà ou
donc sont utilisés de la même manière dans des conversations ordinaires et des
interactions professionnelles ? Apparemment cela n’est pas le cas… Groupe ICOR, 2009,
Pfänder & Skrovec, 2011), au sein de la même aire communicative mais aussi, et
surtout, entre aires communicatives. Ainsi, on peut se demander si une particule ou
une construction grammaticale donnée est utilisée de la même manière dans des aires
communicatives différentes (voir Skrovec & Pfänder, 2012). La comparaison outillée est
un des domaines les plus promettants de la recherche sur grands corpus – permettant
d’envisager de revisiter des hypothèses passées non suffisamment documentées
empiriquement ainsi que de formuler de nouvelles hypothèses et surtout de nouvelles
analyses empiriques, au-delà de ce que l’on a coutume de dire ou de croire concernant,
par exemple, la spécificité des variétés de français en Afrique ou la différence entre
français canadien et français métropolitain.
19 Dans ce qui suit, nous n’avons pas la prétention d’épuiser une analyse comparative en
quelques pages. Nous n’offrons que quelques pistes d’une analyse basée exclusivement
sur des données extraites de CIEL-F donnant un exemple de phénomènes et de
questions qu’il est possible d’envisager. L’exemple portera sur la forme là : elle présente
l’intérêt d’avoir été déjà étudiée dans une littérature substantielle et d’avoir été utilisée
pour illustrer la spécificité et les différences entre variétés du français (Italia, 2006, sur
là en français du Gabon ; Ludwig & Pfander, 2003, sur là en créole caribéen et en
français ; Ploog, 2006, sur là en français d’Abidjan, Queffélec et al., 1997, sur le français
en Centrafrique ; Ngamountsika, 2012, sur là en français du Congo ; Wiesmath, 2003, sur
là en acadien, Forget, 1989, Vincent, 1981, sur là en français du Canada – sans oublier les
travaux sur le français métropolitain, notamment de Barbéris, 1992) –, mais sans avoir
pu comparer directement le comportement de la forme dans des aires différentes.
20 Dans ce qui suit, nous nous penchons sur quelques variations, différences mais aussi
similarités que l’on peut repérer à propos des emplois de là dans le corpus CIEL-F.
Corpus, 15 | 2016
87
5. Là : des usages locatifs à la grammaticalisation enparticule
21 L’intérêt pour l’analyse d’une forme comme là est représenté par le fait qu’il est
possible de la trouver dans toutes les positions envisageables au fil des corpus : au
début, au milieu et à la fin de clauses comme de tours ; après des noms, des verbes, des
connecteurs et autres catégories ; sous la forme d’une seule occurrence ou de deux
occurrences répétées… La description fonctionnelle et catégorielle de la forme là
correspond à cette richesse positionnelle. La multiplicité des rôles de là a été
amplement soulignée par la littérature : là n’est pas uniquement un déictique mais a
subi une grammaticalisation en marqueur discursif (aussi appelé là de clôture, Barbéris,
1992). Ainsi, par exemple, la typologie proposée par Ludwig & Pfänder (2003 : 271-275 –
visant le français et le créole) identifie 5 types de là : spatial, démonstratif, situativo-
temporel, de structuration du discours antéposé et postposé. Ces 5 types, documentés
dans le corpus CIEL-F, montrent qu’il existe un continuum allant d’emplois plus
clairement spatiaux (c’est là, je vais là, ça et là) à des emplois où là perd son sens spatial
pour devenir une particule discursive (l’homme là qui est venu là tu le connais là) – en
passant par des emplois où le locatif devient davantage métaphorique et renvoie à un
positionnement temporel (arrête là) ou dans l’espace-temps du discours (qu’est-ce que
vous dites là ? je termine là).
22 Si l’on se penche sur le corpus CIEL et qu’on y recherche la forme là dans les différents
types d’activité et dans la pluralité des aires communicatives documentées, on constate
que ces emplois coexistent dans le temps et dans l’espace : dans un même fragment
d’interaction, on peut trouver des occurrences de là avec un sens premièrement spatial
et avec une fonction de structuration du discours. D’une part, à certains usages locatifs
peuvent se superposer des usages interactionnels – comme le montre l’usage de là
déictique avec un geste de pointage au service de l’auto-sélection (Mondada, 2007), au
service de la structuration de l’activité (Mondada, 2014) ou au service du renforcement
de la pertinence conditionnelle de la question (Mondada, à paraître). D’autre part, la
coexistence d’usages locatifs et d’usages de là grammaticalisé en particule peut amener
les locuteurs – s’orientant ainsi vers la grammaticalisation comme perte du sens
sémantique original – à adopter des stratégies de différenciation des deux types de
ressources pour continuer à exprimer la dimension spatiale de là.
23 Nous mentionnons ici trois faits qui montrent cette double orientation dans les
différentes aires du corpus.
24 La première évidence concerne l’occurrence de deux là successifs, comme dans les
exemples suivants :
(1) (CA_NB_REP_04)((en début d’enregistrement))KAT: on va commencer/ LÀ là\(2) (CA_QC_REP_01)A: on dirait qu- ils veulent pas qu’onconteste rien parce que il a été éLU-mais: tu sais ça s’arrête pas là là/(3) (BE_WBR_REP_02)PHI: ben: ils: rentrent chez eux/ hein tous les gens: qui ont un: certain âge/mais oui mais là LÀ c’était vraiment
Corpus, 15 | 2016
88
JEA: hmPHI: c’était quasi pousser les gens dehors/ quoi(4) (CI_ABJ_REP_02)TAN: [c’est quoi c’est quoi qui est] écrit là là/(0.9)MAB: quoi/TAN: mou(5) (FR_MZM)COR: là là c’est un projet on va dire c’est pour nous tesTER hein ça va être pour voir la qualiTÉ: euh: pour voir les délais: euh\ (.)ALI: d’a[ccord]
25 Comme ces exemples le montrent, là peut être dupliqué en début comme à la fin ou en
milieu de tour. Une analyse prosodique systématique serait nécessaire ici, ainsi qu’un
plus grand nombre d’occurrences pour tirer des conclusions sur des tendances
spécifiques aux variétés analysées ; toutefois ces exemples montrent qu’en français
d’Europe, du Canada et d’Afrique le double là est observable. La duplication semble
traiter le fait que le là particule structurant le discours ayant perdu sa dimension
spatiale, un autre là est utilisé pour référer à l’espace.
26 Une autre évidence concerne le fait que dans certaines variétés ce n’est plus là mais là-
bas qui est utilisé pour la référence spatiale, comme le montrent les exemples suivants,
où là-bas est positionné à la fin du tour ou de l’unité de construction du tour, position
souvent occupée par le là de structuration (cf. infra § 6.) :
(6) (TP-P-PRO-01)LOC: donc il va faire le feu là-bas(0.5) LOC: comme ça y aura la chaleur- la fumée: qui va chasser les- cespetits insectes-là(7) (SN_DK_REP_01)A: [il est ici//]B: [cela est sûr\] lui aussi:/ il est(en train) de célébrerle mariage là-bas(8) (CI_ABJ_REP_02)A: la semaine (0.4) dernière hein/ dixjours aujourd’hui (0.4)il y a eu un crash là-bas(1.0)A: et puis [aujourd’hui [encore y a y a xxxx(9) (CM_DLA_REP-01)A: c’est elle qui venait là-bas chaquematin/ là
27 Dans le dernier exemple, là-bas est utilisé au sein du tour pour la référence spatiale,
alors que là est utilisé à la fin du tour comme particule.
28 La troisième évidence est offerte par l’analyse multimodale – exploitant cette fois le fait
que le corpus CIEL-F comprend aussi quelques données vidéo (bien qu’encore trop peu).
Ainsi, dans l’extrait suivant, différentes formes de là sont utilisées. Le locuteur les
Corpus, 15 | 2016
89
différencie en utilisant ou non des gestes l’accompagnant – ce qu’il fait pour le là
spatial, alors qu’il ne le fait pas pour le là grammaticalisé en particule :
(10) FR_LIO1 ROG: .h parce que tu vois moi y en a un 2 ou deux/ qui m’ont demanDÉ/ euh: sur 3 les questions de réglementation:/ (0.3)4 .h d’avoir aussi/ (.) euh:: les textes/ 5 et des fois la discussion autour du 6 texte/ et la compréhension du texte 7 (0.3)8 ROG: .h9 BER: [ouais] 10 ROG: [et je] me dis que le- du coup le11 → petit: texte *là #(0.4) .h* qu’on a *paume latérale*fig #fig.112 mis dans la pochette/ l’arrêté du13 vingt-deux juin avec rénovation BAFA14 B A F D/ (0.3) .h au MOINS repren-15 en reprenant la partie animateur
Fig. 1
16 euh::(0.4) .h [euh:m:]17 BER: [ils l’ont/ la] 18 partie [animateur/19 ROG: [ouais ouais] ouais y- je 20 → leur ai mis [la com]plète là# fig #fig.221 BER: [d’accord]
Corpus, 15 | 2016
90
Fig. 2
((6 lignes omises))28 ROG: et j- et avec le TExte/ ça peut être29 → pas mal de faire cet exercice-là (0.5)30 parce que ça fait à la fois une 31 compréhension un peu: d’un texte32 de loi/33 (0.7)34 BER: ouais [ouais]35 ROG: → [et puis] euh:: c’est celui-là36 (0.8)37 BER: ouais c- enfin c’est vraiment celui/ 38 que j’ai en tête hein39 (1.6)40 ROG: → c’est l’arrêté du vingt-deux juin °là°#fig fig.3#
Fig. 3
29 Dans cet extrait, plusieurs occurrences de là sont observables : lignes 8-9 ROG
mentionne à nouveau (cf. le début de l’extrait) ce petit texte là et fait un geste co-
occurrent avec la forme là (Fig. 1), qui en souligne le caractère spatial et référentiel.
Plus loin quand, en réponse à la question de BER, ROG dit je leur ai mis la complète là
(14-15) il ne fait en revanche aucun geste (à ce moment-là il est en train de commencer
à se tourner vers ses dossiers, Fig. 2). Les occurrences de là avec démonstratif (23, 27)
ne sont pas non plus accompagnées de gestes. Le dernier là est produit avec une voix
faible, donc minimisé vocalement, pendant que ROG est tourné vers ses dossiers : là
aussi il ne fait aucun geste. Ainsi on peut remarquer que quand là est spatial (9), il est
accompagné d’un geste ; quand il va de pair avec un démonstratif (cet exercice.là 23,
celui-là 27) le geste n’est pas nécessaire, le là étant désambiguïsé par le démonstratif qui
Corpus, 15 | 2016
91
le précède ; quand il s’apparente davantage à une particule discursive (14-15, 31), il
n’est pas accompagné de gestes et est produit pendant que le corps du locuteur est
occupé à d’autres mouvements, comme se tourner, chercher des documents, etc. Ainsi,
sur la base d’observations préliminaires, il devient possible d’explorer la distinction
entre deux catégories, et la grammaticalisation en prenant en compte la gestualité – et
plus globalement la multimodalité – comme critère (et surtout ressource pour les
participants) supplémentaire permettant de distinguer différentes formes (telles que
traitées par les locuteurs).
30 Plus globalement, ces exemples montrent que le corpus permet d’observer non
seulement une pluralité d’emplois de là mais aussi la manière dont les locuteurs
traitent cette diversification et, si nécessaire, opèrent des différenciations dans le choix
local des ressources utilisées.
6. Là de structuration
31 La particule là grammaticalisée en marqueur de structuration occupe deux positions
majeures : d’une part elle peut être antéposée, d’autre part elle peut être postposée en
fin de clause.
32 Les cas de là antéposé, en début de clause, sont souvent précédés de connecteurs : parce
que là est relevé partout, mais plus fréquemment en France, Nouveau-Brunswick et
Congo ; après là est attesté en Côte d’Ivoire, en Belgique, Cameroun et France ; alors que
donc là et mais là sont repérables dans toutes les zones, et tout particulièrement en
France et en Belgique. De ce point de vue il ne semble pas que ce format puisse
différencier substantiellement des zones – même si des quantifications seraient là
nécessaires.
33 Le là postposé, fonctionnant comme particule discursive, a été identifié sous différentes
catégories en français – dénommé là d’actualisation (Quéffelec et al., 2997 ;
Ngamountsika, 2012) ou là de clôture (Barberis, 1992). Ces cas de là finaux sont fréquents
dans toutes les zones.
34 Mais leur distribution syntaxique varie.
35 Dans les français d’Europe, on constate que le là final est souvent précédé d’un
syntagme nominal qui peut avoir différentes portées possibles (cf. Barbéris, 1992) :
(11) (FR_PAR_AUT_02)A: alors vous z- vous m’appelez/ euh le quatuor là/(12) (BE_LGG_REP_01)A: j’ouvre un peu de lasagne làB: oui(13) (FR_LIO_REP_03)A: je vais prendre euh: les trucs là
36 Dans ces cas, le là final peut soit clôturer la totalité de la clause, soit le syntagme
nominal final, de manière analogue à un format de là répandu dans toutes les aires,
le_N_là (voir infra, § 7.).
37 En revanche, au Canada, il est précédé de constructions beaucoup plus diversifiées, et
souvent par des syntagmes verbaux. En voici quelques exemples :
(14) (CA_QC_REP_01)1 A: ils ont un- au moins ils ont une
Corpus, 15 | 2016
92
2 logique qui se tient jusqu’au bout/ là((…))10 A: on laisserait ça se faire mais 11 il a [été élu démocratiquement/]12 B: [m ça a pas d’allure là](15) (CA_QC_REP_02)A: euh: ils t’expliquent pourquoi là/(16) (CA_QC_REP_02)A: fait qu’Audrey aime plus ou moins hça\ là(17) (CA_NS_PRO_01)A: ils passent c’est la fin de semaineils passent sus- sus le numéro un poi::nt vite là(18) (CA_NB_RAD_04)A: c’est un bon violon de marque euhSkylark (0.2) puis euh::: en très bon état puis ça vient avec une case dure/ là
38 Dans ces cas, le là clôture la clause tout entière et pas uniquement le dernier syntagme.
En outre, le sens spatial est estompé – devenant de plus en plus abstrait et
métaphorique – pour se grammaticaliser : là indique la complétion du tour.
39 Ce rôle structurant de là est visible dans un autre type de construction, la relative, qu’il
clôt à droite. Ce phénomène a précédemment été décrit à propos de la relative
restrictive dans les créoles caribéens (Ludwig & Pfänder, 2003). Dans le corpus CIEL, on
le retrouve dans de nombreux autres aires et notamment au Cameroun. En voici deux
exemples :
(19) (CM_YAO_PRO_02)DAM: on compose du vingt-et-un (0.8)<((ralenti)) au vingt-quatre mai:/> (1.5) DAM: OUI vingt-un vingt-trois mai (0.4)et puis on a: la semaine qui SUIT là(20) (CM_YAO_PRO_02)GAB: oui: au moins// ils ont un-] au moinsils ont une logique [qui se tientjusqu’au bout/ là
40 On remarquera aussi que cette parenthèse droite d’une relative N + qui… là, l’élément
sur lequel porte la relative peut être lui-même marqué par là (dans le format le/
mon_N_là) :
(21) (CM_DLA_REP_01)JOL: après elle vient me suivre elle medit que bon: mon gars là qui veut te voir là/ bon dis à ton gars que:
7. Rendements interactionnels
41 Le format le/mon_N_là peut avoir un rendement interactionnel qui a été identifié dans
la littérature en termes génériques, en invoquant le marquage d’un common ground : là
ferait référence à un élément du savoir partagé et cela lui aurait valu la catégorisation
de là « de connivence » (Ludwig & Pfänder, 2003 : 272). Si cette description renvoie à
Corpus, 15 | 2016
93
une intuition globale interprétant le là comme pointant vers la mémoire discursive des
interlocuteurs, une description interactionnelle permet de mieux en préciser les
enjeux, moins en termes cognitifs qu’en termes de pratiques interactionnelles par
lesquelles l’intersubjectivité est constamment travaillée et retravaillée par les
interlocuteurs (Schegloff, 1992 ; Drew, 1995, Heritage, 2007).
42 Si l’on se tourne vers des occurrences en interaction, on constate ainsi que le caractère
partagé d’un savoir ou d’une référence n’est jamais totalement acquis au fil de
l’interaction, mais est constamment vérifié, rappelé, ré-établi, voire établi comme tel
lorsqu’il ne va pas de soi pour les interactants (voir p. ex. : Schegloff, 1996 ; Ford & Fox,
1996, à propos de la référence aux personnes). Cela est visible dans des usages de
le_N_là dans des environnements où le locuteur est visiblement engagé dans un travail
d’établissement du référent et de son caractère reconnaissable. Ce travail s’implémente
dans différentes pratiques.
43 Cela peut prendre la forme, par exemple, de recherches de mots, dans lesquelles le
locuteur cherche et construit graduellement la bonne formulation :
(22) (CM_DLA_REP_01)A: au fait j’ai mon: (.) .h l’ami demon: (.) mon gars là qui veut te voir là
44 Ici, le locuteur commence la formulation de la personne dont il est question par mon:,
dont l’allongement final et la pause successive montrent qu’il y a un problème, suivi
non pas du nom projeté mais d’un nouveau syntagme, l’ami de mon:, à nouveau allongé
et suivi de pause, finalement suivi de la formulation trouvée, mon gars là, produite sans
hésitation et suivie de la continuation du tour.
45 Cela peut aussi prendre la forme d’une recherche de formulation qui est davantage
orientée vers l’autre, vers l’interlocuteur – dont la non-réponse éventuelle peut
manifester la non-reconnaissance du référent. En voici un exemple :
(23) (CM_DLA_REP-01)1 A: j’ai ma petite copine là2 (0.4)3 A: tu connais ma copine là4 (0.4)5 A: la nièce de Depuis là/ 6 la plus petite là7 (0.4)8 B: ouais9 A: hum c’est ma copine là-bas/ 10 c’est elle qui
46 Dans ce cas, A mentionne une première fois ma copine là (1). L’interlocutrice ne répond
pas (2). A procède par conséquent en vérifiant explicitement son savoir (tu connais 3).
Mais B ne répond toujours pas (4). A poursuit en ajoutant des spécifications – toujours
sans réponse de l’interlocutrice (6), alors qu’en cette position séquentielle serait
attendu un marqueur de changement d’état (comme par exemple ah Heritage, 1984). B
ne produit un ouais que plus tardivement (7). Il est significatif que suite à cette réponse,
A peut continuer dans la progression de son histoire, en faisant référence cette fois à
ma copine là-bas (8) en utilisant un locatif qui est formellement distinct du déictique là
(cf. supra). Ici les SN marqués par là sont utilisés dans un environnement où il y a
absence de reconnaissance manifestée par le travail de formulation orienté vers cette
reconnaissance par le locuteur.
Corpus, 15 | 2016
94
47 Le locuteur peut aussi avoir recours à ces deux pratiques – recherche de mot et
recherche d’une formulation qui correspondent au savoir de l’interlocuteur –
ensemble, comme ici :
(24) (BF_OUA_PRO_01)1 A: TElecel/ tu- tu connais la chargée2 de communication non/3 (.)4 B: non/ eh:/ chose- (.) la fille de:5 Alpha là/6 (.)7 A: Alpha là: 8 B: je la connais pas per(so) c’est 9 beaucoup plus Soufo que 10 je connais:/
48 Dans ce cas, B ne répond pas immédiatement (2) à la question de A mentionnant la
chargée de communication (1), tout en s’engageant ensuite dans une recherche du nom
de cette personne, accompagnée par là (3). A confirme (5) tout en continuant à
s’orienter vers le fait que la référence personnelle n’est pas complètement assurée,
comme le montre le là. La réponse finale montre une forme de reconnaissance partielle
qui confirme que des problèmes d’identification se posaient précédemment et que les
interlocuteurs sont aux prises avec un problème d’établissement graduel de la
référence et du savoir partagé.
49 Ainsi, le tour suivant le là peut manifester soit la non-reconnaissance (comme dans les
cas précédents), poussant le locuteur à développer et à spécifier la référence, soit la
reconnaissance et donc l’existence d’un savoir partagé, comme dans l’extrait suivant :
(25) (CM_YAO_REP_02)1 A: bon (.) c’est quand même à un niveau: 2 (.) c’est [pas comme les bacheLIERS là3 B: [oui/ c’est:/ c’est pas comme4 les bacheliers/
50 Dans cet extrait, A utilise le format le_N_là. Son interlocuteur, B, montre qu’il s’oriente
vers cette référence comme faisant appel à un savoir commun : il manifeste sa
reconnaissance, non seulement par le token oui, non seulement en répétant la même
forme (sans là, puisque la référence est maintenant établie comme partagée), mais aussi
en le faisant très tôt, en chevauchement.
51 De ce point de vue, le placement d’une réponse en oui/ouais après le format le_N_là est
récurrent et montre le même phénomène à l’œuvre :
(26) (CI_ABJ_PRO_01)A: va prendre les parents de les amis-euh l- de l’apprenti làB: ouais(27) (SN_DK_AUT_01)A: donc/ (.) si j’ai mis/ jau:ne\ (0.5) j’ai mis parce que: y en a plus là-bas\(2.8) A: tu as vu les/ couleurs\ (.) là/ B: ouais(28) (CM_YAO_AUT_04)1 A: dès que je donne la dot là2 B: ouais3 A: je leur dis que moi (.) je n’ai
Corpus, 15 | 2016
95
4 plus <((en riant)) l’argent 5 pour le mariage/>
52 Dans ce cas, le fait que l’interlocuteur réponde par ouais juste après le SN suivi de là
montre l’orientation des deux participants vers l’établissement du référent. Dans le
dernier exemple il est clair que cela est traité comme une condition pour que le récit
puisse progresser (3-4).
53 Ce caractère partagé et reconnu du référent rend aussi possibles des énoncés
collaboratifs, comme dans les extraits suivants – l’un enregistré au Cameroun, et l’autre
au Canada :
(29) (CM_YAO_AUT_04)1 SAM: dès que je je je sais sais que 2 [dès que je (.) je donne] la dot là=3 LOU: [c’est tout ce qu’elle attend]4 PAB: =ils sauront que tu as les moyens(30) (CA_NB_REP_04)1 LEO: tu sais ce qui est plus scary 2 dans les films c’est la musique\ 3 SI y avait pas la musique là:4 KAT: on aurait pas/ ben peur
54 Dans le premier cas, le caractère partagé de ce dont il est question est visible dans le
chevauchement de LOU (3) qui effectue une première complétion collaborative. Mais
celle qui nous intéresse est la seconde, par PAB qui enchaîne sur la fin de la ligne 2,
exhibant par là que la dot est un référent acquis.
55 L’observation détaillée de là dans son interactionnel permet ainsi de mieux comprendre
plusieurs de ses fonctionnements, tel qu’il est non seulement décrit par le linguiste,
mais exhibé par le comportement des locuteurs eux-mêmes.
8. Conclusion
56 Cet article a poursuivi un double objectif : d’une part, présenter le projet CIEL et le
corpus qui en a résulté, avec une emphase particulière sur les choix effectués dans sa
constitution ; d’autre part, proposer un exemple d’analyse exploitant les potentialités
comparatives de la base de données, à propos d’une forme polyfonctionnelle du
français, là.
57 L’analyse montre l’importance de pouvoir soumettre aux mêmes interrogations des
occurrences d’une forme – mais aussi, dans une perspective plus ample, des
constructions, des actions, des types de séquences, des types de formats, etc. – dans
différentes aires documentées de manière similaire. L’accès à des données similaires
pour des aires communicatives différentes permet non seulement d’explorer des
similarités et des différences entre variétés ; il permet une forme de symétrie et
d’égalité entre ces variétés. Ce dernier point est inédit et permet, par exemple, d’éviter
des affirmations telles que ‘tel usage n’existe pas dans telle variété’ aussi bien que ‘tel
usage est typique de telle variété’, souvent effectuées en absence de corpus comparatifs
permettant de resituer la variété étudiée parmi d’autres. Cela permet par là-même de
relativiser à la fois l’‘exotisme’ de certaines variétés et la ‘familiarité’ du français
métropolitain : un corpus comparé permet une re-symétrisation et une relativisation
des images que les linguistes se font de ces usages. De même, les explorations dans le
corpus permettent de nuancer ce qui pourrait être globalement imputé au français ‘en
Corpus, 15 | 2016
96
Afrique’ ou ‘au Canada’ : une base comparée permet de distinguer des tendances entre
zones. Ces remarques ouvrent aussi des perspectives et des défis nouveaux, notamment
l’intérêt de procéder à des quantifications des occurrences et d’interroger les
conditions d’une analyse statistique. Pour cela le corpus CIEL, tout aussi important soit-
il, peut ne pas être suffisamment vaste, notamment en ce qui concerne des phénomènes
moins fréquents. En outre, la question de la quantification ne devrait pas faire oublier
l’importance de bien définir à la fois les phénomènes visés et les phénomènes
alternatifs observables dans les mêmes environnements – sans quoi la quantification
n’a pas de sens (Schegloff, 1993). Cette exigence naît aussi d’une caractéristique
majeure du corpus, qui est de mettre à disposition des environnements interactionnels
pour l’étude des phénomènes linguistiques, permettant une analyse qui ne se limite pas
à la clause ou au discours mais qui intègre fondamentalement les principes de
l’interaction sociale. La variété des formes comme des usages naissent des pratiques des
locuteurs et de leurs orientations vers des finalités communicatives spécifiques ; la
langue est constamment façonnée et refaçonnée par eux de manière située et ajustée
aux conditions interactionnelles. Cela permet, grâce à des données écologiques,
documentant des activités sociales telles qu’elles se déroulent de manière routinière
dans leur contexte ordinaire, de penser une linguistique qui réponde à la fois aux défis
de la description grammaticale, de la caractérisation sociolinguistique et de l’étude de
l’organisation séquentielle et temporelle de l’interaction sociale.
BIBLIOGRAPHIE
Barbéris J.-M. (1992). « Un emploi déictique propre à l’oral : le là de clôture », in M.A. Morel &
L. Danon-Boileau (éd.) La Deixis. Paris : PUF, 567-578.
Bert M., Bruxelles S., Étienne C., Jouin-Chardon E., Lascar J. & Mondada L. (2010). « Grands corpus
et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus
CIEL) », Pratiques 147-148 : 17-34.
Dister A., Gadet F., Ludwig R., Lyche C., Mondada L., Pfänder S., Simon A.C. & Skattum I. (2008).
« Deux nouveaux corpus internationaux du français : CIEL-F (Corpus international et écologique
de la langue française) et CFA (Français contemporain en Afrique et dans l’Océan Indien) », Revue
de linguistique romane 285/286 : 295-314.
Drew P. (1995). « Conversation analysis : the sequential analysis of intersubjectivity in
conversation », in J. Smith, R. Harré, L. V. Langenhove & P. Stearns (éd.) Rethinking Psychology. Vol.
2 : Alternative Methodologies. London : Sage.
Ehmer O. & Martinez C. (2014). « Creating a multimodal corpus of spoken world French », in
S. Ruhi, M. Haugh, T. Schmidt & K. Wörner (éd.) Best Practices for Spoken Corpora in Linguistic
Research, Newcastle : Cambridge Scholars Publishing, 142-161.
Ford C. E. & Fox B. A. (1996). « Interactional motivation for reference formulation : he had. This
guy had, a beautiful, thirty-two O:lds », in B. Fox (éd.) Studies in Anaphora. Amsterdam : Benjamins.
Corpus, 15 | 2016
97
Forget D. (1989). « Là : un marqueur de pertinence discursive », Revue québécoise de linguistique 18
(1) : 57-83.
Gadet F., Ludwig R., & Pfänder S. (2009). « Francophonie et typologie des situations », Cahiers de
linguistique 34 (1) : 143-162.
Gadet F., Ludwig R., Mondada L., Pfänder S. & Simon A.-C. (2012). « Un grand corpus de français
parlé : le CIEL-F Choix épistémologiques et réalisations empiriques », Revue française de linguistique
appliquée XVII/1 : 39-54.
Groupe ICOR (2009). « Exploitation de la plateforme CLAPI : Le cas de voilà dans les
chevauchements », Cahiers de linguistique 33/2 : 243-268.
Groupe ICOR. (2010). « Grands corpus et linguistique outillée pour l’étude du français en
interaction (plateforme CLAPI et corpus CIEL) », Pratiques 147-148 : 17-34.
Gumperz, J. (1982). Discourse Strategies. Cambridge : CUP.
Haugen E. (1972). « The ecology of language », in A. S. Dil (éd.) The Ecology of language : Essays by
Einar Haugen. Stanford : Stanford University Press, 325-339.
Heritage H. (2007). « Intersubjectivity and progressivity in person (and place) reference », in
N. J. Enfield & S. Levinson (éd.) Person Reference in Interaction : Linguistic, Cultural, and Social
Perspectives. Cambridge : Cambridge University Press, 255-280.
Heritage J. C. (1984). « A change-of-state token and aspects of its sequential placement », in
J. M. Atkinson & J. Heritage (éd.) Structures of Social Action. Cambridge : Cambridge University
Press, 299-345.
Italia M. (2006). « Le morphème là dans les variétés mésolectales et basilectales en français du
Gabon », Le français en Afrique 21 : 281-290.
Levinson S. (1979). « Activity types and language », Linguistics 17 : 365-399.
Ludwig R. & Pfänder S. (2003). « La particule là/la en français oral et en créole caribéen :
grammaticalisation et contact de langues », in S. Kriegel et al. (éd.) Grammaticalisation et analyse.
Approches de la variation créole et française. Paris : Éditions CNRS, 269-284.
Ludwig R., Mühlhäusler P. & Pagel S. (éd.) (in press). Linguistic Ecology and Language Contact.
Cambridge : Cambridge University Press.
Mondada L. (2007). « Multimodal resources for turn-taking : Pointing and the emergence of
possible next speakers », Discourse Studies 9, 2 : 195-226.
Mondada L. (2011). « Exigences analytiques pour l’enregistrement de la parole-en-interaction »,
Version 3.0.2. http://cielf.org/assets/files/Enregistrer_protocole_Mondada.pdf (consulté le
18.2.2015).
Mondada L. (2012). « The conversation analytic approach to data collection », in J. Sidnell &
T. Stivers (éd.) Handbook of Conversation Analysis. Oxford : Blackwell-Wiley.
Mondada L. (2013). « Displaying, contesting, and negotiating epistemic authorities in social
interaction », Discourse Studies 15 : 597-626.
Mondada L. (à paraître). « Conversation analysis », in E. Weigand (éd.) Language and Dialogue : A
Handbook of Key Issues in the Field.
Ngamountsika, E. (2012). « Analyse morphosyntaxique du morphème là en français parlé en
République du Congo », Revue du français en Afrique, 189-199.
Corpus, 15 | 2016
98
Ochs E. (1979). « Transcription as theory », in E. Ochs & B. Schiefflin (éd.) Developmmental
Pragmatics. New York : Academic Press.
Pfänder S. & Skrovec M. (2011). « Donc, entre grammaire et discours. Pour une reprise de la
recherche sur les universaux de la langue parlée à partir de nouveaux corpus », in M. Drescher &
I. Neumann-Holzschuh (éd.) Syntaxe de l’oral dans les variétés non hexagonales du français. Tübingen :
Stauffenburg Verlag.
Ploog K. (2006). « Du continuum pragmatico-sémantique aux caractéristiques prosodiques de là
en français abidjanais », Le français en Afrique 21 : 303-323.
Queffélec A. et al. (1997). Le français en Centrafrique : Lexique et société. Paris : Vanves-Edicef.
Sacks H. (1972). « An initial investigation of the usability of conversational materials for doing
sociology », in D. Sudnow (éd.) Studies in Social Interaction. New York : Free Press, 31-74.
Schegloff E. A. (1992). « Repair after next turn : the last structurally provided for place for the
defence of intersubjectivity in conversation », American Journal of Sociology 95 (5) : 1295-1345.
Schegloff E. A. (1993). « Reflections on quantification in the study of conversation », Research on
Language and Social Interaction 26 (1) : 99-128.
Schegloff E. A. (1996). « Some practices for referring to persons in talk-in-interaction : a partial
sketch of a systematics », in B. Fox (éd.) Studies in Anaphora. Amsterdam : Benjamins, 437-485.
Simon A. C., Gadet F., Ludwig R., Mondada L., Pfänder S. & Skrovec, M. (2012). Conventions de
transcription CIEL-F, Version 4.7. http://ciel-f.org/assets/files/conventions_ciel-f.pdf (consulté le
18.2.2015).
Skrovec M. & Pfänder S. (2012). « Rhétorique ordinaire et tâches communicatives : convergences
et divergences dans des entretiens médiatisés d’experts africains et français », Le français en
Afrique, 93-107.
Vincent D. (1981). « C’est ici ou là ? C’est ici là », in D. Sankoff & H. Cedergren (dir.) Variation
Omnibus. Edmonton : Linguistic Research Inc., 437-444.
Wiesmath R. (2003). « La particule là dans le parler acadien du Nouveau-Brunswick / Canada », in
S. Kriegel (éd.) Grammaticalisation et réanalyse. Approches de la variation créole et française. Paris :
Éditions CNRS, 284-302.
NOTES
1. http://www.projet-pfc.net
2. http://www.lll.cnrs.fr/eslo-1
3. http://clapi.ish-lyon.cnrs.fr
4. http://www.uclouvain.be/81834.html
5. http://www.ciel-f.org
6. Co-financement par l’ANR en France (ANR-08-FASHS-004) et la DFG en Allemagne (2009-2012 ;
Pf 699/1-1 ; Lu 529/3-1).
7. http://clapi.ish-lyon.cnrs.fr
8. http://moca.phil2.uni-freiburg.de et http://www.uclouvain.be/260466.html
9. Les collaborateurs sont mentionnés dans le site du projet : http://www.ciel-f.org/qui. Sans
eux le corpus dans sa richesse et sa diversité n’aurait pas pu voir le jour.
10. http://www.fon.hum.uva.nl/praat/
11. Ces chiffres renvoient à l’année 2014, voir http://clapi.ish-lyon.cnrs.fr consulté le 18.2.2015.
Corpus, 15 | 2016
99
12. Voir http://moca.phil2.uni-freiburg.de.
RÉSUMÉS
Cet article présente le travail de constitution du Corpus International Écologique de la Langue
Française (CIEL-F) et ses caractéristiques. Conçu pour mettre à disposition des corpus de données
interactionnelles récoltées dans des contextes ordinaires, professionnels et institutionnels
authentiques, et afin de promouvoir la recherche comparée sur le français parlé, le corpus CIEL-F
comporte des enregistrements effectués en Algérie, Antilles françaises, Belgique, Burkina Faso,
Cameroun, Canada, Congo, Côte d’Ivoire, Egypte, France, Inde, La Réunion, Maurice, Sénégal,
Suisse et Togo. Dans la première partie, l’article présente les défis et les enjeux de ce type de
corpus. Dans la deuxième partie, l’article offre un exemple d’exploitation de ces données, en se
penchant sur différents usages de là, allant de l’emploi déictique locatif à des emplois qui
relèvent davantage de la particule discursive grammaticalisée. L’analyse propose quelques
remarques sur la distribution de ces emplois de là dans différentes aires communicatives et des
réflexions sur les possibilités ouvertes par une approche comparative au sein du français parlé
dans le monde.
This paper describes the conception and constitution of the International Ecological Corpus of
French (Corpus International Écologique de la Langue Française CIEL-F). This corpus has been
gathered and set up in a data bank in order to make available to the scientific community
interactional data collected in ordinary, professional and institutional contexts. The aim is to
make possible and promote comparative analysis of spoken French. Data were recorded in
Algeria, the French Antillean islands, Belgium, Burkina Faso, Cameroun, Canada, Congo, Ivory
Cost, Egypt, France, India, La Réunion, Maurice, Senegal, Switzerland and Togo. In the first part
of the article, we present the issues and challenges of such a corpus. In the second part of the
article, we offer an example of exploitation of the data bank. More particularly, we study some
usages of the form là, which can be used as a locative deictic but also in more metaphorical way
as well as a fully grammaticalized discourse particle. The analysis shows the way different usages
are distributed in various communicative areas and proposes some thoughts about possibilities
and limitations of comparative analyses of French as it is talked across the world.
INDEX
Mots-clés : français parlé, corpus, enregistrement, écologie, interaction sociale, analyse
comparée, là, deixis, particule discursive, grammaticalisation
Keywords : spoken french, corpus, recording, ecology, social interaction, comparative analysis,
là, deixis, discourse particle, grammaticalization
AUTEURS
LORENZA MONDADA
UMR ICAR Lyon & Université de Bâle
Corpus, 15 | 2016
100
STEFAN PFÄNDER
Université de Freiburg-im-Breisgau
Corpus, 15 | 2016
101
CLAPI, une base de donnéesmultimodale pour la parole eninteraction : apports et dilemmesCLAPI, a multimodal database for talk in interaction: contributions and
dilemmas
H. Baldauf-Quilliatre, I. Colón de Carvajal, C. Etienne, E. Jouin-Chardon, S.Teston-Bonnard et V. Traverso
1 Il est intéressant et possible, aujourd’hui, de mettre en perspective l’évolution des bases
de données de langues parlées en France au cours des trente dernières années. Dans cet
article, nous présentons le développement de la base de données CLAPI dans ce cadre.
Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue parlée en
interaction, audio et vidéo, enregistrés dans des situations sociales naturelles variées,
et la plateforme d’outils. Nous montrons aussi comment la base peut être utilisée pour
des études de linguistique interactionnelle à travers l’étude de « oh là là » et des usages
de « trop » dans des contextes variés. Au cours de cette présentation, nous formulons
quelques-uns des dilemmes auxquels nous sommes aujourd’hui confrontés dans les
relations entre la poursuite des recherches sur des corpus variés (et parfois sensibles)
et les exigences des bases de données ouvertes.
1. La base CLAPI et son contexte
2 La base de données CLAPI, Corpus de LAngue Parlée en Interaction a été lancée, à la fin
des années 90, pour archiver et préserver les corpus qui étaient régulièrement faits
dans le cadre des recherches sur l’interaction au laboratoire ICAR. Dès l’origine
(1998-1999), la base a été pensée avec un triple objectif, qu’elle conserve toujours
aujourd’hui (voir Bruxelles & Traverso, 2003). Elle s’est transformée au fil du temps
pour devenir une plateforme outillée.
Corpus, 15 | 2016
102
1.1 Objectifs de la base CLAPI
1.1.1 Une dimension « Patrimoine »
3 Sur ce plan, le développement et l’évolution de la base de données CLAPI sont
représentatifs de la situation générale à au moins deux niveaux.
4 D’une part sur le plan de la réalisation d’une banque de données sauvegardant et
mettant à disposition les corpus existants. Cet objectif a impliqué un important travail
de recensement et de localisation des données, du fait qu’elles n’étaient jusque-là pas
centralisées ni rendues disponibles à la fin d’une recherche. Les choses ont bien changé,
depuis, des routines se sont mises en place, et la base héberge les corpus qui sont
régulièrement réalisés, selon des standards qui ont été élaborés au cours du temps (voir
ci-dessous). Ce processus est symptomatique des évolutions qui ont eu lieu au cours de
la vingtaine d’années écoulée depuis le début de la conception de la base CLAPI.
L’importance accordée aux corpus dans le champ scientifique (comme en témoignent
les programmes de l’ANR qui y ont été consacrés) s’est démultipliée. Parmi les
conséquences de cette évolution : l’attention plus grande portée à la collecte des
données primaires et à la confection des corpus (transcription, organisation, etc., voir
le site CORINTE1), la mise en place progressive de standards dans les manières de faire
non seulement en informatique, avec le développement de la TEI au niveau
international, par exemple, mais dans toutes les procédures conduisant à la réalisation
des corpus (filmage, numérisation, transcription, etc.). L’archive de la base CLAPI
conserve des traces de ce cheminement, avec des corpus historiques, et des corpus
récents réalisés selon ces nouveaux standards.
5 D’autre part, les données hébergées dans CLAPI illustrent une très importante partie de
l’histoire et du développement du champ d’analyse de l’interaction en France (voir
Traverso, 2012b, Traverso et al., 2012). Sont ainsi hébergés des corpus qui ont été
réalisés par des chercheurs comme Bange, de Gaulmyn, Cosnier, Kerbrat-Orecchioni,
Plantin, Bruxelles, Traverso, Grosjean, Mondada.
6 La constitution de l’importante archive de CLAPI (environ 600 heures) a impliqué un
conséquent travail de sélection (selon des critères de qualité et juridiques) et
d’organisation des données, comme la définition des entités « corpus »,
« interactions », « fonds », l’organisation des données primaires et des données
secondaires, etc. (voir Balthasar & Bert, 2005). Sur le plan technique, cette réalisation a
nécessité un important travail de numérisation (avec les choix techniques que cela
entraîne) pour les enregistrements audio ou vidéo, qui existaient sur des supports
extrêmement variés, aussi bien que pour les documents papier (données secondaires).
7 Un des problèmes majeurs qui s’est posé dans cette période concerne l’hétérogénéité
des transcriptions, qui tenait à différents facteurs : l’utilisation de différentes
conventions de transcription, la transcription partielle de certains phénomènes, de
certains passages, les différents niveaux de granularité attestés, l’utilisation de
différents logiciels de transcription (principalement CLAN, Praat et ELAN). La solution
retenue conserve la transcription d’origine sans retranscription, dans le respect du
travail effectué par le transcripteur, mais opère des modifications mineures qui sont
consignées dans une version de la transcription « adaptée clapi », afin de résoudre des
problèmes techniques comme l’utilisation d’un même signe pour des annotations
différentes. Une procédure informatique transforme les annotations en balisages XML
Corpus, 15 | 2016
103
qui sont utilisés par les outils de CLAPI pour traiter toutes les transcriptions quelle que
soit leur convention, leur niveau de granularité ou leur format d’origine. Notre solution
repose pour cela sur un processus qualité semi-automatique dans lequel l’équipe
médiathèque intervient pour identifier et vérifier la convention fournie par le
responsable puis détecter et corriger les anomalies. Ceci garantit la qualité des
transcriptions présentes à ce jour dans la base, même si le volume actuel ne permet pas
de corriger toutes les erreurs. Le responsable de corpus valide le choix des
métadonnées et l’affichage des transcriptions avant que l’ensemble soit rendu
disponible dans CLAPI.
1.1.2 Une dimension « Partage »
8 Sur ce plan, CLAPI entend faciliter la réalisation de recherches dans le domaine de
l’interaction ou d’autres approches en linguistique en permettant aux chercheurs
d’accéder à des données « toutes faites ». La mise à disposition des corpus
s’accompagne :
– des descripteurs (75 métadonnées) ;
– du signal audio ou vidéo : en totalité, parfois uniquement l’audio pour des raisons de
droit, et d’autres fois seulement des extraits ;
– des transcriptions : une transcription selon les principes de l’analyse
conversationnelle à partir de laquelle on peut générer une transcription
orthographique pour d’autres usages, dans différents formats ;
– d’un ensemble d’outils d’analyse et de requête.
1.1.3 Une dimension « Recherche »
9 La réalisation de la base CLAPI et la mise à disposition des données ont été pensées pour
soutenir les analyses interactionnelles, qu’il s’agisse d’étudier la langue dans ses usages
en interaction, ou plus conformément aux exigences de l’analyse conversationnelle, les
configurations multi-ressources multimodales que les participants mettent en place
dans leurs échanges. CLAPI, dans sa dimension de banque de données (archive)
constitue un grand corpus permettant d’avancer sur la recherche des récurrences dans
les organisations interactionnelles et, à partir de là, de constituer des collections
(manière d’articuler le qualitatif au quantitatif).
1.2 CLAPI aujourd’hui
10 Dès sa conception, la base de données a présenté un certain nombre de caractéristiques
qui marquent encore aujourd’hui sa spécificité parmi les bases existantes. C’est une
base consacrée à la parole en interaction et non simplement au français parlé. Ceci
conduit à accorder une attention très spécifique à la situation sociale dans laquelle les
données sont collectées, ce qui a également pour conséquence :
– la très grande variété de situations sociales représentées dans la base (réunions de
travail dans différents cadres, interactions de service, interactions en site commercial,
visites privées, repas familiaux et amicaux, visites guidées, consultations médicales,
appels téléphoniques privés et professionnels, situations de classe : travaux pratiques,
conversations en ligne, etc.) ;
Corpus, 15 | 2016
104
– le fait que les données hébergées dans la base sont très majoritairement des
« données naturelles ». On désigne par cette expression le fait que les données ne sont
pas produites pour le chercheur ni dans une situation construite par le chercheur
(Potter, 2006). La plupart des données de CLAPI sont des enregistrements d’interactions
se déroulant dans leur milieu habituel et pour leurs raisons habituelles propres aux
participants. On peut souligner que cette « naturalité » distingue les données de CLAPI
de la plupart des données orales que l’on trouve le plus souvent dans les bases de
données, et qui sont provoquées ou obtenues par élicitation (p. ex. : des entretiens2). La
différence entre les deux est particulièrement signifiante pour les situations de travail.
Parler de naturalité n’implique pas que l’on considère que le protocole
d’enregistrement n’a aucun impact sur les comportements des participants (voir Colón
de Carvajal et al., à paraître, Laurier & Philo, 2006). Toutefois, et malgré la présence de
la caméra et son impact, les données naturelles sont irremplaçables pour étudier les
processus interactionnels en situation.
11 Les données hébergées dans CLAPI, originellement audio, sont aujourd’hui de plus en
plus souvent vidéo.
12 Outre les données qui ont été collectées par les chercheurs du laboratoire ICAR, CLAPI
héberge des données d’interactions confectionnées par d’autres équipes de recherche,
et dont le processus d’intégration dans la base (métadonnées, transcriptions, accès,
etc.) est discuté avec les auteurs. Sont actuellement hébergés : les Cahiers du français
des années 80 (M.-A. Mochet), un Fonds Bielefeld (E. Gülich), le Corpus Grenouille
(H. Jisa), le Corpus Étudiants (M. Savelli), le Corpus Entretiens avec des jeunes écoliers
(J.-M. Colletta), etc.
1.2.1 L’organisation
13 La base de données CLAPI est une base de données multimédia au sens fort.
L’organisation des données qu’elle contient est conçue de telle sorte que, pour chaque
corpus (qui correspond à un seul enregistrement dans le cas le plus simple), il est
possible d’accéder à l’ensemble des éléments documentant ce corpus : le signal audio et
vidéo par streaming ou téléchargement, la transcription des données, les conventions
de transcriptions, les autres données primaires (documents récupérés sur le terrain), et
les métadonnées (voir Figure 1). L’ensemble de ces éléments est accessible aussi bien à
partir de la fonction « feuilleter les corpus » qu’à partir des résultats d’une requête
effectuée à l’aide d’un des outils de la plateforme.
14 Cas simple : un corpus, une situation, une interaction.
Corpus, 15 | 2016
105
Figure 1. Données et métadonnées
15 Les cas plus complexes sont ceux dans lesquels le corpus comprend plusieurs
enregistrements, ou comporte plusieurs transcriptions (le choix ayant été fait de
proposer différentes transcriptions dans différents formats pour un même
enregistrement). L’architecture est alors la suivante (Figure 2) :
Figure 2. Architecture
1.2.2 Les outils
16 L’analyse des interactions repose sur l’étude fine de phénomènes dans une approche
résolument qualitative ; les outils de CLAPI permettent d’introduire une dimension
quantitative (décompte de phénomènes) qui peut conduire à formuler de nouvelles
hypothèses de recherche et sont ainsi une aide pour construire un objet d’étude
complexe.
17 La palette d’outils mise à la disposition des usagers est une aide pour approcher un
phénomène donné, qu’ils pourront aborder à partir des repérages automatiques, puis
en retournant systématiquement au détail des attestations transcrites, à l’écoute ou à la
visualisation de l’enregistrement, voire aux métadonnées (cf. ci-dessus).
Corpus, 15 | 2016
106
18 L’interface est disponible, depuis 2013, en langue anglaise pour permettre aux
chercheurs étrangers de disposer de collections de données en français qu’ils pourront
néanmoins sélectionner dans leur langue.
19 Le développement de ces outils a nécessité un travail préalable sur l’orthographe
utilisée dans les transcriptions. Les transcriptions originales sont en effet le plus
souvent réalisées en orthographe adaptée (voir les conventions ICOR3), c’est-à-dire
cherchant à reproduire à l’écrit certains aspects de la prononciation (par exemple, `fin
et non enfin, b`jour et non bonjour), un outil a été développé pour reconstruire (et
permettre de travailler sur) la « forme étendue » afin de retrouver l’ensemble des
attestations. Le même outil permet de générer une transcription orthographique
standard des corpus.
20 Les autres outils développés sont les suivants :
– Un outil de concordance permet de retrouver un token dans toute la base ou dans un
sous-ensemble de corpus (à partir de filtres sur la nature du signal, audio ou vidéo, et
sur le nombre de locuteurs) ;
– Une série d’outils automatiques produisent des résultats quantitatifs à partir d’un
point d’entrée qui peut être un mot, une transcription ou un phénomène
interactionnel. Ils comprennent :le lexique d’une transcription, par fréquence ou par ordre alphabétique ;
les co-occurrences d’un mot dans toute la base ou dans un sous-ensemble de corpus, c’est-à-
dire les mots les plus fréquents dans le voisinage gauche ou droit du mot cible ;
les co-occurrences d’un phénomène interactionnel. Les phénomènes traités sont les
chevauchements (avec la distinction chevauchant/chevauché), les pauses (courtes/
longues), l’emplacement dans le tour de parole, les tours courts ;
les contextes d’emploi d’un mot : les emplois les plus fréquents du mot cible en fonction de
sa position dans le tour (seul, en première position dans le tour, en début de tour, en
dernière position dans le tour, en fin de tour, dans les tours courts), de sa production en
chevauchement ou non (début de segment chevauchant ou chevauché), de sa localisation
par rapport aux pauses, etc. ;
les répétitions dans une transcription, qu’il s’agisse d’auto-répétitions ou d’hétéro-
répétitions. L’outil identifie les segments les plus répétés, par fréquence et par taille, dans la
transcription complète ou par locuteur.
- Un outil de requêtes multicritères associe le lexique, les caractéristiques
interactionnelles et les métadonnées. Il permet au chercheur de définir lui-même son
objet d’étude qui peut correspondre à :une expression composée d’une suite de mots, à une certaine distance, dans le même tour ou
dans une suite de tours de parole ;
à une certaine position du tour de parole (n tokens du début ou de la fin du tour), dans des
tours de parole d’une longueur donnée (plus de/moins de n tokens) ;
avant ou après une pause, courte et/ou longue ;
en début de segment chevauchant/chevauché ;
dans des interactions sélectionnées à partir des critères : audio/vidéo ; nombre de
locuteurs ; type d’activité situations ; locuteurs natifs ou non natifs ; sexe ; tranche d’âge ; ou
par un locuteur donné (si un sous-ensemble de corpus a été sélectionné).
21 Les résultats des requêtes effectuées avec ces outils permettent de retourner à
l’ensemble des informations présentées au paragraphe 1) ci-dessus. Ils donnent en
outre la possibilité d’accéder pour chaque extrait, à une version « détaillée »
•
•
•
•
•
•
•
•
•
•
Corpus, 15 | 2016
107
(transcription fine) ou « simplifiée » (transcription orthographique), ainsi qu’à une
version imprimable qui permet de copier/coller un passage dans un autre document.
1.2.3 Quelques données chiffrées
22 CLAPI comprend, à ce jour (mars 2015), 65 corpus correspondant à 370 situations
interactionnelles, soit 225 heures de données et 650 transcriptions, les transcriptions
alignées étant disponibles dans plusieurs formats. Parmi ces données, 45 heures sont
téléchargeables sans condition d’accès, et 65 heures, soit 150 situations, sont
requêtables par les outils décrits ci-dessus.
23 Les consultations représentent environ 10 000 accès par mois, en excluant la page
d’accueil ou les requêtes qui ne sont pas formulées jusqu’au bout par l’utilisateur. On
peut détailler parmi ces accès : 30 % de consultation des métadonnées ; 30 % de
téléchargement des enregistrements et des transcriptions mais aussi des conventions
de transcription ; 20 % d’utilisation des outils et 10 % de streaming des
enregistrements. Les outils les plus utilisés restent les concordances (30 %) et les
requêtes multicritères (30 %), les outils automatiques se partagent les 40 % restant, sans
préférence marquée pour l’un d’entre eux.
1.2.4 Les autres sites en relation directe avec CLAPI
24 La base met à disposition un espace de travail (de type « bac à sable ») pour les corpus
en cours d’exploitation (projets, thèses, etc.) qui donne accès à l’ensemble des outils
d’analyse et de requête de la base tout en nécessitant un jeu restreint de descripteurs.
L’enjeu est aussi de favoriser le dépôt depuis cet espace vers la banque de données, à la
fin des projets ou des thèses.
25 CLAPI est associé avec le site CORINTE (CORpus d’INTEractions)4 qui est dédié à la
méthodologie et aux aspects analytiques de la linguistique interactionnelle, explicitant
toute la chaîne de production des corpus, les questions juridiques et les principes
d’analyse, et mettant différents documents à la disposition des utilisateurs (p. ex. :
autorisations, consentement éclairé, etc.).
26 La base est également associée avec le site CORVIS (CORpus de VIdéos Situées)5 qui
recense les usages de la vidéo en sciences humaines et sociales, en vue de la
constitution de corpus pour l’étude des pratiques sociales, culturelles, linguistiques
dans leurs contextes ordinaires, professionnels et institutionnels. Le site rassemble de
nombreuses informations pour la réalisation et le traitement des vidéos.
2. Évolutions majeures
27 La base de données a évolué sur tous les plans au fil du temps. Nous ne reprenons que
les éléments majeurs, qui sont aussi l’occasion d’évoquer les problèmes et les dilemmes
qui se posent.
Corpus, 15 | 2016
108
2.1 Alimentation et enrichissement de la base : les nouveaux corpusvidéo
28 Comme nous l’avons dit ci-dessus, les nouvelles données sont réalisées à partir de
standards qui ont été établis au fil du temps (cf. les sites CORINTE et CORVIS). La chaîne
de production des corpus est intégrée dans le cursus de formation des étudiants de
sciences du langage : réalisation des terrains, filmage (prise de vue, conception),
transcription outillée (CLAN, Praat, Transicor, ELAN). Ceci permet à la base CLAPI de
mettre à la disposition des chercheurs des enregistrements vidéo, le plus souvent
multivue, d’excellente qualité, qui sont propices à l’étude de phénomènes
interactionnels multimodaux les plus divers (voir Mondada, 2006). Ces évolutions
inestimables pour la recherche (en termes de variété de données, de qualité du signal
vidéo et audio, et de démultiplication des phénomènes rendus étudiables parce
qu’accessibles) ne vont pas sans poser des problèmes et nous confronter à des
dilemmes.
29 Par exemple, le nombre des tâches liées à la mise en forme et à la mise en ligne d’un
corpus augmente en parallèle. En plus des tâches de numérisation (i. e. le transfert du
format natif de la caméra vers un format qui soit interopérable entre players et
systèmes d’exploitation, et compressé sur ordinateur), apparaît celle de synchroniser
les sources. En effet, pour favoriser une lecture complète des données multivue sur
CLAPI, les différentes vues enregistrées (et les sources audio additionnelles, s’il y en a)
sont synchronisées en une seule vidéo à l’aide de logiciels professionnels (FinalCut Pro).
Ceci permet également au chercheur d’activer à l’écoute une source audio plutôt
qu’une autre (de meilleure qualité ou de meilleur volume sonore). Cette multiplication
des sources (audio et vidéo) pose des problèmes liés au poids et au volume des données
à archiver. Tout l’ensemble du processus pour une valorisation optimale des données
nécessite au final de plus en plus de tâches, de plus en plus techniques (transfert,
compression et synchronisation des données) et, en conséquence, une augmentation en
effectif humain et en recherche continue de financement.
30 Un des aspects non résolus de ce dilemme concerne les dimensions multimodales. Les
travaux menés dans l’équipe LIS du laboratoire ICAR intègrent de façon aujourd’hui
systématique la multimodalité (cf., entre autres, Mondada, 2006, 2007, 2012 ; Groupe
ICOR, 2014 ; Traverso 2011, 2012a, 2014 ; Ticca & Traverso, à paraître ; Baldauf-
Quilliatre, 2014a et b ; Colón de Carvajal, 2013). Les analyses réalisées sont possibles
grâce à la qualité des données collectées. Ces données sont hébergées dans la base (ou
dans l’espace de travail privé de CLAPI), mais elles ne sont pas annotées
multimodalement. La réalisation d’une analyse multimodale implique de suivre la
démarche présentée dans ICOR 2014, que l’on peut résumer ainsi :
Parcours de la base, requête, résultats de la requête -> établissement de la collection(par sélection) et classement Retour aux données (signal) -> nouveau travail sur la transcription en fonction desbesoins de la recherche (granularité, annotations multimodales pertinentes pour l’analyse) -> analyse multimodale
31 Les questions qui se posent concernent d’une part la pertinence de poursuivre la
réalisation d’aussi nombreux nouveaux corpus (notamment dans le cadre de la
formation), sachant qu’il n’est pas possible de les traiter, transcrire et intégrer (ni en
totalité ni rapidement) dans la base de données. L’autre question est celle de la
Corpus, 15 | 2016
109
pertinence de réaliser une annotation multimodale des données dans CLAPI, qui ne
pourrait de toute façon que porter sur un très petit nombre de données
(comparativement à ce que la base met à disposition), et sur un ensemble très restreint
de phénomènes par rapport à ceux que l’analyse interactionnelle fait jouer. Ces
questions continuent à être en discussion dans l’équipe de gestion de CLAPI.
2.2 Les dimensions juridiques
32 Il y a une vingtaine d’années, le recueil de données audio était réalisé le plus souvent
sans précaution particulière. Depuis, l’obtention du consentement des personnes
enregistrées est devenue une étape indispensable avant toute prise de données. Ce
changement s’explique notamment par l’usage de la vidéo, qui fait apparaître les
visages en plus des voix, et par le développement des bases de données de corpus en
ligne, qui favorise la diffusion de ces images. L’enregistrement, l’exploitation et la
diffusion des données audiovisuelles illustrant des situations d’interaction ordinaires
de la vie quotidienne posent des questions de droit des personnes enregistrées (droit à
la vie privée et droit à l’image), et des questions d’éthique relatives à la diffusion des
données enregistrées. Après la collaboration du groupe ICOR aux réflexions collectives
qui ont mené à la publication du guide des bonnes pratiques (Baude, éd., 2006), le
travail effectué en 2009 avec les services juridiques du CNRS a permis de rendre CLAPI
conforme aux évolutions de la réglementation en matière de protection des données
dites « à caractère personnel ».
33 Un des changements qui en découle est la mise en place de Conditions générales
d’utilisation (CGU), explicitant la restriction de l’utilisation des données à des fins de
recherche et d’enseignement, qui doivent être acceptées (de manière électronique)
pour toute consultation des corpus.
34 La question de la diffusion des données de la recherche est plus que jamais au cœur des
préoccupations de la communauté des SHS. Les initiatives locales sont nombreuses
autour de ces questions pour tenter d’en définir les contours et de trouver des
solutions. Mais il importe qu’elles soient traitées à l’échelle nationale pour aboutir à des
directives communes et à l’harmonisation des pratiques. C’est ce que l’on attend des
travaux du consortium IRCOM ou du réseau des MSH, auxquels le groupe ICOR
contribue, ainsi que des infrastructures en réseau, comme ORTOLANG, qui proposent
des services mutualisés d’archive pérenne de données et de diffusion à grande échelle.
35 Globalement, la tendance actuelle est à l’ouverture de plus en plus importante des
données de la recherche. Cette évolution est une conséquence logique de la mise en
place des bases de données, tout à fait positive sur le plan du rayonnement de la
recherche et de la qualité des données. Elle pose en retour quelques problèmes, par
exemple celui de décider si l’on doit continuer à confectionner des corpus auxquels
l’accès sera toujours restreint (p. ex. : corpus en milieu médical). C’est à nouveau tout
l’équilibre entre force de travail, coût, reconnaissance et diffusion qui se trouve posé,
des positions trop radicales en la matière risquant d’avoir un effet appauvrissant sur la
diversité des domaines étudiés.
Corpus, 15 | 2016
110
2.3 Les interopérabilités
36 Sur ce plan également, le panorama n’a cessé d’évoluer au cours des quinze dernières
années.
37 Un premier besoin d’interopérabilité bilatérale a émergé dans les projets comprenant
plusieurs bases de données pour échanger les métadonnées et les transcriptions, voire
accueillir les corpus dans les différentes bases afin de bénéficier d’une plus grande
variété d’outils d’exploration ou de requêtes. CLAPI a ainsi développé une plateforme
CLAPI-TALKBANK dédiée aux corpus d’Analyse conversationnelle de la TALKBANK6 en
anglais et en danois, basée sur le format XML de la TALKBANK. Ce type
d’interopérabilité implique un suivi permanent pour s’assurer qu’un changement
effectué dans une des bases ne fasse pas barrière à l’interopérabilité. Chacune des bases
étant en évolution constante, cette solution ne peut pas être maintenue à moyen terme.
38 Pour éviter de multiplier des formats pivots voués assez vite à devenir obsolètes, CLAPI
a proposé, dès 2006, un export de ses descripteurs et de ses transcriptions en format
TEI7. Ce recours au format TEI a été exploité par la suite dans l’ANR franco-allemande
CIEL-F8 « Corpus international écologique de langue française ». Il a permis l’échange
d’une collection de métadonnées entre les bases MOCA et CLAPI (les transcriptions sont
en Praat), et une plateforme CLAPI-CIELF est en cours de finalisation proposant la
palette d’outils de CLAPI pour explorer les corpus de CIEL-F.
39 Une réflexion plus générale a été initiée dans le groupe de travail « Interopérabilité »
(coord. C. Étienne, ICAR, C. Parisse, Modyco), au sein de l’infrastructure de recherche
IRCOM9 dédiée à l’étude des Corpus oraux et multimodaux en partenariat avec l’équipex
ORTOLANG10. Ce groupe participe aux discussions du groupe européen ISO-TEI pour
proposer des évolutions dans la norme adaptées aux spécificités de l’oral. Ses objectifs
sont de convenir d’un jeu raisonnable de métadonnées indispensables à tout travail de
recherche ainsi que d’un format commun de transcriptions pour permettre aux
chercheurs de travailler sur une plus grande quantité de données, quels que soient leur
base d’origine, leur structure initiale et le format de leur transcription. Cette initiative
a été enrichie par les besoins d’homogénéisation des corpus oraux du projet ANR
ORFEO11 « Outils et ressources pour le français écrit et oral ». Il est clair aujourd’hui que
l’interopérabilité ne peut être traitée au sein d’un seul laboratoire et que c’est
collectivement que l’on peut proposer des solutions s’adaptant à la variété des données
du paysage de l’oral.
3. Quelques exemples de recherche
40 Nous présentons succinctement deux exemples de recherches qui ont été effectuées
pour illustrer des usages possibles des outils proposés par CLAPI. Le premier exemple
illustre le travail de mise en relation des données et des métadonnées pour l’analyse et
le second, la façon dont la base de données peut permettre de travailler sur la
multimodalité.
3.1 Trop : articulation données et métadonnées
41 À la suite du travail d’O. Daumeries dans un dossier de Master 2, nous avons repris
l’analyse des usages de « trop », en posant qu’il existait un glissement de son sens
Corpus, 15 | 2016
111
« originel » dénotant l’excès (« c’est trop haut pour que je l’attrape peux-tu m’aider »)
jusqu’au sens de simple intensif « c’est trop beau ». Nous avons sélectionné les corpus
en fonction de la langue des locuteurs, en excluant les interactions dans lesquelles
intervenaient des locuteurs non natifs, et n’avons sélectionné que les corpus
enregistrés en France (par l’examen de la liste des corpus, ou à travers les
métadonnées).
42 Au total, nous avons retenu 24 corpus (cf. le tableau en annexe). L’étude des
occurrences de « trop » fait apparaître d’emblée que la simple opposition « intensité »
vs « excès » n’est pas suffisante pour la description. Nous relevons les emplois suivants.
3.1.1 Emploi « trop = excès »
43 On peut distinguer ici plusieurs sous-catégories.
- Les emplois « classiques » : (1) CEC : ça a été un peu trop assimilé à mon avis à la loi Pasqua qui est plus lafermeture (Débat sur l’immigration)(2) EF : est-ce que vous trouvez que par exemple à la télévision justement euh onparle trop de: enfin de mort (Cahiers du Français des années 80)(3) Y : mais c`t après-midi là: tu vois j` su- j` suis descendu en ville t`t à l’heure enmilieu d’après-midi (.) j’avais même chaud (.) j’étais euh: trop habillé tu vois(Conversations familières, Navye)
- Les emplois classiques qui correspondent à la négation ou à la remise en question de
la notion d’excès :(4) C5 : vous avez pas trop froid en vélo (Interactions pendant la tournée desfacteurs)(5) Ap6 : tout tout juste en espérant qu’il n’y a pas trop d` trafic hein ça va dev`nirla mauvaise heure hein non/ (Téléphone en entreprise)
- Cas de « de trop »
44 On trouve deux occurrences de « de trop »12 dans la base de données :
(6) FA17 : bon il faut pas qu’il en fasse de trop non plus (Enquête de sociologieurbaine - paris marais)
3.1.2 « Trop » emploi intensif au sens de « très », « tellement », « beaucoup »
45 Le TLFI rappelle que ces emplois sont attestés depuis longtemps dans certains
contextes :
- les formules de politesse, comme « vous êtes trop aimable, trop bon, etc. » ;
- dans des tours hypocoristiques, par exemple : « Ils se retiraient sur la pointe des pieds
en murmurant que j’étais trop mignon, que c’était trop charmant » (Sartre, Les Mots,
1964, p. 119).
- et dans des phrases exprimant une appréciation subjective, exemple : « Ah ! non c’est
trop drôle ! Ah ! ah ! ah ! » (Feydeau, La Dame de chez Maxim, 1914, II, 8, p. 48).(7) ELI : ça m’a trop peinée (0.2) franchement (Repas Kiwi)(8) FLO : c’est trop bon ça mh::\ (Repas Olives)
46 Sur cette base, la mise en parallèle des occurrences et des métadonnées nous permet de
faire les observations suivantes.
Corpus, 15 | 2016
112
3.1.3 Âges des locuteurs et époque d’enregistrement
47 L’époque d’enregistrement est indéniablement pertinente. Par exemple dans les corpus
de conversations familières enregistrées entre 1985 et 1990, il n’y a qu’une seule
occurrence de l’emploi de « trop » au sens de « très » :
(9) A : c’est vraiment trop drôle parce qu’y a un moment où Mozart est occupé/ (.)alors y a quelqu’un qui dit he is busy (Conversations familières, Navye)
48 Et l’on peut noter qu’il s’agit d’un usage répertorié dans le TLFI. Dans les corpus
correspondant aux mêmes situations qui ont été enregistrés en 2008 (Épinards, Kiwi,
Olives), ces emplois sont largement supérieurs aux emplois au sens classique :
Figure 3. Fréquences d’emploi
Corpus Annéedurée
minnombre d’occ.
Trop
ExcèsTrop intensif
Repas Épinards 2008 31 8 2 6
Repas Kiwi 2008 150 88 2 86
Repas Olives 2008 29 20 2 18
49 D’une façon générale, on peut dire que cet usage semble donc occasionnel, jusqu’aux
années 2000, puis devient plus conséquent.
50 Pourtant, la période d’enregistrement et l’âge des participants n’expliquent pas tout.
3.1.4 Genre interactionnel
51 L’autre élément essentiel est le genre interactionnel. Dans le corpus Session de jeux
vidéo, enregistré en 2007 (dans le but d’étudier la langue des jeunes), dans lequel des
adolescents jouent à un jeu de football, les occurrences « classiques » sont plus
nombreuses que les occurrences comme simple intensif. C’est dû au fait que les
participants commentent les tirs et les manières de jouer, avec une grande fréquence
d’énoncés comme :
(10) j` vais trop vite trop haut ah putain trop court
3.1.5 Les « préfabriqués »
52 Une autre piste de réflexion est ouverte par cette première étude, c’est celle des
« préfabriqués » (constructions toutes faites, chunks) (voir Gülich, 2008 ; Schmale, éd.,
2013).
53 Nous obtenons 56 occurrences de « pas trop » dans les corpus sélectionnés, parmi
lesquelles
- 10 « j’aime pas trop » (11) la paella j’aime pas trop (Repas Olives)(12) moi j` trouve c a fait un peu boyau\ ça mais moi j’aime pas trop (Réunion deconception en Architecture, Mosaic)
Corpus, 15 | 2016
113
- 7 « savoir » + pas trop(13) bon ben j’ai fichu mon b- pas mon beurre dessus puisque c’est du St Hubert ouj` sais pas trop quoi faut que j` m’entretienne la ligne (Interactions dans uncommerce - magasin de retouches)
54 Un nombre important d’occurrences concerne des énoncés sans verbe réalisant des
évaluations, dont les outils de CLAPI permettraient d’étudier l’emplacement séquentiel
par rapport au tour précédent, notamment si ces « assessments » sont produits en
chevauchement :
« trop bien » 31 occurrences « trop beau » 8 « trop fort » 7
3.2 « Oh là là » une façon de travailler sur la multimodalité à partirde CLAPI
55 Le deuxième exemple illustre comment CLAPI peut permettre l’analyse de la
multimodalité dans une approche qualitative de linguistique interactionnelle. L’étude
poursuit l’investigation de différents marqueurs discursifs en interaction effectuée par
le groupe ICOR (2007, 2008a, 2008b, 2009, 2010). Dans ce cadre, nous nous sommes
intéressés à « Oh là là » (ICOR 2014). « Oh là là » est souvent décrit comme un exclamatif
typiquement français, pouvant servir à marquer la surprise ou la consternation. Cette
explication n’est pourtant pas suffisante comme l’a montré notre étude basée sur des
analyses multimodales. CLAPI nous a permis de faire une collection de 67 occurrences
dont 59 ont finalement été retenues, les 8 autres étaient prononcés par des locuteurs
non-francophones ou insuffisamment audibles pour une analyse. Ces 59 exemples
pouvaient être regroupés dans deux grandes catégories. La première catégorie
regroupe les cas où « Oh là là » est utilisé (seul ou avec d’autres éléments langagiers) en
tant que première ou deuxième partie d’une paire adjacente ou en tant que continueur.
Dans ce cas, le marqueur participe à la co-construction de l’interaction. La deuxième
catégorie regroupe les cas où ce n’est pas à ce niveau qu’intervient le marqueur : soit
parce qu’il se trouve dans un tour long, narratif et introduit un discours rapporté, soit
parce qu’il réfère à une activité / un événement extralinguistique.
56 Les documents vidéo disponibles dans CLAPI nous permettent de prendre en compte
toute la dimension multimodale de l’interaction (agencement de l’espace, gestes,
regards, position, manipulation d’objets etc.). Dans l’exemple suivant, extrait d’une
interaction dans un tabac-presse, une cliente entre dans le magasin avec un journal
qu’elle a pris à l’entrée sur un présentoir et non pas sur le distributeur. BEA, la
vendeuse, lui fait une remarque (l.01-02).
(14)
Corpus, 15 | 2016
114
57 Cette remarque est une critique à l’égard de la cliente et pointe la non-conformité de la
manière de faire qu’elle a adoptée. La cliente répond d’abord avec une excuse assez
vague (« J’ai pas pensé », l. 04). La suite (« Oh là là hin hin », l. 06) pourrait être
interprétée comme une expansion de cette excuse. L’analyse détaillée des gestes et des
regards montre autre chose. Lorsque la cliente répond « J’ai pas pensé », elle regarde en
direction de l’entrée (Figure 4a). Elle maintient ce regard pendant la pause de 0.3 sec.
(l. 05), puis met ses mains devant son visage, fait un pas en arrière et s’exclame en riant
« Oh là là hin hin » (l. 6, Figure 4b). La vendeuse rit à son tour. La cliente pointe alors
vers le distributeur et explique qu’elle n’a pas pris le journal dessus car elle ne l’avait
pas vu (l. 8-13, Figure 4c).
Figure 4. Langage paraverbal
58 Oh là là indique ici un changement d’état : entre la réponse « J’ai pas pensé » et « Oh là
là » la cliente a aperçu le distributeur et compris son « erreur ». Regards, position et
pointage sont des indices forts pour comprendre « Oh là là » comme change-of-state
Corpus, 15 | 2016
115
token (Heritage, 1984) et introduisant l’explication, et non comme expansion de
l’excuse.
59 La démarche pour ce type d’analyse à l’aide de la base CLAPI est celle que nous avons
présentée dans la section 2.1 :
Parcours de la base, requête, résultats de requête -> établissement de la collection(par sélection) et classement Retour aux données (signal) -> nouveau travail sur la transcription en fonction desbesoins de la recherche (granularité, annotations multimodales pertinentes pourl’analyse) -> analyse multimodale
4. CLAPI pour l’enseignement
60 Depuis 2010, nous avons engagé une réflexion sur la façon dont la base de données
pourrait être utilisée pour l’enseignement du français (FLE) ou de la linguistique
française, l’idée étant de concevoir un volet de CLAPI dédié à l’enseignement qui serait
alimenté en parallèle du volet recherche.
61 Nous avons collaboré avec plusieurs départements de français à l’étranger où des
expériences d’utilisation des données de CLAPI ont été réalisées :
- en groupe classe, avec des étudiants de niveau A2 à B1, utilisation de corpus de CLAPI
choisis par l’enseignante pour illustrer différents phénomènes interactionnels comme
les routines, les assimilations, les émotions, les élisions (ICOR et E. Ravazzolo,
Université de Trento, Italie)
- en groupe classe, avec des étudiants de niveau C1 futurs interprètes, utilisation
d’extraits portant sur le désaccord avec des tests de compréhension et de reformulation
(ICOR et N. Niemants, U. Forli et Maccerata, Italie)
- en entretien individuel auprès de 9 étudiants de niveau A2 à C1, utilisation d’extraits
portant sur le désaccord avec des tests de compréhension, de reformulation, de
détection de début et de fin de séquences et leur justification (ICOR et A. Thomas,
J. Granfeldt, N. Bengtsson & C. Rocher-Hahlin, U. Lünd, Suède, dans le cadre du projet
exploratoire Clapi-FPIE13)
62 Dans tous les cas, l’enseignant(e) a donné des informations contextuelles et parfois
lexicales, et constaté que les difficultés des élèves portaient davantage sur
l’organisation de l’interaction, la co-construction de tours de parole par plusieurs
locuteurs et la compréhension des tours brefs que sur le lexique. Les expériences ont
également montré que le niveau de bruit (souvent considéré comme un frein à
l’utilisation de données enregistrées dans des contextes sociaux naturels) n’est pas
toujours problématique et constitue au contraire une aide à la compréhension.
63 Cet intérêt des enseignants pour l’usage de données orales naturelles en complément
des données construites a conduit à ouvrir une collaboration avec des chercheurs
engagés dans des directions similaires pour d’autres bases de données (PFC, S. Detey &
I. Racine ; ESLO, M. Skrovec).
5. Conclusion
64 Le temps n’est pas si lointain où l’on se plaignait, à juste titre, de l’absence de corpus de
français (parlé). La situation a fortement évolué au cours des vingt dernières années. Il
ne semble plus guère possible de dire aujourd’hui qu’il n’y a pas de corpus disponibles
Corpus, 15 | 2016
116
pour travailler, et les récriminations relatives à l’impossibilité d’accès (cf. l’expression
si souvent entendue « du chercheur assis sur ses données ») n’ont certainement plus
lieu d’être, que les données soient en ligne ou qu’elles soient accessibles après un
contact avec les gestionnaires des bases de données. Le développement de ces bases a
fait avancer les méthodologies et la recherche dans de nombreuses directions (sur le
plan de la qualité des données, de la connaissance des attentes d’un public élargi, des
exigences de standardisation pour permettre le partage, de la quantité de données à
disposition ce qui entraîne un enrichissement des analyses, etc.). L’expérience de CLAPI
que nous avons retracée ici est tout à fait représentative à cet égard.
65 Dans le panorama actuel, on voit combien les bases de données existantes sont
complémentaires et présentent chacune ses spécificités. CLAPI est ainsi la seule à être
spécifiquement dédiée à la langue parlée en interaction, ce qui la conduit à proposer
une très grande variété de corpus vidéo enregistrés dans des situations sociales variées.
Elle se caractérise tout autant par la riche panoplie d’outils qu’elle met à la disposition
des chercheurs.
66 Se dessine par ailleurs, aujourd’hui, une très nette orientation vers la collaboration
entre les chercheurs des différentes bases (dans les projets ANR ou dans les instances
nationales) pour réfléchir à des solutions communes plutôt que de continuer à avancer
en parallèle sans concertation, même si les objectifs et les contenus des bases restent
différents sur bien des points.
67 La situation nous conduit également aux constats suivants :
– Il manque encore un très grand corpus de français. Comme le préconise le projet
ORFEO, c’est en fédérant et organisant les bases et corpus existants que ce très grand
corpus a des chances de se mettre à exister ;
– D’une façon plus générale, et à toutes sortes de niveaux, on peut dire que l’effort qu’il
a fallu faire au cours des années 1990 pour commencer à réunir les forces sur la
centralisation des corpus, leur identification, leur conservation, etc. et pour lancer les
projets de bases de données (cf. Bruxelles & Traverso, 2003) se poursuit actuellement
avec l’organisation des collaborations entre bases de données.
68 En conclusion, il nous semble important de rappeler que ces évolutions créent
également des problèmes voire des dilemmes. Les bases de données, les exigences de
standardisation, la lourdeur du traitement des données (de plus complexes et lourdes
dans le cas de CLAPI, exigeant un travail de plus en plus important et de plus en plus de
technique) et son coût font ainsi naître le risque paradoxal d’un rétrécissement du
champ des recherches sur des corpus « rentables », parce que très standard et ne
posant pas de problèmes de droit. S’il a été à un certain moment essentiel de construire
les conditions du partage des données, il convient maintenant de protéger la possibilité
de lignes de recherche qui n’alimentent pas directement les infrastructures ainsi mises
en place, mais qui contribuent néanmoins tout autant à l’enrichissement du panorama
de la recherche sur l’oral et sur la langue parlée en interaction.
Corpus, 15 | 2016
117
BIBLIOGRAPHIE
Baldauf-Quilliatre H. (2014a). « Répétition et encouragement », Semen 38 [Véronique Magri-
Mourgues / Alain Rabatel (éd.) : Pragmatique de la répétition], 115-135.
Baldauf-Quilliatre H. (2014b). « Formate knapper Bewertungen beim empraktischen Sprechen »,
in C. Schwarze, C. Konzett (éd.) Hinter den Kulissen : Aktuelle Projekte aus der Interaktionsforschung –
methodologisch betrachtet. Frankfurt : Lang, 107-130.
Balthasar L. & Bert M. (2005). « La plateforme “Corpus de langues parlées en interaction”
(CLAPI) », Lidil 31 : 13-33.
Baude O. (éd.) (2006). Corpus oraux, guide des bonnes pratiques 2006. Paris & Orléans : Éditions du
CNRS & Presses universitaires d’Orléans.
https://hal.archives-ouvertes.fr/hal-00357706/file/
Corpus_Oraux_guide_des_bonnes_pratiques_2006.pdf
Bruxelles S. & Traverso V. (2003). « Les corpus de langue parlée en interaction au GRIC », in
D. Pusch & F. Raible (éd.) Romanistiche Korpuslinguistik. Tübingen : Gunter Narr Verlag, 59-70.
Colón de Carvajal I., Lascar J. & Traverso V. (à paraître). « Et l’impact de la caméra alors… »,
Revue en ligne Ethnographiques.org.
Colón De Carvajal I. (2013). « Du corpus enregistré au corpus analysé : questions méthodologiques
sur l’utilisation d’outils de requêtes informatisés. Corpus, Données, Modèles », Cahiers de
Praxématique 54-55/2010, Montpellier : PULM, 313-326. [halshs-00630514].
Étienne C. (2009). « La TEI dans le Projet CLAPI, Corpus de langues parlées en interaction », TEI
Council, Lyon.
Groupe ICOR (L. Balthasar, S. Bruxelles, L. Mondada, V. Traverso) (2007). « Variations
interactionnelles et changement catégoriel : l’exemple de ‘attends’ », in Auzanneau M. (éd.) La
Mise en œuvre des langues dans l’interaction. Paris : L’Harmattan, 299-319.
Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, S. Teston-Bonnard, V. Traverso)
(2008a). « ‘Oh::, oh là là, oh ben…’, les usages du marqueur ‘oh’ en français parlé en interaction »,
in J. Durand, B. Habert & B. Laks (éd.) Congrès mondial de linguistique française. Paris, France. En
ligne, <10.1051/cmlf08099>. <halshs-00356377>
Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2008b). « Tool-assisted
analysis of interactional corpora : voilà in the CLAPI database », Journal of French Language Studies
18 (1) : 121-145.
Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2009). « Exploitation de
la plateforme Corpus de langue parlée en interaction (CLAPI) : le cas de ‘voilà’ dans les
chevauchements », Cahiers de linguistique 33 (2) : 243-268.
Groupe ICOR (M. Bert, S. Bruxelles, C. Étienne, L. Mondada, V. Traverso) (2010). « Grands corpus
et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus
CIEL) », Pratiques 147-148 : 17-34.
Groupe ICOR (C. Étienne, S. Bruxelles, E. Jouin, L. Mondada, F. Oloff, V. Traverso) (à paraître).
« Phénomènes et unités : questions autour de la détection automatique des répétitions dans un
corpus de langue parlée en interaction », in (DES-)Organisation de l’oral de la segmentation à
l’interprétation. Rennes.
Corpus, 15 | 2016
118
Groupe ICOR (H. Baldauf-Quilliatre, S. Bruxelles, S. Diao-Klaeger, E. Jouin-Chardon, V. Traverso)
(2014). « Oh là là : the contribution of the multimodal database CLAPI to the analysis of spoken
French », in H. Tyne, V. André, A. Boulton, C. Benzitoun, Y. Greub (éd.) Ecological and Data-Driven
Perspectives in French Language Studies. Newcastle : Cambridge Scholars Publishing, 167-198.
Gülich E. (2008). « Le recours au préformé : une ressource dans l’interaction conversationnelle »,
in J. Durand, B. Habert & B. Laks (éd.) Congrès mondial de linguistique française. Paris, France.
Disponible en ligne sous : http://www.linguistiquefrancaise.org/index.php?
option=article&access=doi&doi=10.1051/cmlf08315.
Laurier E. & Philo C. (2006). « Natural problems of naturalistic video data », in H. Knoblauch,
J. Raab, H.-G. Soeffner & B. Schnettler (éd.) Video-Analysis Methodology and Methods, Qualitative
Audiovisual Data Analysis in Sociology. Oxford : Peter Lang, 183-192.
Mondada L. (2006). « Video Recording as the Reflexive Preservation and Configuration of
Phenomenal Features for Analysis », in H. Knoblauch, J. Raab, H.-G. Soeffner & B. Schnettler (éd.)
Video-Analysis Methodology and Methods, Qualitative Audiovisual Data Analysis in Sociology. Oxford :
Peter Lang, 51-68.
Mondada L. (2007). « Multimodal ressources for turn-taking : Pointing and the emergence of
possible next speakers », Discourse Studies 9/2 : 195-226.
Mondada L. (2012), « Talking and driving : Multiactivity in the car », Semiotica 191, 223-256.
Potter J. (2006). « Naturalistic Data », in V. Jupp (éd.) The Sage Dictionary of Social Research Methods.
London : Sage. Brockington.
Schmale G. (2013). « Formen und Funktionen vorgeformter Konstruktionseinheiten in
authentischen Konversationen / Forms and Functions of Formulaic Construction Units in
Conversation », Linguistik Online 62, 5/2013, http://www. linguistik-online.de/62_13/.
Ticca A. C. & Traverso V. (à paraître, 2015). « Territoires corporels, ressenti et paroles d’action :
des moments délicats de la consultation médicale avec interprète », Langage et Société.
Traverso V. (2011). « Analyser un corpus de langue parlée en interaction : questions
méthodologiques », Verbum 4 : 313-329.
Traverso V. (2012a). « ‘Le salon bibliothèque’ : délimitation et partage des espaces. Usage des
annonces dénominatives désignatives dans la visite guidée », in J.-P. Dufiet (éd.) Les Visites guidées.
Discours, interaction, multimodalité. Trento : Presses de l’Université de Trento, 55-85.
Traverso V. (2012b). « Analyses interactionnelles : repères, questions saillantes et évolution »,
Langue Française 175 : 3-17.
Traverso V. et al. (2012). « Analyses de l’interaction et linguistique : état actuel des recherches en
français », Langue française 175.
Traverso V. (2014). « La construction de (l’attention visuelle sur) l’objet au cours de la visite
guidée : étude d’un cas limite », in J. P. Dufiet (éd.) L’Objet d’art et de culture à la lumière de ses
médiations. Trento : Coll. Labirinti, 43-85.
ANNEXES
Occurrences de « trop »
Corpus, 15 | 2016
119
Le total des occurrences de « trop » dans ces 24 corpus s’élève à 337 occurrences (la
base de données en contient au total 547).
Corpus Annéedurée
min
nombre
d’occ.
Trop
Excès
Trop
intensif
Négociation sur les loyers – commission de
conciliation, 1984 115 18 9 9
Mode – interactions sur un thème imposé, 1982 22 5 4 1
Français des années 80 – entretiens
sociolinguistiques, 1984 72 32 27 5
Conversations familières – Visites 1985-1990 61 13 11 2
Interactions commerciales – bureau de tabac
presse 1986 120 1 1
Enquête de sociologie urbaine –Paris Marais, 1989-1990 171 19 15 4
Conversations téléphoniques en entreprise 1997 25 4 3 1
Débat sur l’immigration – TP d’étudiants 1997 78 8 8 0
Négociation sur le partage de biens – notaires 1997-1998 36 2 1 1
Interactions commerciales – vente à domicile
encyclopédies,1998-1999 6 1 0 1
Interactions dans un commerce – magasin de
retouches (papotages)2001 22 6 4 2
Réunion de conception en architecture –
Mosaic2002 78 20 12 8
Consultations chez les dentistes 2003 35 3 1 2
Réunion de travail entre publicitaires – Lyon
Saxe 2004 58 7 5 2
Repas. Conversations entre étudiants 2006 47 36 14 22
Interactions pendant la tournée de facteurs 2006-2007 24 3 3 0
Repas Épinards 2008 31 8 2 6
Repas Kiwi 2008 88 2 86
Repas Olives 2008 29 20 2 18
Conversations en ligne 2007-2008 14 5 4 1
Corpus, 15 | 2016
120
Session de jeux vidéo entre jeunes 2007 106 28 16 12
NOTES
1. http://icar.univ-lyon2.fr/projets/corinte/
2. Dans cette perspective, les entretiens sont des données provoquées et ils illustrent un genre
interactionnel spécifique. Le choix a été fait que la base de CLAPI ne contienne pas de données
médiatiques pour des questions de droit (des données radiophoniques ont en revanche été
collectées dans le projet CIEL-F, et elles sont hébergées dans CLAPI-CIELF, voir 2.3).
3. http://icar.univ-lyon2.fr/projets/corinte/bandeau_droit/convention_icor.htm
4. http://icar.univ-lyon2.fr/projets/corinte/
5. http://icar.univ-lyon2.fr/projets/corvis/
6. http://talkbank.org/
7. Étienne, 2009.
8. http://www.ciel-f.org/
9. http://ircom.huma-num.fr
10. https://www.ortolang.fr
11. http://www.projet-orfeo.fr
12. Cet usage est considéré comme familier dans le TLFI, avec l’exemple « Il en avait de trop à
bouffer le général, puisqu’il touchait d’après le règlement quarante rations pour lui tout seul »
(Céline, Voyage, 1932, p. 33).
13. http://clapi-fpie.ish-lyon.cnrs.fr
RÉSUMÉS
Dans cette contribution, nous présentons la base CLAPI développée au laboratoire ICAR dans le
contexte de l’évolution des bases de données de langues parlées en France au cours des trente
dernières années. Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue
parlée en interaction audio et vidéo enregistrés dans des situations sociales naturelles variées, et
la plateforme d’outils.
L’usage et l’apport de CLAPI sont illustrés par deux études. L’une décrit comment la base peut
être utilisée pour des travaux de linguistique interactionnelle intégrant la multimodalité (« oh là
là ») ; l’autre concerne une recherche combinant données et métadonnées (« trop »).
L’article est aussi l’occasion d’un bilan plus général. La mise en perspective montre en effet
qu’après la période des questions est venue celle des dilemmes. La période des questions, choix et
décisions à toutes sortes de niveaux a accompagné la mise en place des bases de données.
L’expérience permet maintenant de mesurer leurs indéniables apports en termes non seulement
de quantité de données disponibles (et traitables grâce aux outils), mais aussi de qualité (comme
conséquence des exigences de standardisation liées au partage des données). La période des
dilemmes nous conduit à nous interroger sur les meilleurs choix à opérer aujourd’hui dans les
relations entre la poursuite des recherches sur des corpus variés (et parfois sensibles) et les
exigences des bases de données ouvertes.
Corpus, 15 | 2016
121
In this contribution, we present the development of the CLAPI by the ICAR Lab in the context of
the evolution of the databases of spoken languages in France during the last thirty years. We
describe the two components of CLAPI, the archive of corpus of spoken languages in interaction,
audio and video, recorded in varied naturally-occurring social situations, and the plateform of
tools.
The use and the support of CLAPI the research are shown out of two studies. One illustrates how
the database can be used for working in an interactional linguistic perspective, including
multimodality (“oh là là”); the other concerns a research combining data and metadata (“trop”).
The article is also the occasion of a more general assessment. The perspective on the last thirty
years shows that after a period of questions came that of dilemmas. The period of questions,
choices and decisions at various levels accompanied the implementation of the databases. The
experience enables now to measure their undeniable contributions in terms not only of quantity
of available data (and possibly dealt with supported by the tools), but also of quality of the data
(as a consequence of the requirements of standardization linked to the needs of sharing the
data). The period of the dilemmas leads us to wonder about the best choices to be operated today
among continuing research on varied corpuses (sometimes delicate) and the requirements of the
databases.
INDEX
Mots-clés : parole en interaction, multimodalité, interopérabilité, banques de données
Keywords : talk-in-interaction, multimodality, interoperability, databank
AUTEURS
H. BALDAUF-QUILLIATRE
Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2
I. COLÓN DE CARVAJAL
Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2
C. ETIENNE
Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2
E. JOUIN-CHARDON
Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2
S. TESTON-BONNARD
Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2
V. TRAVERSO
Groupe ICOR, UMR 5191 – CNRS / Université Lyon 2
Corpus, 15 | 2016
122
Disfluences et vieillissementlangagier. De la base de donnéesVALIBEL aux corpus outillés enfrançais parléDisfluencies and language aging. New corpora and tools for exploring spoken
French in the VALIBEL database
Catherine T. Bolly, George Christodoulides et Anne Catherine Simon
1 Dans cet article, nous nous attachons à explorer les possibilités d’investigation qu’offre
la base de données textuelles orales VALIBEL, en portant une attention particulière à
l’outillage (principalement, le programme DisMo pour l’annotation des disfluences) et
au corpus Corpage, récemment intégré à la base et dont la population cible concerne
des personnes âgées.
1. La base de données VALIBEL
2 La base de données textuelles orales VALIBEL ne constitue pas un corpus mais un
regroupement de corpus constitués depuis 1987. Il s’agit donc d’une sorte de « réservoir
de corpus » qui est alimenté de manière incrémentale au fur et à mesure des nouveaux
projets de recherche nécessitant de collecter des données orales (section 2).
Documentées et archivées sous format électronique, ces données peuvent être
réexploitées à des fins de recherches variées (section 3), touchant notamment à des
questions sociétales cruciales telles que le vieillissement de la population (section 5). La
documentation qui les accompagne comprend des métadonnées sur la situation
d’interaction et les locuteurs, ainsi que sur la transcription orthographique effectuée.
Pour une partie des données, cette transcription est directement alignée sur le signal
sonore. Certains corpus font en outre l’objet d’annotations particulières (section 4).
Corpus, 15 | 2016
123
2. Historique du centre VALIBEL
3 Le centre de recherche VALIBEL a été créé en 1989 par Michel Francard. L’acronyme qui
a donné son nom au centre (VAriétés LInguistique du français en BELgique) rend
compte des objectifs de recherche établis à cette époque : il s’agissait de créer un
observatoire des usages du français en Belgique, dans leur variation. L’intérêt s’est
d’abord porté sur l’analyse des représentations linguistiques des locuteurs concernant,
par exemple, les accents régionaux ou l’insécurité linguistique (Francard, 1993). Des
collectes de données orales et de vastes enquêtes par questionnaire sont mises en place
pour tester la diffusion et la vitalité des régionalismes lexicaux. Un des résultats est le
Dictionnaire des belgicismes faisant actuellement référence (Francard, Geron, Wilmet &
Wirth, 2015). Entre 1989 et 1999, la majorité des corpus recueillis consistent en
interviews sociolinguistiques – comportant le plus souvent une partie de discussion
ouverte visant à recueillir des informations sociobiographiques sur le locuteur et à le
faire parler librement, et une partie plus contrainte guidée par un questionnaire.
D’autres corpus, de taille plus réduite, ont été réalisés ponctuellement pour des études
variées (sur la liaison, l’argumentation dans les débats, l’alternance de code français-
wallon, etc.).
4 En 2009, le centre s’élargit en accueillant une nouvelle équipe et redéfinit ses objectifs,
ce qui se marque par un changement de nom : Valibel - Discours et Variation. La
sociolinguistique reste un ancrage théorique important, comme en atteste la
participation de Valibel au vaste projet de recueil de données pour l’étude de la
Phonologie du français contemporain (PFC – Durand, Laks & Lyche, 2009), qui a permis
de renouveler les études sur la prononciation du français en Belgique (Hambye &
Simon, 2009 ; Simon, 2012). L’autre axe de recherches concerne l’analyse du discours,
en particulier les connecteurs et marqueurs de discours (Bolly, Crible, Degand & Uygur-
Distexhe, 2015), les unités de base du discours (Martin, Degand & Simon, 2014), les
effets du vieillissement langagier sur la dimension pragmatique (Bolly & Boutet,
soumis) ou le traitement de la fluence et de la disfluence à l’oral (projet ARC « Fluency
and disfluency markers. A multimodal contrastive perspective », voir Crible, Dumont,
Grosman & Notarrigo, 2015). Des chercheurs travaillant sur d’autres langues que le
français (en particulier l’espagnol et le néerlandais) se sont également ajoutés à
l’équipe (De Cock, 2014 ; Van Goethem & Hiligsmann, 2014), et des études contrastives
sont en cours (De Cock & Roginsky, 2015). Depuis une dizaine d’années, un effort
particulier a été investi pour recueillir de nouveaux corpus plus diversifiés en termes
d’activités communicatives. En guise d’exemple, le corpus « style » présente la
particularité d’enregistrer un même locuteur dans deux situations contrastées (par ex.
en situation professionnelle et privée) afin de documenter la dimension diaphasique de
la variation.
5 Le développement de la base de données textuelles orales VALIBEL, dans ce contexte,
n’est pas une fin en soi, mais constitue la pierre de touche de recherches qui se veulent
fondées empiriquement sur corpus. Cela offre également un terrain intéressant
d’élaboration méthodologique, concernant les types de données à recueillir, les modes
de recueil, de documentation et d’annotation. Le principe qui régit la recherche au
centre Valibel reste l’étude de la variation à partir d’usages langagiers attestés et
documentés (i. e. à partir de corpus), visant à documenter la diversité des pratiques
langagières en Belgique francophone, et dans d’autres langues.
Corpus, 15 | 2016
124
3. Description des corpus dans la base de données
6 Par définition, la base de données est ouverte, et sa croissance est le signe de la vitalité
des recherches menées au sein du centre Valibel. Le développement se fait dans deux
directions :
– en ajoutant de nouvelles données (enregistrements, transcriptions, métadonnées) (cf.
ci-dessous et en 5.) ;
– en ajoutant de nouvelles annotations aux données existantes (cf. section 4.).
7 Aujourd’hui, on peut dire que la banque de données VALIBEL compte 24 corpus
exploitables. Ces corpus ont initialement fait l’objet d’une chaîne de traitement
standardisée, décrite dans Dister & Simon (2007), suivie plus récemment d’une phase
d’annotation et de traitement des données telle que décrite sous 4.2. Ces corpus
représentent actuellement 494 enregistrements sonores, impliquant 568 locuteurs,
totalisant 352 heures de parole, accompagnés de métadonnées (informations sur les
locuteurs et sur la situation d’interaction) et de transcriptions orthographiques. Ces
transcriptions totalisent 3 388 208 tokens1.
8 Les données sont archivées dans la base de données [moca], qui permet d’interroger à
distance les données et de télécharger les fichiers son et les transcriptions (pour plus de
détail : Dister, Francard, Hambye & Simon, 2009 ; Simon, Francard & Hambye, 2014). Les
métadonnées, qui sont également interrogeables via l’interface [moca], ont été
intégrées dans la transcription orthographique sous la forme de TEI Headers pour
favoriser l’interopérabilité des corpus. Elles donnent des informations sur les aspects
suivants : (i) enregistrement : nombre de locuteurs, relation entre locuteurs, date et
lieu d’enregistrement, langue, type d’interaction, durée, nombre de mots, statut de
l’enregistrement, etc. ; (ii) corpus : code d’identification, année de constitution, objectif
de recherche, nombre d’enregistrements et de locuteurs, nombre de mots, durée ;
(iii) locuteur : sexe, âge, localisation géographique, lieu de naissance, degré de scolarité,
profession, etc. Le système permet, à l’aide de critères sur les situations
d’enregistrement ou sur les locuteurs, de créer des collections de données en vue
d’études particulières. Par ailleurs, les données sont désormais analysables et
consultables par le biais du logiciel de gestion de corpus Praaline (Christodoulides,
2014), qui permet la consultation des transcriptions et leur annotation sous plusieurs
couches à l’aide de concordances (Barreca & Christodoulides, 2014 – voir Figure 1), ainsi
que l’application d’outils d’annotation automatique (cf. section 4.2).
Corpus, 15 | 2016
125
Figure 1. Requête multi-niveaux et présentation des résultats sous forme de concordance dans lelogiciel Praaline
9 La base de données, dans son ensemble, ne présente pas un échantillonnage équilibré
de données orales, ni en termes de situations de communication ni en termes de
répartition des locuteurs (âge, localisation géographique, etc.). Il s’agit donc de créer,
de manière opportuniste, des sous-corpus équilibrés à partir des données disponibles.
Ainsi, l’âge moyen des locuteurs est de 30,3 ans, et les locuteurs ayant entre 20 et 30 ans
sont les plus représentés (voir Figure 2).
Figure 2. Répartition des locuteurs par âge dans la base VALIBEL
10 En termes de localisation géographique, parmi la grande majorité de locuteurs belges
francophones, ce sont les locuteurs du Brabant wallon qui sont les moins nombreux et
ceux du Hainaut qui sont majoritaires (voir Figure 3).
Corpus, 15 | 2016
126
Figure 3. Répartition des locuteurs par localisation géographique dans la base VALIBEL
4. Annotation multiniveau
4.1 Interface syntaxe/prosodie
11 Certains corpus ont fait l’objet d’annotations particulières. Ainsi, le corpus LOCAS
(LOuvain Corpus of Annotated Speech) a été annoté manuellement en unités
syntaxiques et en unités prosodiques afin d’étudier comment ces deux niveaux
d’organisation se combinent pour former des unités discursives (Degand & Simon,
2009). Au niveau syntaxique, par exemple, on a identifié les unités maximales de
rection (un élément recteur accompagné de tous les éléments qui en dépendent) et les
séquences fonctionnelles ; des éléments non régis (comme les marqueurs de discours
ou les associés) ont également été annotés. Du point de vue prosodique, on a
perceptivement identifié les frontières prosodiques majeures et intermédiaires, en les
assortissant d’un contour intonatif (Christodoulides & Simon, 2015). Les hésitations et
les marques d’écoute (back-channels) ont également été annotées. D’une durée de
3 heures 11 pour 36 912 tokens, ce corpus regroupe de manière équilibrée des
échantillons représentatifs de 12 situations de parole contrastées entre elles (Martin et
al., 2014).
4.2 Annotation morphosyntaxique et détection automatique desdisfluences
12 Par le biais du logiciel DisMo (Christodoulides, Avanzi & Goldman, 2014), des couches
d’annotation supplémentaires ont été appliquées à toutes les transcriptions de la base
VALIBEL : une annotation morphosyntaxique (au niveau des tokens isolés et au niveau
des unités polylexicales), une lemmatisation et une annotation des disfluences.
Corpus, 15 | 2016
127
L’annotateur automatique DisMo prend en compte les phénomènes spécifiques aux
conventions de transcription de l’oral (par exemple, l’absence de ponctuation) et est
structuré autour de six modules qui s’appliquent en cascade :
1) tokenisation : prétraitement et découpage en unités lexicales ;
2) application de ressources linguistiques : annotation des unités non-ambiguës et
établissement de la liste des étiquettes possibles pour les autres cas (à noter que
certaines disfluences et unités polylexicales sont reconnues à ce stade, ainsi que les
marqueurs de discours et les unités polylexicales potentielles) ;
3) annotation morphosyntaxique préliminaire en parties du discours ;
4) détection des disfluences et de la segmentation ;
5) annotation morphosyntaxique finale, combinée avec la détection des unités
polylexicales ;
6) post-traitement des annotations, à l’aide des règles de cohérence.
13 Le codage des disfluences détectées automatiquement par DisMo suit le schéma
d’annotation présenté de manière synthétique dans la Figure 4 (pour plus de détail,
voir Christodoulides & Avanzi, 2015).
Figure 4. Schéma d’annotation des disfluences dans DisMo (dans Christodoulides & Avanzi, 2015)
Niveau 1 : Disfluences simples : affectent un seul token
FIL Pauses remplies j’ hésite euh FIL un peu en parler
LENAllongement lié
à une hésitationau cercle d’oenologie de= LEN Bruxelles
FST Amorce lexicale comme infirmière so/ FST sociale
WDP Pause intra-mot il m’ a dit ça su+ _ WDP +ffit
Niveau 2 : Répétitions où un ou plusieurs tokens sont répétés (exactement)
REP Répétition
les disques et REP* et REP_ lancer les jingles
il REP:1 a REP:2
il REP:1 a REP*:2
il REP_ a REP_ dit que
c’ REP:1 est REP:2 pas REP*:3
c’ REP_ est REP_ pas REP_
un système génial
Niveau 3 : Disfluences structurées (d’édition)
DEL Suppressionc’ DEL est DEL vraiment DEL
un DEL* en tout cas la parole
SUB Substitution
cette personne était SUB*
enfin SUB:edt c’ SUB_ est SUB_
un ami de
•
•
•
Corpus, 15 | 2016
128
INS Insertion
c’ est vrai que
Béthune INS* euh INS+FIL
vivre INS_ à INS_ Béthune INS_
ça aurait
Niveau 4 : Disfl. complexes (combinent plusieurs disfluences structurées)
COM Complexe Leur structure est annotée à l’aide d’un tableau d’empilement
5. Disfluences et vieillissement langagier
14 La problématique du vieillissement de la population et ses retombées socio-
économiques dans les pays développés (Berr, Balard, Blain & Robine, 2012) sont au
cœur des préoccupations actuelles des chercheurs, toutes disciplines scientifiques
confondues. Dans le domaine de la linguistique, en particulier, plusieurs études sur
corpus ont été menées durant les cinq dernières années (cf. Gerstenberg, 2009, 2011 ;
Lee, 2012 ; Bolly & Boutet, soumis) et des réseaux de linguistes se mettent en place à
l’international (cf. le réseau du CLARe « Corpora for Language and Aging research »).
C’est dans ce contexte que le corpus Corpage « A Reference corpus for the elderly’s
language » a vu le jour (Bolly, Masse & Meire, 2012). Parmi les quelque 212 entretiens
récoltés qui constituent le corpus Corpage (106 sujets âgés interrogés ; 2 entretiens par
informateur ; environ 144 heures d’enregistrements), 10 entretiens ont été transcrits et
révisés selon les normes VALIBEL pour être intégrés à la base de données (8 heures
35 min. ; environ 130 000 tokens). Les entretiens semi-dirigés en face-à-face mettent en
scène un étudiant et une personne âgée de plus de 75 ans à son domicile, sur le thème
du récit de vie et du rapport à l’âge. Les sujets recrutés ne présentent pas de lésion ni
de trouble cognitif majeur. Notons que la constitution de ce corpus est le fruit d’une
collaboration interdisciplinaire en sciences humaines (en linguistique, psychologie et
psychogériatrie) et suit les normes éthiques recommandées dans le domaine
(consentement éclairé oral et écrit, recrutement sur base volontaire, anonymisation
des données personnelles, etc.).
15 Basée sur l’annotation automatique des disfluences avec DisMo, une étude exploratoire
a été effectuée pour rendre compte de la distribution des disfluences par tranche d’âge,
au sein de la base VALIBEL prise dans son intégralité (incluant les données de Corpage).
Si l’on en croit la littérature dans le domaine, nous pouvons nous attendre à observer
une plus grande fréquence de marques de disfluence avec l’avancée en âge (hésitations,
pauses longues, pauses pleines, particules de discours, répétitions de mots,
autocorrections, etc.), en même temps qu’un débit de parole ralenti et une articulation
moins précise (Searl, Gabel & Fucks, 2002 ; Lee & Barkat-Defradas, 2014 ; Rousier-
Vercruyssen, Lacheret & Fossard, 2014). Ces particularités linguistiques sont le plus
souvent considérées comme étant la conséquence de changements cognitifs normaux
liés à l’âge (Burke & Shafto, 2008), à savoir le ralentissement de la vitesse de traitement
de l’information, un accès moins aisé au lexique et des troubles des capacités
d’inhibition (Mathey & Postal, 2008). Mais elles peuvent aussi dépendre de besoins
physiologiques (par exemple, l’activité respiratoire), d’une volonté de coopération avec
l’interlocuteur ou d’un effort de planification cognitive, davantage marqués chez la
Corpus, 15 | 2016
129
personne âgée (Bortfeld, Leon, Bloom, Schober & Brennan, 2001 ; Smith, Noda, Andrews
& Jucker, 2005).
16 Au niveau méthodologique, soulignons que les résultats ne prennent ici en compte que
les disfluences annotées aux niveaux 1 et 2 du schéma présenté dans la figure 4. Parmi
les disfluences annotées par DisMo, nous avons considéré les marques suivantes : les
amorces lexicales (FST) (1), les pauses pleines (FIL) (2) et les répétitions (REP) (3).
(1) on avait / euh q/ un poêle dans la chambre (Corpage : ageDM1, 94 ans)(2) je ne sais pas mais euh il y a quelque chose qui ne va pas (Corpage : ageDM1, 94ans)(3) il n’a plus jamais su avoir de de de travail / et / je ne sais pas il avait perdu lenord enfin (Corpage : ageDM1, 94 ans)
17 Par ailleurs, la répartition en tranches d’âge par décennies a été adoptée pour faire
émerger une éventuelle évolution du nombre de disfluences dans une perspective
développementale tout au long de la vie (« lifespan ») (Aldwin, Spiro III, Park & Birren,
2006). Cette étude ne tient donc pas compte des facteurs psychosociaux ni des
mécanismes d’adaptation à l’œuvre dans le processus de vieillissement (Freund &
Baltes, 2003), mais s’appuie sur une vision purement biologique et chronologique de
l’âge (voir entre autres Hamilton, 2001, sur ces questions).
18 Il ressort des résultats une corrélation positive et significative (Spearman r = 0,164 ; d.l.
= 857, p < 0.001) entre l’âge du locuteur et la fréquence des disfluences au sein de la base
(voir Figure 5). Afin de normaliser les données, cette fréquence a été calculée sous
forme de ratio, en divisant le nombre total de tokens « non fluents » (c’est-à-dire ceux
qui se trouvent entre le début d’une disfluence et son point d’interruption) par le
nombre total de tokens produits par chaque locuteur.
Figure 5. Pourcentage des tokens non fluents en fonction de l’âge du locuteur
19 Les résultats obtenus, qui tendent à confirmer que plus on avance en âge, plus on tend
à produire des discours disfluents, doivent néanmoins être nuancés à plusieurs égards.
En effet, si des tendances émergent, il ne faut pas oublier qu’il existe des profils
idiosyncrasiques de fluence (Shriberg, 1994, 2001), un locuteur pouvant recourir à des
pauses pleines (par ex. : euh) alors qu’un autre aura tendance à paraphraser dans une
Corpus, 15 | 2016
130
situation similaire (par ex. en réaction au manque de mots). En outre, la catégorie des
répétitions annotées inclut dans cette étude les répétitions lexicales perçues comme
étant nettement disfluentes (cf. de de de dans l’exemple (3) plus haut), mais également
des répétitions qui semblent jouer un rôle à un autre niveau dans la production
langagière (Rossi, Dominicy & Kolinsky, 2014). Par exemple, la répétition oui oui en (4)
est une répétition emphatique, qui vient renforcer la valeur d’acquiescement en
réaction au propos de l’interviewer. De la même manière, la fonction de la répétition ça
ça en (5) est ambigüe, puisqu’elle peut être interprétée comme une marque d’hésitation
ou comme le résultat d’un procédé syntaxique de topicalisation avec mise en relief du
pronom détaché à gauche.
(4) ageMC0 vous vous vous mettez à l’évidence que vous avez bien |- quatre-vingt-deux ans ageBG1 oui hein oui -| oui bè oui hein / il n’y a pas d’avance (rires)(Corpage : ageBG1, 82 ans)2
(5) alors un autre c’é/ il était surveillant à D il était professeur ailleurs j’ai je ne l’aiplus jamais vu et tous les autres à part moi je mets peux mettre des croix / ça çam’a fait un |- choc j’ai <ageQL0> mm -| montré la photo à Jacqueline |- et <ageQL0>mm -| on a essayé de retrouver tous les noms des professeurs (Corpage : ageJD1, 85ans)
20 Une étude plus approfondie du rôle cognitif et pragmatique de ces répétitions – en tant
que marques potentielles de fluence ou de disfluence – serait donc nécessaire pour
déterminer leur rôle dans la planification et dans la coconstruction de l’interaction
communicative. Enfin, il ne faudrait pas négliger l’importance des facteurs
psychosociaux, tels que le genre (homme/femme) ou la situation communicative, qui
jouent un rôle prépondérant dans la production de disfluences par rapport au facteur
âge (Bortfeld et al., 2001).
21 Cette première approche exploratoire donne à voir comment, à partir de l’outillage de
corpus, des pistes de recherche peuvent émerger pour répondre à des problématiques
sociétales fortes. Quelques-unes de ces pistes sont formulées ici sous forme de
questions interrogeant l’impact possible des marques de disfluence sur le discours au
grand âge (en production et en réception) :
Quel est le rôle joué par les facteurs environnementaux et psychosociaux liés à la situation
de parole (situation de soin, annonce de diagnostic, conversation avec un proche, etc.) dans
la production de discours plus ou moins (dis)fluents chez la personne âgée ?
À partir de quand peut-on considérer qu’un discours disfluent devient problématique et
constitue un obstacle au bien-vieillir, tenant compte des mécanismes d’optimisation et
d’adaptation (Freund & Baltes, 2003) dont dispose le sujet vieillissant ?
À l’instar de Davis & Maclagan (2010), ne devrait-on pas considérer le recours à certaines
marques de disfluence (pauses pleines, interjections, particules discursives et unités
phraséologiques) comme des stratégies adoptées par les plus âgés pour rester impliqués
dans l’interaction ?
22 Visant à refléter au plus près l’usage langagier des locuteurs au sein d’une communauté
linguistique, voire entre plusieurs communautés, il paraît évident que les approches
sur corpus présentent des avantages indéniables pour pouvoir répondre, au moins en
partie, à de telles questions.
•
•
•
Corpus, 15 | 2016
131
6. Conclusion
23 Nous avons vu que la base de données VALIBEL, constamment enrichie par de nouveaux
corpus et projets de recherches, permettait de faire le lien entre l’outillage des données
langagières et leur exploitation dans une visée de recherche fondamentale ou
appliquée. C’est ainsi que l’utilisation de programmes d’annotation automatique (p.
ex. : DisMo), l’élaboration de protocoles d’annotation extrêmement bien documentés
(par exemple, le corpus LOCAS ou le projet MDMA) et la possibilité d’interroger les
données (et les métadonnées) via une interface fouillée ([moca] ou Praaline), permettent
d’apporter un éclairage nouveau sur l’usage des locuteurs, tenant compte de variables
psychosociales (âge, sexe, niveau d’éducation, etc.) et extralinguistiques (situations de
parole, origine géographique, etc.) jouant un rôle important dans la communication
langagière.
BIBLIOGRAPHIE
Aldwin C. M., Spiro III A., Park C. L. & Birren J. E. (2006). « Health, behavior, and optimal aging : A
life span developmental perspective », Handbook of the Psychology of Aging 6 : 85-104.
Barreca G. & Christodoulides G. (2014). « Un concordancier multiniveau pour des corpus oraux »,
Actes de la 21e Conférence Traitement Automatique du Langage Naturel (TALN), Marseille, France, 1er-4
juillet 2014.
Berr C., Balard F., Blain H. & Robine J.-M. (2012). « Vieillissement, l’émergence d’une nouvelle
population », Médecine-Sciences 28, 3 : 281-287.
Boersma P. & Weenink D. (2015). Praat : Doing Phonetics by Computer (ver. 5.3.63). www.praat.org.
Bolly, C. T. & Boutet D. (soumis). « The multimodal CorpAGEst corpus : Keeping an eye on
pragmatic competence in later life ».
Bolly C. T., Crible L., Degand L. & Uygur-Distexhe D. (2015). « MDMA. Un modèle pour
l’identification et l’annotation des marqueurs discursifs “potentiels” en contexte », Discours 16.
http://discours.revues.org/9009 ; DOI : 10.4000/ discours.9009.
Bolly C. T., Masse M. & Meire Ph. (2012). Corpage. A Reference Corpus for the Elderly’s Language.
Louvain-la-Neuve : Université catholique de Louvain (Valibel - Discours et variation &
Psychological Sciences Research Institute).
Bortfeld H., Leon S., Bloom J., Schober M. & Brennan S. (2001). « Disfluency rates in conversation :
Effects of age, relationship, topic, role, and gender », Language and Speech 44 : 123-149.
Burke D. M. & Shafto M. A. (2008). « Language and aging », The Handbook of Aging and Cognition 3 :
373-443.
Christodoulides G. (2014). « Praaline : Integrating tools for speech corpus research », Proceedings
of the 9th International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland,
26-31 May 2014 : 31-34.
Corpus, 15 | 2016
132
Christodoulides G., Avanzi M. & Goldman J.-Ph. (2014). « DisMo : A morphosyntactic, disfluency
and multi-word unit annotator : An evaluation on a corpus of French spontaneous and read
speech », International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland,
26-31 May 2014 : 3902-3907.
www.corpusannotation.org/dismo.
Christodoulides G. & Avanzi M. (2015). « Automatic detection and annotation of disfluencies in
spoken French corpora », Proceedings of Interspeech, 1849-1853.
Christodoulides G. & Simon A. C. (2015). « Exploring acoustic and syntactic cues to prosodic
boundaries in French. A multi-genre corpus study », Proceedings of the 18th International Congress of
Phonetic Sciences, non-paginé.
Crible L., Dumont A., Grosman I. & Notarrigo I. (2015). Annotation des marqueurs de fluence et
disfluence dans des corpus multilingues et multimodaux, natifs et non natifs. Version 1.0. Working paper.
Université catholique de Louvain et Université de Namur.
Davis B. H. & Maclagan M. (2010). « Pauses, fillers, placeholders and formulaicity in Alzheimer’s
discourse », in N. Amiridze, B. H. Davis & M. Maclagan (éd.) Fillers, pauses and placeholders
(Typological Studies in Language 93). Amsterdam, Philadelphia : John Benjamins, 189-215.
De Cock B. (2014). Profiling Discourse Participants. Forms and Functions in Spanish Conversation and
Debates (Pragmatics & Beyond New Series 246). Amsterdam : John Benjamins.
De Cock B. & Roginsky S. (2015). « Identités discursives sur Twitter : Construction de l’identité de
député européen en période pré-électorale. Comparaison entre la France, l’Espagne et le
Royaume-Uni », in F. Liénard & S. Zlitni (éd.) Communication électronique : enjeux, stratégies et
opportunités. Limoges : Lambert-Lucas, 137-148.
Degand L. & Simon A. C. (2009). « On identifying basic discourse units in speech : Theoretical and
empirical issues », Discours 4, http://discours.revues.org/5852.
Dister A. & Simon A. C. (2007). « La transcription synchronisée des corpus oraux. Un aller-retour
entre théorie, méthodologie et traitement informatisé », Arena Romanistica 1, 1 : 54-79.
Dister A., Francard M., Hambye Ph. & Simon A. C. (2009 [2007]). « Du corpus à la banque de
données. Du son, des textes et des métadonnées. L’évolution de banque de données textuelles
orales VALIBEL (1989-2009) », Cahiers de l’Institut de linguistique de Louvain (CILL) 33, 2 : 113-129.
Durand J., Laks B. & Lyche C. (éd.) (2009). Phonologie, variation et accents du français. Paris : Hermès.
Francard M. (1993). « Trop proches pour ne pas être différents. Profils de l’insécurité linguistique
dans la communauté française de Belgique », Cahiers de l’Institut de linguistique de Louvain 19 :
61-70.
Francard M., Geron G., Wilmet R. & Wirth A. (2015). Dictionnaire des belgicismes. De Boeck :
Bruxelles.
Freund A. & Baltes P. B. (2003). « Pour un développement et un vieillissement réussis : sélection,
optimisation et compensation », Revue québécoise de psychologie 24, 3 : 27-50.
Gerstenberg A. (2009). « The multifaceted category of ‘Generation’ : Elderly French men and
women talking about May 68 », International Journal of the Sociology of Language 200 : 153-170.
Gerstenberg A. (2011). Generation und Sprachprofile im höheren Lebensalter. Untersuchungen zum
Französischen auf der Basis eines Korpus biographischer Interviews (Analecta Romanica 76). Frankfurt
am Main : Klostermann.
Corpus, 15 | 2016
133
Hambye Ph. & Simon A. C. (2009). « La prononciation du français en Belgique », in J. Durand,
B. Laks & Ch. Lyche (éd.) Phonologie, variation et accents du français. Paris : Hermès, 95-130.
Hamilton H. E. (2001). « Discourse and aging », in D. Schiffrin, D. Tannen & H. E. Hamilton (éd.)
The Handbook of Discourse Analysis. Malden, Oxford : Blackwell, 568-589.
Lee H. (2012). Langage et Maladie d’Alzheimer : Analyse multidimensionnelle d’un discours pathologique.
Thèse de doctorat (non publiée). Montpellier : Université Paul Valéry - Montpellier III.
Lee H. & Barkat-Defradas M. (2014). « Complexité phonétique et disfluence dans le vieillissement
normal et dans la maladie d’Alzheimer », SHS Web of Conferences 8. EDP Sciences : 1315-1327.
Martin L., Degand L. & Simon A. C. (2014). « Forme et fonction de la périphérie gauche dans un
corpus oral multigenre annoté », Corpus 13 : 243-265.
Mathey S. & Postal V. (2008). « Le langage », in K. Dujardin & P. Lemaire (éd.) Neuropsychologie du
vieillissement normal et pathologique. Issy-les-Moulineaux : Elsevier Masson, 79-102.
Rossi D., Dominicy M. & Kolinsky R. (2014). « The inference of affective meanings : An
experimental study », Language and Cognition, 7/3 : 351-370.
Rousier-Vercruyssen L., Lacheret A. & Fossard M. (2014). « Pauses silencieuses, planification
discursive et vieillissement langagier », Nouveaux Cahiers de linguistique française 31 : 197-203.
Searl J. P., Gabel R. M. & Fulks J. S. (2002). « Speech disfluency in centenarians », Journal of
Communication Disorders 35, 5 : 383-392.
Shriberg E. (1994). Preliminaries to a Theory of Speech Disfluencies. Thèse de doctorat. University of
California at Berkeley.
Shriberg, E. (2001). « To ‘errrr’ is human : Ecology and acoustics of speech disfluencies », Journal
of the International Phonetic Association 31, 1 : 153-169.
Simon, A. C. (éd.) (2012). La variation prosodique régionale en français. Bruxelles : De Boeck/Duculot.
Simon A. C., Francard M. & Hambye Ph. (2014). « The VALIBEL Speech Database », in J. Durand,
U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology. Oxford : Oxford University
Press, 552-561.
Smith S. W., Noda H. P., Andrews S. & Jucker A. H. (2005). « Setting the stage : How speakers
prepare listeners for the introduction of referents in dialogues and monologues », Journal of
Pragmatics 37 : 1865-1895.
Van Goethem K. & Hiligsmann Ph. (2014). « When two paths converge : Debonding and clipping of
Dutch reuze ‘lit. giant ; great’ », Journal of Germanic Linguistics 26, 1 : 31-64.
NOTES
1. La banque de données compte aussi une grande quantité d’enregistrements en cours de
traitement : 379 entrées de métadonnées encodées dans le système sans transcriptions, et
520 fichiers son sans transcription correspondante.
2. Dans les conventions de transcription VALIBEL, les symboles |- et -| indiquent le début et la fin
d'un passage de parole en chevauchement.
Corpus, 15 | 2016
134
RÉSUMÉS
Après avoir fait l’état des lieux de la base de données VALIBEL en la situant dans son contexte
institutionnel, nous mettons en exergue dans cet article quelques possibilités d’investigation
qu’offre la base en regard de ses évolutions récentes. Une attention particulière est portée à
l’outillage des corpus en termes de disfluences (avec le programme DisMo) et à l’étude du
vieillissement langagier (liée au corpus Corpage). Nous concluons en montrant en quoi
l’enrichissement constant de la base (en outillage et en corpus) permet d’ouvrir de nouvelles
pistes de recherches dans des domaines encore peu explorés en linguistique, eu égard à des
problématiques sociétales majeures.
This paper aims at giving an overview of the VALIBEL database as it stands today. In addition, it
opens up new perspectives with respect to more recent advances regarding (semi-automatic)
annotation, as well as with regard to new corpora created to address societal issues (cf. the
Corpage corpus). Particular attention is paid here to the automatic detection of disfluencies in
the corpus data (using the DisMo program), with a developmental view on language and aging.
INDEX
Mots-clés : corpus, annotation, français, disfluences, vieillissement
Keywords : corpus, annotation, French, disfluencies, aging
AUTEURS
CATHERINE T. BOLLY
Universität zu Köln, Université catholique de Louvain
GEORGE CHRISTODOULIDES
Université catholique de Louvain
ANNE CATHERINE SIMON
Université catholique de Louvain
Corpus, 15 | 2016
135
PFC, codages et représentations : laquestion du schwaPFC, coding systems and representations: the issue of schwa
Isabelle Racine, Jacques Durand et Helene N. Andreassen
Nous tenons à remercier Marie-José Béguelin, Federica Diémoz et Mathieu Avanzi pour
l’organisation du colloque « Corpus de français parlés et français des corpus » à Neuchâtel, les 8
et 9 mai 2014, journées qui sont à l’origine de cette publication. Nous remercions également
l’ensemble de nos collègues impliqués dans le programme PFC ainsi que tous les locuteurs qui ont
permis de constituer la base de données. Nous sommes également reconnaissants à Léa Courdès-
Murphy pour son aide avec les données méridionales. Le travail sur les données suisses romandes
n’aurait pas été possible sans le travail de N. Bühler, A. Claivaz, C. Moulin, J.-P. Philippe et
P. Montchaud, qui ont récolté, transcrit et codé les données, et le soutien de l’Université d’Oslo
(C. Lyche), de l’Université de Genève et de l’Université de Neuchâtel (M.-J. Béguelin et M. Avanzi).
Enfin, nous tenons à remercier Julien Eychenne pour son aide avec les scripts Praat utilisés pour
l’analyse du schwa dans les données suisses romandes.
1 L’objectif de cet article est, d’une part, de présenter un état des lieux du programme
« Phonologie du français contemporain : usages, variétés et structure » (ci-après PFC,
Durand, Laks & Lyche, 2009 ; Durand, Laks & Lyche, 2014), après plus de quinze ans
d’existence et, d’autre part, d’illustrer l’intérêt d’un tel corpus à travers la question du
schwa. Dans la deuxième partie de cet article, nous aborderons donc la problématique
du schwa en français et nous montrerons comment ce phénomène est traité dans le
programme PFC. Nous illustrerons ensuite nos propos en nous penchant tout d’abord
sur le comportement du schwa dans les variétés méridionales, que nous opposerons
aux variétés septentrionales, avant d’aborder la question du schwa dans les variétés
suisses romandes.
Corpus, 15 | 2016
136
1. Le programme « Phonologie du françaiscontemporain : usages, variétés et structure »
2 Les premières réflexions qui ont conduit à la naissance du programme1 PFC ont été
menées à la fin des années 90 dans le contexte d’un retour au premier plan de la
linguistique de corpus. Comme le souligne Laks & Calderone (2014) et Detey et al. (à
paraître), de nombreuses études sur le français sont fondées sur des données héritées
de la tradition prescriptive ou sur des exemples isolés qui, repris d’article en article,
ont fini par acquérir un faux air d’authenticité2. La construction d’un important corpus
de référence permettant de rendre compte de la diversité des usages oraux du français
dans l’ensemble de la francophonie est donc au cœur de ce programme. De nombreuses
recherches, dans des domaines variés, ont été effectuées dans ce cadre depuis plus de
quinze ans. Il nous paraît important de souligner ici que, même si le programme –
comme son nom l’indique – est centré sur la phonologie, la base de données constituée
en son sein permet des applications plus larges (cf. infra). Actuellement coordonné par
Marie-Hélène Côté (Université de Laval), Jacques Durand (Université de Toulouse),
Bernard Laks (Université de Paris Ouest Nanterre) et Chantal Lyche (Université d’Oslo),
ce projet collaboratif regroupe plus de soixante chercheurs de différents pays et fait
aujourd’hui figure de corpus de référence pour le français parlé.
3 Sur la base d’un protocole commun, les données de plus de 700 locuteurs issus de
l’ensemble de la francophonie ont été collectées – dont un peu plus de 40 % ont été
transcrites et analysées. Pour chaque enquête, les enquêteurs – qui sont choisis pour
leur connaissance du terrain – sélectionnent 10 à 12 locuteurs en faisant appel à leur
réseau de connaissances. Jusqu’ici, la variation géographique a été favorisée dans le
programme et chaque point d’enquête couvre donc une aire spécifique de la
francophonie (voir le site du projet3 pour la liste détaillée des points d’enquête
existants). Si l’on peut certes regretter le nombre relativement restreint d’informateurs
par point d’enquête (en moyenne 12 par enquête), il faut savoir que cette décision a été
dictée par des aspects purement pragmatiques. Des études pilotes ayant en effet
montré que la transcription et l’annotation des données d’un seul locuteur requièrent
entre 20 et 30 heures de travail, il n’était pas réaliste, dans un premier temps, d’aller
au-delà de ce nombre. Cela n’empêche toutefois pas les équipes disposant des
ressources humaines nécessaires d’effectuer des études à plus large échelle. C’est ce qui
est actuellement réalisé dans le projet « Langue, ville, travail, identité » (ci-après LVTI),
coordonné par Hélène Giraudo, Anne Przewozny, Jean-Michel Tarrier et Jacques
Durand, dans le cadre duquel des enquêtes à grande échelle (plus de 100 locuteurs) sont
menées conjointement à Toulouse et à Manchester (pour plus de détails, voir Durand &
Przewozny, 2012). Pour chaque point d’enquête PFC, les deux sexes sont équitablement
représentés, trois tranches d’âge sont généralement couvertes (p. ex. 20+, 40+ et 70+) et
une certaine diversité socio-économique est visée, même si cet aspect est plus difficile à
assurer avec d’aussi petits groupes de locuteurs. La méthodologie de recueil de
données, dans la droite ligne des travaux classiques de Labov, inclut, pour chaque
locuteur, quatre tâches : la lecture d’une liste de mots, la lecture d’un texte, un
entretien semi-dirigé ainsi qu’un entretien libre entre deux – parfois trois – locuteurs.
4 La liste de mots comprend 94 éléments qui doivent être lus à voix haute par tous les
locuteurs. Tous les mots de la liste appartiennent à un vocabulaire courant et sont
souvent repris d’enquêtes antérieures, ce qui garantit, d’une part, une certaine
Corpus, 15 | 2016
137
comparabilité entre PFC et ces travaux antérieurs et, d’autre part, confère une
dimension historique au programme. Bien que la liste comprenne toutes les oppositions
consonantiques classiques et l’analyse d’un certain nombre de groupes consonantiques,
les contrastes vocaliques en position accentuée ont été largement favorisés. L’étude
systématique d’autres phénomènes, tels que l’harmonie vocalique, l’allongement ou le
relâchement vocalique, aurait nécessité une extension conséquente de cette liste. Ces
phénomènes ont parfois été inclus dans les listes supplémentaires qui complètent le
protocole de certains points d’enquête. C’est le cas notamment pour les enquêtes
réalisées en Suisse romande (voir Racine & Andreassen, 2012), ainsi que pour les points
d’enquête canadiens (voir Côté, 2012). La liste PFC se termine par cinq paires minimales
potentielles : patte vs pâte, épais vs épée, jeune vs jeûne, beauté vs botté et brun vs brin, pour
lesquels l’édition 2010 du Petit Robert propose la prononciation suivante : patte /pat/,
pâte /pɑt/, épais /epɛ/, épée /epe/, jeune /ʒœn/, jeûne /ʒøn/, beauté /bote/, botté /bɔte
/, brun /bʁœ/ et brin /bʁɛ/.
5 La lecture à voix haute d’un texte constitue la deuxième tâche du protocole. Ce texte,
artificiellement construit sur le modèle d’un article de journal, inclut non seulement un
grand nombre d’oppositions vocaliques et consonantiques attestées dans les différentes
variétés de français mais également un certain nombre de phénomènes typiques du
français, tels que le schwa et la liaison notamment. Toutes les oppositions phonémiques
testées dans la liste de mots sont également présentes dans le texte, avec de nombreux
mots identiques (p. ex. : patte et pâte, jeune et jeûne, etc.).
6 Les deux dernières tâches du protocole sont un entretien semi-dirigé – qui est appelé
conversation guidée – entre l’enquêteur et l’informateur, et un entretien libre – appelé
conversation libre – entre deux, voire trois informateurs qui sont des intimes.
Idéalement, ces deux conversations devraient se distinguer au niveau du degré de
formalité, la conversation libre étant en principe moins formelle que la guidée.
Toutefois, l’expérience montre que, dans la réalité, ces deux styles de parole ne se
distinguent parfois pas autant que ce qu’ils devraient. Cette caractéristique n’est pas
spécifique au programme PFC mais se retrouve systématiquement dans toutes les
tentatives d’obtenir de la parole naturelle, tout en respectant les informateurs ainsi que
leurs droits4.
7 Afin d’assurer la comparabilité des données dans un projet aussi vaste que PFC,
l’adoption d’un format commun pour le stockage, la transcription, l’annotation et
l’analyse préliminaire des données est indispensable. Les enregistrements sonores sont
donc conservés dans un format informatique standard (format wav) et sont
accompagnés de transcriptions et d’annotations alignées avec le signal par le biais du
logiciel spécialisé Praat (Boersma & Weenink, 2014), et qui sont elles aussi conservées
dans un format standardisé ou qui peut être facilement converti (textgrid Praat). La
couche zéro du programme PFC est constituée par des transcriptions orthographiques.
Celles-ci obéissent autant que possible aux conventions de l’orthographe ordinaire.
Deux cibles sont privilégiées dans le programme PFC, à savoir le schwa et la liaison.
Pour toutes les enquêtes, ces deux phénomènes sont traités de manière systématique
par le biais d’un codage alphanumérique, effectué sous Praat, et inséré dans des tires
séparées (une tire par phénomène). Divers outils génériques ou propres au projet, tels
que par exemple le concordancier Dolmen (Eychenne & Paternostro, à paraître)
permettent ensuite d’explorer les données et de les croiser avec des métadonnées telles
Corpus, 15 | 2016
138
que l’âge de la personne ou sa profession, par exemple. À ce jour, 51 798 sites ont ainsi
été codés pour la liaison, ainsi que 202 089 en ce qui concerne le schwa.
8 Beaucoup d’énergie a été consacrée à mettre au point et expliciter les différents
codages utilisés. C’est le prix à payer, si une base de données peut être consultée par
d’autres chercheurs que les membres d’un programme et si son exploration permet
d’étayer ou d’invalider des observations et des hypothèses déjà formulées par d’autres
chercheurs. Dans la deuxième partie de cet article, nous illustrons concrètement, à
travers la problématique du schwa, le travail effectué dans le programme. Nous
présentons tout d’abord le codage élaboré pour traiter ce phénomène dans le
programme PFC, avant d’examiner le comportement du schwa dans différentes variétés
de français, méridional et suisse romand, par le biais d’une approche où se côtoient
analyses phonologiques et phonétiques. Par ce biais, nous espérons démontrer
comment un renouvellement et un élargissement des données permettent de mieux
cerner certains problèmes.
2. Le schwa et son traitement dans PFC
Le schwa – également appelé parfois « e muet », « e caduc » ou encore « e féminin »,
selon les auteurs – est une voyelle qui présente la particularité d’alterner avec zéro.
Walter (1990 : 27) la considère comme « difficile à cerner » et Verluyten (1988) va même
jusqu’à la qualifier de « voyelle problème » étant donné que presque toutes ses propriétés
sont sujettes à contestation. Elle est ainsi soumise à la variation sur plusieurs plans. Elle
peut ou non être réalisée en fonction de différents facteurs, tels que, par exemple, le
nombre et le type de consonnes, la fréquence lexicale, la provenance du locuteur, son
origine sociale, l’intelligibilité ou le style de discours ou encore le rythme ou le débit
(pour une revue détaillée de ces facteurs, voir Racine & Grosjean, 2002 ; Racine, 2008).
Par ailleurs, lorsqu’elle est réalisée, son timbre varie et peut aller de [œ] à [ø] (pour des
études récentes, voir p. ex. Fougeron et al., 2007a ou Bürki et al., 2008). Sur le plan
graphique, elle correspond généralement à un <e> non suivi d’une consonne à
l’intérieur de la même syllabe (ex. semaine, avec schwa, vs bercer, avec [ɛ]). On note
toutefois quelques exceptions, telles que certaines formes du verbe faire (ex. faisait,
faisant) ou encore monsieur.
9 Comme nous l’avons mentionné précédemment, le schwa constitue, avec la liaison,
l’une des deux cibles privilégiées du programme PFC. Comme la liaison, le schwa est
traité par le biais d’un codage alphanumérique spécifique, dans une tire dédiée de Praat.
Ce codage comprend quatre champs : le premier indique si le schwa est présent ou
absent (0 = schwa absent, 1 = schwa présent et 2 = schwa incertain), le deuxième, sa
position à l’intérieur du mot (1 = monosyllabe, 2 = 1re syllabe de polysyllabe, 3 = 2 e
syllabe et suivantes de polysyllabe, 4 = dernière syllabe de polysyllabe et 5 = métathèse),
le troisième, son contexte gauche (1 = voyelle à gauche, 2 = consonne à gauche, 3 =
début de groupe intonatif, 4 = schwa incertain à gauche, 5 = groupe consonantique
simplifié et 6 = voyelle immédiatement à gauche) et le dernier, son contexte droit (1 =
voyelle à droite, 2 = consonne à droite, 3 = frontière intonative forte ou fin d’énoncé, 4 =
frontière intonative faible). Ainsi, par exemple, dans la séquence « il a regardé », on
adoptera le codage « re0212gardé » si le schwa n’est pas réalisé et « re1212gardé » s’il
est présent (pour plus de détails concernant la procédure de codage, voir Lyche, à
paraître). L’ensemble des schwas des données transcrites orthographiquement (texte et
Corpus, 15 | 2016
139
conversations) sont annotés en suivant cette procédure. Ces données peuvent ensuite
être analysées par le biais de la plateforme Dolmen (Eychenne & Paternostro, à paraître),
qui permet d’effectuer des requêtes ciblées et fournit des statistiques descriptives sur
les données codées. Cette procédure de traitement du schwa a permis d’effectuer des
analyses détaillées de ce phénomène central de la phonologie française (voir, p. ex.,
Durand & Eychenne, 2004 ; Eychenne, 2006 ; Pustka, 2007 ; Côté, 2012 ; Hansen, 2012).
10 Dans la suite de ce travail, nous présentons deux illustrations concrètes de l’apport des
données PFC à la problématique du schwa en français, la première dans les variétés
méridionales, la deuxième dans les variétés suisses romandes.
3. Le schwa dans les variétés méridionales
Le schwa constitue l’un des phénomènes qui permet de différencier les variétés
septentrionales et méridionales de français. Comme le mentionne Coquillon & Durand
(2010 : 191), même s’il s’agit d’une simplification abusive, car la situation est en réalité
bien plus complexe qu’il n’y paraît à première vue, il est généralement reconnu que les
variétés du Midi tendent à réaliser de manière quasi systématique les schwas qui sont
généralement élidés dans les variétés au nord de la Loire.
11 D’une manière générale, la position finale présente un contraste important avec la
syllabe initiale. Ainsi, comme le relèvent Coquillon & Durand (2010), lorsqu’une
consonne finale est suivie d’un <e> graphique, elle est généralement suivie d’une
réalisation vocalique dans la plupart des variétés méridionales classiques, alors qu’il n’y
a quasiment pas de réalisation de schwa épenthétique lorsque la consonne n’est pas
suivie d’un <e> graphique (86.8 % de réalisation vs 2.5 % dans l’étude de Durand &
Eychenne, 2004). Les variétés méridionales conservatrices font donc une opposition
entre le schwa et zéro à la finale, en étroite corrélation avec la présence d’un <e>
graphique (p. ex. : lac vs laque). Ce schwa, même dans les variétés les plus
conservatrices, s’efface systématiquement devant une voyelle dans un groupe
rythmique (p. ex. : la caisse est vide).
12 En position interne et dans les premières syllabes des mots, la situation est complexe.
En position interne au sein d’un mot (p. ex. : tellement), le schwa est généralement
résistant à l’effacement. Dans cette position, le schwa phonologique que l’on
reconstruit ne peut être justifié que par sa position faible et la loi de position à gauche,
car sa qualité phonétique est très variable. En syllabe initiale de mot (p. ex. : lever), il y a
identité phonétique avec une voyelle antérieure arrondie stable (p. ex. : leurrer) et donc
aucune justification pour poser un schwa (Durand, Slater & Wise, 1987 ; Durand, 2009).
Dans cette position, la grande majorité des voyelles est donc maintenue. D’un point de
vue phonologique, la position finale inaccentuée semble plus faible – et donc plus
propice à l’effacement – que la position interne, qui, à son tour, est plus faible que
l’initiale de mot (Coquillon & Durand, 2010).
13 Toutefois, les enquêtes PFC dans le Midi démontrent que ce système est en pleine
évolution. Dans ce qui suit, nous examinerons tout d’abord cinq enquêtes, dont deux
dans de petits villages du Languedoc (Douzens, 600 habitants, et Lacaune,
3 000 habitants) et trois dans des villes (Aix-en-Provence, Marseille et Biarritz) et nous
comparerons ensuite les résultats avec l’enquête LVTI, en cours à Toulouse (cf. supra)5.
Corpus, 15 | 2016
140
14 La Figure 1 présente une comparaison des taux de présence du schwa en position
interne (p. ex. : tellement) et finale (p. ex. : une telle menteuse) dans les données tirées des
deux types de conversations PFC (guidées et libres).
Figure 1. Taux de présence de schwas en position interne et finale : comparaison de donnéesconversationnelles tirées de cinq enquêtes effectuées dans le sud de la France
Régions
Taux de présence du schwa
Position interne VCeC Position finale VCe#C
Douzens 94.9 % 78.7 %
Lacaune 97 % 78.8 %
Aix-Marseille 74.5 % 19 %
Marseille 65.2 % 17.3 %
Biarritz 71.8 % 26.4 %
15 En position finale, une différence considérable peut être observée entre, d’un côté,
Douzens et Lacaune, soit les deux villages, et, de l’autre, les trois points d’enquête
urbains, avec une tendance à l’effacement plus marquée dans ces dernières. Une
tendance similaire semble émerger pour la position interne – avec Marseille, qui paraît
être aux avant-postes –, mais le changement semble encore y être dans sa phase
initiale. Ces observations confirment qu’il existe une tendance au nivellement vers
l’usage septentrional dans les villes du Sud de la France. Cette conclusion est confortée
par l’observation que ce sont les jeunes locuteurs qui constituent le fer de lance du
changement, comme on peut l’observer dans la Figure 2, établie à partir des mêmes
cinq points d’enquête.
Figure 2. Taux de présence de schwas en position interne et finale : comparaison en fonction del’âge de données conversationnelles tirées de cinq enquêtes effectuées dans le Sud de la France
Age
Taux de présence du schwa
Position interne VCeC Position finale VCe#C
< 26 ans 21.2 % 31.4 %
26-59 ans 47.8 % 21.7 %
> 59 ans 66.9 % 78.7 %
16 Les jeunes sont les plus innovateurs, sauf pour la position finale où la tranche du milieu
semble plus en avance. En réduisant les groupes d’âge à deux tranches, à savoir moins
de 40 ans et plus de 40 ans, une différence majeure apparaît : le taux de présence du
schwa pour les locuteurs de moins de 40 ans chute à 30.3 %, alors qu’il est de 67.4 %
Corpus, 15 | 2016
141
pour les locuteurs de plus de 40 ans. Cela semble par conséquent suggérer que le
changement a déjà pris place sur deux générations.
17 L’enquête LVTI en cours à Toulouse, qui s’appuie pour l’instant sur les résultats de
21 locuteurs analysés suivant le protocole PFC, confirme les résultats ci-dessus, comme
le montre la Figure 3.
Figure 3. Taux de présence de schwas en position interne et finale : comparaison en fonction del’âge de données conversationnelles de l’enquête de Toulouse
Age
Taux de présence du schwa
Position interne VCeC Position finale VCe#C
20-23 ans 17 % 10 %
27-35 ans 21 % 15 %
53-67 ans 86 % 44 %
79-95 ans 95 % 56 %
18 Une baisse significative du taux de réalisation du schwa peut être observée chez les plus
jeunes locuteurs. Globalement, la position finale semble plus touchée par
l’affaiblissement du schwa que la position interne, qui offre une image plus contrastée.
Il faut relever également que, parmi les 21 locuteurs analysés, deux jeunes – l’un de 23,
et l’autre de 29 ans – réalisent un schwa après une consonne orthographique finale en
position pré-consonantique ou pré-pausale. On observe ainsi, chez ces deux locuteurs,
un basculement vers un système correspondant à celui en vigueur dans les variétés
septentrionales pour la position finale de mot, système dans lequel l’opposition entre
lac et laque semble donc menacée.
19 En position interne, les analyses acoustiques réalisées sur les séquences des jeunets vs
des genêts dans la lecture de la liste de mots PFC démontrent la quasi-identité
acoustique de la première voyelle de jeunets et de celle de genêts avec les valeurs
formantiques suivantes : pour jeunets, F1 = 300 Hz, F2 = 1 700 Hz et F3 = 2 200 Hz et pour
genêts, F1 = 340 Hz, F2 = 1 800 Zh et F3 = 2 200 Hz. Si l’on compare ces valeurs aux
moyennes formantiques de Calliope (1989), on observe que ces voyelles sont à rattacher
à un [ø] prototypique, par opposition à [œ] ou [ə]. Sur la base des données d’Aix-
Marseille, Coquillon & Turcsan (2012) obtiennent, pour cette position, un taux de
présence global de 91 % et montrent que seuls quelques mots fréquents peuvent être
réalisés sans schwa, tels que, par exemple, petit, serai, semaine. Durand, Slater & Wise
(1987) considèrent que, cette voyelle n’étant que très rarement soumise à alternance, il
n’y a donc pas lieu de la considérer comme un schwa phonologique, et c’est ce que les
données méridionales semblent refléter. Les données de Toulouse confirment
également cette tendance puisque les 47 items où la voyelle n’est pas réalisée dans cette
position sont tous des mots très fréquents. Cela rejoint les observations d’Eychenne
(2006), dans son étude effectuée au Pays basque, qui montre lui aussi l’importance de la
fréquence lexicale, qui nous oriente vers des cadres privilégiant les usages, tels que
celui de Bybee (2001).
Corpus, 15 | 2016
142
20 En résumé, les variétés méridionales offrent un continuum qui part de lois
« néogrammairiennes » du type /ə/ → Ø / — (#) V, et passe par des effacements à la
finale de mot qui ne sont pas liés à l’identité lexicale du mot (contexte VCe#C ou
VCe##), pour arriver à des alternances affectant les syllabes initiales de quelques mots
fréquents (semaine vs s(e)maine). Une bonne interprétation des changements en cours
exige une meilleure compréhension des contextes phonologiques et de la nature faible
de certaines positions au sein des mots. Le changement en cours ne semble néanmoins
pas uniquement explicable en termes phonologiques classiques. En dehors de la
relation de subordination sociolinguistique des variétés méridionales au français
septentrional, qui est centrale, certains de ces changements impliquent la fréquence et
relèvent plus du contact entre variétés avec emprunts de formes in toto que de
réorganisations de paramètres phonologiques.
4. Le schwa dans les variétés suisses romandes
21 Certains éléments évoqués dans l’analyse des variétés du Midi semblent pouvoir
trouver un éclaircissement dans les données des points d’enquête PFC suisses romands
(où trois points d’enquête sont achevés – Nyon, Neuchâtel et Genève –, et un est en
cours de vérification – Martigny), notamment en ce qui concerne la syllabe initiale de
mot. Si, d’une manière générale, au niveau de l’inventaire phonologique, les variétés de
Suisse romande ne diffèrent que très peu des variétés hexagonales septentrionales
(Andreassen, Maître & Racine, 2010 ; Racine & Andreassen, 2012 ; Racine, Andreassen &
Benetti, à paraître), elles sont souvent citées comme comportant un taux plus élevé
d’effacement du schwa en syllabe initiale de polysyllabes (Walter, 1982). En effet, des
occurrences telles que une ch’nille, quat(r)’ s’mestres ou encore une f’melle, si elles sont
tout à fait normales et fréquentes en Suisse romande, posent cependant problème à
toute théorie phonologique qui, directement ou indirectement, réfère les effacements à
la bonne formation des groupes consonantiques attestés à l’initiale de mots. En suivant
cette hypothèse, les données romandes semblent par conséquent fournir un cadre
propice à l’approfondissement de la question de la chute du schwa en position initiale
de mot et plus spécifiquement celle du rôle de la fréquence lexicale sur le maintien ou
l’effacement du schwa dont le pouvoir explicatif – au cœur de l’approche de Bybee
(2001) centrée sur les usages – a déjà été évoqué par différents auteurs (Racine &
Grosjean, 2002 ; Eychenne, 2006 ; Pustka, 2007 ; Racine, 2008).
22 Avant de nous concentrer uniquement sur la position initiale, nous commençons notre
examen du schwa suisse romand d’abord par la question de sa qualité vocalique en
syllabe initiale (p. ex. chemise) et médiane (p. ex. dégeler). Les codages schwa effectués
dans le cadre de PFC ne fournissant aucune indication sur la nature phonétique de la
voyelle concernée, des études acoustiques plus poussées s’avèrent par conséquent
indispensables. Depuis Dell (1973), de nombreux travaux générativistes ont défendu,
pour le schwa, une identité avec la voyelle [œ]. Toutefois, comme nous l’avons vu
précédemment, cela ne semble pas être le cas pour les locuteurs méridionaux, et la
situation est encore différente en Suisse romande.
23 Bürki et al. (2008) ont comparé les réalisations du schwa dans la liste de mots et le texte
lu de trois points d’enquête PFC – Brunoy (Ile-de-France), Québec (ville) et Nyon (Suisse
romande). Les schwas de syllabe initiale (p. ex. chemise, petit) et médiane (p. ex.
indiqueraient, dégeler) de 9 mots présentant une alternance dans les données (présence/
Corpus, 15 | 2016
143
absence du schwa) – soit 294 occurrences au total, dont 150 produites avec schwa – ont
été comparés aux réalisations des voyelles /i, u, a, œ, ø/. Les résultats montrent d’une
part qu’à Nyon la qualité phonétique de la voyelle de ces mots diffère de celle de mots
tels que neuf ou deux. Le schwa présente en effet une aperture intermédiaire par
rapport aux deux autres voyelles, tout en étant moins antérieur que celles-ci. Au niveau
de l’arrondissement, il est plus proche de [œ] que de [ø]. Les données montrent d’autre
part qu’il se distingue du schwa de Brunoy, celui-ci étant plus fermé, tout comme
semble l’être l’ensemble du système vocalique de cette variété d’Ile-de-France, par
rapport aux deux autres régions. Ainsi, le schwa des locuteurs nyonnais se différencie à
la fois de celui des deux autres variétés et des deux autres voyelles moyennes
antérieures [œ] et [ø]. Si l’on suit l’hypothèse de Walter (1976), cette étude montre par
conséquent que les locuteurs nyonnais possèdent un vrai schwa phonétique, différent
des deux autres voyelles moyennes antérieures. Cette position semble très dynamique
dans les variétés romandes puisque l’on peut fréquemment y observer des formes qui
certes apparaissent dans les variétés septentrionales mais de manière beaucoup moins
systématique. Racine et Grosjean (2002), Racine (2007) et Racine (2008) montrent que,
comme nous l’avons relevé pour expliquer les données méridionales, en Suisse
romande, la fréquence lexicale des mots est une variable importante (p. ex. schwa
davantage maintenu dans demeure que dans demande), de même que la fréquence
estimée de production des deux variantes, avec et sans schwa, et que ces deux facteurs
semblent constituer de meilleurs prédicteurs des productions de nos locuteurs que le
contexte segmental environnant. Au niveau de la fréquence estimée des variantes,
Racine (2008) observe un décalage dans les jugements français (région de Nantes) et
suisses (région de Neuchâtel) fournis pour 378 substantifs avec un schwa en syllabe
initiale (p. ex. la semaine). Les Suisses romands acceptent en effet mieux l’effacement du
schwa dans ce type de mots que les Français, avec des différences parfois très saillantes
pour certains mots : ainsi, si dans le mot femelle, l’alternance (femelle/f’melle) est tout à
fait autorisée à Neuchâtel – et de manière générale en Suisse romande –, cela ne semble
pas du tout être le cas à Nantes.
24 Nous terminons cet examen du schwa suisse en abordant la question de sa durée en
position initiale. Dans une étude basée sur les productions de 16 locuteurs suisses
romands, Racine & Grosjean (2002) ont obtenu des résultats intéressants. Ils ont tout
d’abord montré qu’il s’agit d’une voyelle relativement brève, avec une durée relative
qui s’échelonne entre 6.11 % et 24.92 % de la durée totale du mot. Leurs résultats
révèlent également l’existence d’une corrélation entre la présence du schwa et sa
durée : pour un mot donné, plus le taux de présence est élevé, plus le schwa, lorsqu’il
est produit, est long. Ainsi pour le mot menu, qui obtient un taux de présence de
81.25 %, la durée moyenne du schwa – lorsqu’il est présent – représente 20.29 % de la
durée totale du mot. Pour le mot repassage, en revanche, le taux de présence n’est que
de 26.67 % et la durée du schwa ne représente que 7.42 % de la durée totale du mot. Ces
observations rejoignent celles d’autres travaux sur le français hexagonal qui ont
montré que le schwa est sujet à une réduction spectrale et temporelle (voir Bürki et al.,
2007 et, pour des données similaires pour l’anglais, voir Patterson et al., 2003), tout
comme d’autres voyelles du français (voir p. ex. Su, 2003 et Adda-Decker et al., 2005).
25 Dans la continuité de ces travaux, nous avons mené une étude comparative sur les
données PFC des deux conversations de trois points d’enquête suisses, Martigny,
Neuchâtel et Nyon. Douze locuteurs d’âge moyen (entre 42 et 59 ans) ont été
sélectionnés, quatre dans chaque enquête (2 femmes et 2 hommes). Dans les parties
Corpus, 15 | 2016
144
transcrites des deux conversations PFC (10 minutes par conversation), tous les mots
contenant un schwa en syllabe initiale, réalisé ou non, ont été délimités
(579 occurrences au total représentant 154 mots différents). Sur une base auditive et
visuelle, la présence du schwa a été déterminée par deux phonéticiennes
expérimentées. En outre, lorsque le schwa était présent, sa durée a été délimitée
également sur une base acoustique et visuelle. À l’aide d’un script Praat, la durée du
schwa a été calculée en fonction de la durée totale du mot (= durée relative). Des analyses
statistiques ont ensuite été conduites afin de déterminer si la région (Martigny,
Neuchâtel, Nyon) a un effet sur le taux de présence du schwa ainsi que sur sa durée
relative.
26 Tout d’abord, le taux de présence global du schwa dans l’ensemble du corpus s’élève à
29.02 %. Hansen (1994), dans son étude réalisée à Paris, obtient quant à elle, en
conversation, un taux de présence du schwa de 37 %. Ce résultat semble donc confirmer
qu’en syllabe initiale de mot, le schwa a davantage tendance à chuter en Suisse
romande que dans les variétés hexagonales septentrionales, ce qui est cohérent avec les
observations de Walter (1982) et de Racine (2008). Ensuite, les résultats montrent que la
durée relative moyenne du schwa dans l’ensemble du corpus est de 19.39 %, avec des
valeurs s’échelonnant entre 5.02 % et 37.17 %. (vs 6.11 % – 24.92 % dans l’étude de
Racine & Grosjean, 2002). En comparaison, sur la base de données radiophoniques
françaises, Bürki et al. (2011), obtiennent une durée relative moyenne du schwa de 15 %.
Ces résultats confirment donc que le schwa est une voyelle relativement brève
comparée à d’autres voyelles du français (Fougeron et al., 2007b, Gendrot & Adda-
Decker, 2012).
27 Lorsque l’on examine les données en fonction de la région, les résultats montrent un
effet global de cette variable sur le taux de présence du schwa (p <0.001), avec un taux
plus élevé pour Martigny et Nyon (avec respectivement 30.91 % et 38.76 %, n.s.)
comparé à Neuchâtel (18.39 %, p <0.001 pour chaque comparaison : Martigny-Neuchâtel
et Nyon-Neuchâtel).
28 Les données montrent également un effet global de la région sur la durée relative du
schwa (p <0.01), avec des schwas plus courts pour les locuteurs de Martigny et de Nyon
(avec respectivement 17.96 % et 19.37 %, n.s.) comparés à ceux des locuteurs
neuchâtelois (22.55 %, p <0.05 pour la différence Martigny-Neuchâtel et p <0.01 pour
celle entre Nyon et Neuchâtel)6.
29 Ces résultats révèlent donc des différences régionales importantes. Les données
neuchâteloises présentent un taux de présence significativement moins élevé que celui
des deux autres régions, tout en se différenciant de ces dernières également par la
durée du schwa, plus long dans cette variété. Les locuteurs de Nyon et de Martigny
semblent donc maintenir davantage le schwa que les Neuchâtelois, mais avec des
schwas plus variables, qui peuvent parfois être très courts. Cela semble indiquer que, si
les Neuchâtelois préfèrent un système dichotomique (présence vs absence), les
locuteurs de Martigny et de Nyon ont plutôt recours à un système continu, dans lequel
le schwa est réduit de manière graduelle. Ces résultats questionnent l’analyse
phonologique traditionnelle du schwa français et sont susceptibles d’offrir une
opportunité de l’affiner. Dans la plupart des approches traditionnelles, l’alternance
voyelle/zéro est vue comme un processus catégoriel et dichotomique, à savoir que soit
la cible articulatoire de la voyelle est présente (p. ex. semaine), soit elle est absente (p.
ex. s’maine). De plus, l’alternance voyelle/zéro est traditionnellement considérée
Corpus, 15 | 2016
145
comme un processus phonologique et non phonétique, même si des travaux récents ont
montré l’existence d’une certaine variabilité acoustique pour le schwa, qui peut être
fortement réduit (Bürki et al., 2011). Dans ce sens, les données romandes sont
intéressantes puisque, d’une part, les Neuchâtelois semblent refléter la dichotomie de
l’analyse phonologique traditionnelle, avec alternance schwa/zéro, alors que les
données des locuteurs de Nyon et de Martigny se conforment davantage à une analyse
plus phonétique, avec un processus de réduction graduelle. En outre, au niveau
psycholinguistique, ces résultats apportent des données intéressantes dans le débat qui
oppose les tenants de l’approche abstractionniste à ceux de l’approche exemplariste, en
favorisant plutôt la deuxième approche ou une approche intermédiaire, très en vogue
actuellement, celle des modèles hybrides (Nguyen, Wauquier & Tuller, 2009).
5. Conclusion
30 Après plus de quinze ans d’existence, le programme PFC offre une base de données
conséquente (plus d’un million de mots). Si, comme nous l’avons mentionné
précédemment, le protocole tel qu’il a été appliqué jusqu’ici a ses limites, notamment
en ce qui concerne le nombre restreint de locuteurs par point d’enquête, et que des
études à plus large échelle sont donc nécessaires afin de compléter le panorama – ce
qui est justement l’objectif du projet LVTI –, il nous paraît toutefois important de
souligner que l’exploitation des données recueillies dans ce cadre ne se limite pas aux
aspects phonétiques et phonologiques. En effet, les conversations peuvent également
être exploitées d’un point de vue lexical, syntaxique ou discursif, comme le montrent
par exemple les travaux de Boutin & Kouamé (2010), Rossi-Gensane (2010), Skattum
(2011), Buscail (2013) ainsi que pour la diffusion des savoirs (voir p. ex. Gess et al., 2012
et Detey et al., 2010).
31 En outre, l’un des objectifs de base du programme était aussi de fournir du matériel
exploitable pour l’enseignement et l’apprentissage du français. Cette perspective
didactique est développée dans deux volets récents du programme : dans le cadre du
projet « PFC-Enseignement du français » (PFC-EF ; Detey et al., 2009 ; Detey & Lyche, à
paraître) et, d’autre part, dans le projet « Interphonologie du français contemporain »
(IPFC ; Detey et al., à paraître ; Racine & Detey, ce volume). PFC-EF propose une
exploitation des données du corpus à des fins didactiques et se situe donc dans la
continuité des travaux lancés il y a plus d’un demi-siècle par la parution du Français
fondamental (Gougenheim et al., 1956). Le projet IPFC, qui constitue quant à lui le volet
non natif de PFC, est davantage orienté vers la recherche puisqu’il vise à constituer une
base de données de français produit par des apprenants non natifs de différentes L1
afin d’étudier l’acquisition phonologique du français L2 (pour une présentation
détaillée de ce volet, voir Racine & Detey, ce volume).
32 Pour conclure, concernant plus précisément le schwa, les analyses présentées ci-dessus
illustrent que la méthodologie PFC offre une approche qui permet de renouveler les
données dans la diversité des usages, de les explorer sous divers angles et de modéliser
les systèmes dans leur dynamique interne. En refusant de placer notre travail au sein
de cases étanches (phonétique, phonologie, sociolinguistique, dialectologie,
psycholinguistique), nous pensons contribuer à la construction d’une véritable
linguistique de l’oral. C’est pour cela que nous défendons un programme qui, partant
Corpus, 15 | 2016
146
d’enquêtes de terrain, mène à des analyses qui puisent dans plusieurs traditions pour
offrir une vision plus globale de la phonologie du français.
BIBLIOGRAPHIE
Adda-Decker M., Boula de Mareüil P., Adda G. & Lamel L. (2005). « Investigating syllabic
structures and their variation in spontaneous French », Speech Communication 46 : 119-139.
Andreassen H. N., Maître R. & Racine I. (2010). « La Suisse », in S. Detey, J. Durand, B. Laks &
C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement.
Paris : Ophrys, 211-233.
Andreassen H. N. & Racine I. (à paraître). « Variation in Switzerland : the behaviour of schwa in
Martigny, Neuchâtel and Nyon », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken
French. Oxford : Oxford University Press.
Baude O. (2006). Corpus oraux. Guide des bonnes pratiques. Centre de ressources pour la description
de l’oral (CRDO). Paris : CNRS Éditions.
Boersma P. & Weenink D. (2014). Praat : doing phonetics by computer. http://www.praat.org.
Boutin B. A. & Kouamé K. (2010), « Analyse énonciative comparée des systèmes hypothétiques en
si en français de Côte d’Ivoire et en sε en baoulé dans un discours fictionnel », Autour du verbe, Le
français en Afrique 26 : 71-84.
Bürki A., Fougeron C., Gendrot C. & Frauenfelder U. (2007). « De l’ambiguïté de la chute du schwa
en français », Schwa(s), Actes des 5es Journées d’études linguistiques 2007, Université de Nantes,
27-28 juin 2007, 83-88.
Bürki A., Fougeron C., Gendrot C. & Frauenfelder U. (2011). « Phonetic reduction versus
phonological deletion of French schwa : some methodological issues », Journal of Phonetics 39 :
279-288.
Bürki A., Racine I., Andreassen H. N., Fougeron C. & Frauenfelder U. (2008). « Timbre du schwa en
français et variation régionale : une étude comparative », Actes des 27es Journées d’études sur la
parole, juin 2008, Avignon.
Buscail L. (2013). Étude comparative des pronoms démonstratifs neutres anglais et français à l’oral :
référence indexicale, structure du discours et formalisation en Grammaire notionnelle dépendancielle.
Thèse de doctorat, Université de Toulouse-Le-Mirail.
Bybee J. L. (2001). Phonology and Language Use. Cambridge : Cambridge University Press.
Calliope (1989). La parole et son traitement automatique. Paris : Masson.
Coquillon A.-L. & Durand J. (2010). « Le français méridional : éléments de synthèse », in S. Detey,
J. Durand, B. Laks & C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources
pour l’enseignement. Paris : Ophrys, 185-197.
Coquillon A.-L. & Turcsan G. (2012). « An overview of the phonological and phonetic properties of
Southern French. Data from two Marseille surveys », in R. Gess, C. Lyche & T. Meisenburg (éd.)
Corpus, 15 | 2016
147
Phonological Variation in French : Illustrations from Three continents. Amsterdam/ Philadelphia : John
Benjamins, 105-127.
Côté M.-H. (2012). « Laurentian French (Québec) : extra vowels, missing schwas and surprising
liaison consonants », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French :
Illustrations from Three continents. Amsterdam/Philadelphia : John Benjamins, 235-274.
Courdès-Murphy L. (2013). Contribution à l’étude de la phonologie du français contemporain : le français
parlé à Toulouse. Mémoire de M1, Université de Toulouse-Le-Mirail.
Dell F. (1973). Les règles et des sons. Introduction à la phonologie générative. Paris : Hermann.
Detey S., Durand J., Laks B. & Lyche C. (2010). Les variétés du français parlé dans l’espace francophone :
ressources pour l’enseignement. Paris : Ophrys.
Detey S., Durand J., Laks B. & Lyche C. (à paraître). « The PFC Programme and its methodological
framework », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford :
Oxford University Press.
Detey S. & Lyche C. (à paraître). « A framework for the pedagogical use of a corpus of spoken
French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford
University Press.
Detey S., Lyche C., Tchobanov A., Durand J. & Laks B. (2009). « Ressources phonologiques au
service de la didactique de l’oral : le projet PFC-EF », Mélanges CRAPEL 31 : 223-236.
Detey S., Racine I., Kawaguchi Y. & Zay F. (à paraître). « Variation among non native speakers :
Japanese and Spanish learners of French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties
of Spoken French. Oxford : Oxford University Press.
Durand J. (2009). « On the scope of linguistics : data, intuitions, corpora », in Y. Kawaguchi,
M. Minegishi & J. Durand (éd.) Corpus Analysis and Variation in Linguistics. Amsterdam/
Philadelphia : John Benjamins, 25-52.
Durand J. (2014). « À la recherche du schwa : données, méthodes et théories », Actes du CMLF 2014,
4e Congrès mondial de linguistique française, EDP Sciences, 23-43.
Durand J. & Eychenne J. (2004). « Le schwa en français. Pourquoi des corpus ? », Corpus 3 : 311-356.
Durand J., Eychenne J. & Lyche C. (2013). « On levelling and counter-levelling in French : a
phonological perspective », in M. C. Jones & Hornsby (éd.) Language and Social Structure in Urban
France. Leeds : Maney, 58-68.
Durand J., Laks B. & Lyche C. (2009). Phonologie, variation et accents du français. Paris : Hermès.
Durand J., Laks B. & Lyche C. (2014). « French phonology from a corpus perspective : the PFC
programme », in J. Durand, U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology.
Oxford : Oxford University Press, 486-497.
Durand J. & Przewozny A. (2012). « La phonologie de l’anglais contemporain : usages, variétés et
structure », Revue française de linguistique appliquée 17 (1) : 25-36.
Durand J., Slater C. & Wise H. (1987). « Observations on schwa in Southern French », Linguistics
25(2) : 983-1004.
Eychenne J. (2006). Aspects de la phonologie du schwa en français contemporain. Optimalité, visibilité
prosodique, gradience. Thèse de doctorat, Université de Toulouse-Le Mirail.
Corpus, 15 | 2016
148
Eychenne J., Lyche C., Durand J. & Coquillon A.-L. (2014). « Quelles données pour la liaison en
français : la question des corpus », in C. Soum-Favaro, A.-L. Coquillon & J.-P. Chevrot (éd.) La
liaison : approches contemporaines. Berne : Peter Lang, 33-60.
Eychenne J. & Paternostro R. (à paraître). « Analyzing transcribed speech with Dolmen », in
S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University
Press.
Féry C. (2003). Liaison and syllable structure in French. Manuscrit.
Fougeron C., Gendrot C. & Bürki A. (2007a). « On the phonetic identity of French schwa compared
to /ø/ and /œ/ », Schwa(s), Actes des 5es Journées d’études linguistiques 2007, Université de
Nantes, 27-28 juin 2007 : 191-197.
Fougeron C., Gendrot C. & Bürki A. (2007b). « On the acoustic characteristics of French schwa »,
Proceedings of the 16th International Congress of Phonetic Sciences, Saarbrücken, Germany : 941-944.
Gendrot C. & Adda-Decker M. (2012). « Influence du contexte consonantique et de la durée des
voyelles sur la centralisation des voyelles orales en français », in M. Embarki & C. Dodane (éd.) La
coarticulation : des indices à la représentation. Paris : l’Harmattan, 159-171.
Gess R., Lyche C & Meisenburg T. (2012). Phonological Variation in French : Illustrations from Three
Continents. Amsterdam/Philadelphia : John Benjamins.
Gougenheim G., Michéa R., Rivenc P. & Sauvageot A. (1956). L’élaboration du français élémentaire :
étude sur l’établissement d’un vocabulaire et d’une grammaire de base. Paris : Didier.
Hansen A. B. (1994). « Étude du E caduc — stabilisation en cours et variations lexicales », Journal of
French Language Studies 4 : 25-54.
Hansen A. B. (2012). « A study of young Parisian speech : Some trends in pronunciation », in
R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French : Illustrations from Three
Continents. Amsterdam/ Philadelphia : John Benjamins, 151-172.
Laks B. & Calderone B. (2014). « La liaison en français contemporain : approches lexicales et
exemplaristes », in C. Soum-Favaro, A.-L. Coquillon & J.-P. Chevrot (éd.) La Liaison : approches
contemporaines. Berne : Peter Lang, 61-89.
Lyche C. (à paraître). « Approaching variation in PFC : the schwa level », in S. Detey, J. Durand,
B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.
Nguyen N., Wauquier S. & Tuller B. (2009). « The dynamical approach to speech perception : from
fine phonetic detail to abstract phonological categories », in F. Pellegrino, E. Marsico, I. Chitoran
& C. Coupé (éd.) Approaches to Phonological Complexity. Berlin : Mouton de Gruyter, 193-217.
Patterson D., LoCasto P. C. & Connine C. M. (2003). « Corpora analyses of frequency deletion in
conversational American English », Phonetica 60 : 45-68.
Pustka E. (2007). Phonologie et variétés en contact. Aveyronnais et Guadeloupéens à Paris. Tübingen :
Narr.
Racine I. (2007). « Effacement du schwa dans des mots lexicaux : constitution d’une base de
données et analyse comparative », Schwa(s). Actes des 5es Journées d’études linguistiques 2007,
Université de Nantes, 27-28 juin 2007 : 125-130.
Racine I. (2008). Les effets de l’effacement du schwa sur la production et la perception de la parole en
français. Thèse de doctorat, Université de Genève.
Corpus, 15 | 2016
149
Racine I. & Andreassen H. N. (2012). « A phonological study of a Swiss French variety : data from
the Canton of Neuchâtel », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in
French : Illustrations from Three Continents. Amsterdam : John Benjamins, 173-207.
Racine I., Andreassen H. N. & Benetti L. (à paraître). « Swiss French », in S. Detey, J. Durand,
B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.
Racine I. & Grosjean F. (2002). « La production du E caduc facultatif est-elle prévisible ? Un début
de réponse », Journal of French Language Studies 12 (3) : 307-326.
Rossi-Gensane N. (2010). « Oralité, syntaxe et discours », in S. Detey, J. Durand, B. Laks & C. Lyche
(éd.) Les Variétés du français parlé dans l’espace francophone : Ressources pour l’enseignement. Paris :
Ophrys, 83-106.
Skattum I. (2011). « Si j’étais riche… constructions hypothétiques », Le français en Afrique 26 :
49-70.
Su T.-T. (2003). Étude sur la disparition des phonèmes dans la parole spontanée du français et du
mandarin de Taïwan. Thèse de doctorat, Université Sorbonne Nouvelle-Paris 3.
Verluyten S. P. (1988). La Phonologie du schwa français. Amsterdam and Philadelphia : John
Benjamins.
Walter H. (1976). La Dynamique des phonèmes dans le lexique français contemporain. Paris : France-
Expansion.
Walter H. (1982). Enquête phonologique et variétés régionales du français. Paris : PUF.
Walter H. (1990). « Une voyelle qui ne veut pas mourir », in J. N. Green & W. Ayres-Bennett (éd.)
Variation and Change in French. New York : Routledge, 27-36.
NOTES
1. Même si nous utilisons en alternance les termes « projet » et « programme », ce dernier nous
semble plus représentatif de la diversité des recherches effectuées dans le cadre de PFC.
2. C’est le cas notamment pour la liaison où, comme le relèvent Eychenne et al. (2014 : 34),
certains exemples, tels que le savant [t] anglais ou le sot [t] aigle, que l’on trouve notamment chez
Féry (2003), ont perduré.
3. www.projet-pfc.net
4. À ce titre, mentionnons ici qu’un formulaire de consentement spécifiant la nature des
enregistrements ainsi que leurs usages possibles doit être signé par chaque informateur,
préalablement à tout enregistrement. Dans ce sens, le protocole est conforme aux principes
éthiques définis pour la France par Baude (2006).
5. Une partie des données et des réflexions qui s’ensuivent ont bénéficié des commentaires des
participants à CMLF 2014, à Berlin, ainsi que ceux des relecteurs de Durand et al. (2013) et de
Durand (2014). Qu’ils en soient ici remerciés. Nous remercions également Léa Courdès-Murphy
pour le partage des données de Toulouse, collectées dans le cadre du projet LVTI (voir Courdès-
Murphy, 2013).
6. Pour une présentation plus détaillée de ces données ainsi qu’une discussion approfondie des
résultats, voir Andreassen & Racine (à paraître).
Corpus, 15 | 2016
150
RÉSUMÉS
L’objectif de cet article est de faire le point sur le programme de recherche PFC (« Phonologie du
français contemporain : usages, variétés et structure »), plus de quinze ans après son lancement et
d’illustrer le travail mené dans ce cadre par la question du schwa, phénomène bien connu dans le
domaine de la variation phonologique et central à la phonologie du français. Après avoir
brièvement présenté le programme, nous abordons la question du schwa en français et
expliquons son traitement dans PFC. Nous illustrons ensuite le travail effectué en nous penchant
tout d’abord sur les variétés méridionales, que nous opposons aux variétés septentrionales, avant
d’aborder la question du schwa dans les variétés suisses romandes.
In this paper, we present the research programme “Phonology of Contemporary French : usage,
varieties and structure” (PFC). After more than 15 years of existence, the PFC corpus has become a
reference in the field of oral French. The methodology adopted in the programme is then
illustrated through the phenomenon of schwa, which is central to the phonology of French and
one of the foci of the PFC venture. First, we examine the behaviour of schwa in the Southern
varieties of French (vs. Northern varieties) and then we present an experimental study on schwa
in three varieties of Swiss French.
INDEX
Mots-clés : schwa, corpus, français parlé, phonétique, phonologie, PFC, variation diatopique,
variétés suisses romandes, variétés méridionales
Keywords : schwa, corpus, oral French, phonetics, phonology, PFC, diatopic variation, Swiss
French, Southern French
AUTEURS
ISABELLE RACINE
ELCF, Université de Genève
JACQUES DURAND
Université de Toulouse 2, UMR5263 et IUF
HELENE N. ANDREASSEN
UiT, Université arctique de Norvège
Corpus, 15 | 2016
151
La liaison dans un corpusd’apprenants : Le projet« Interphonologie du FrançaisContemporain » (IPFC)Liaison in the Interphonology of Contemporary French (IPFC) learner corpus
Isabelle Racine et Sylvain Detey
Nous tenons à remercier Marie-José Béguelin, Fédérica Diémoz et Mathieu Avanzi pour
l’organisation du colloque « Corpus de français parlé et français parlés des corpus », à Neuchâtel,
les 8 et 9 mai 2014, journées qui sont à la base de cette publication. Nous remercions également
Yuji Kawaguchi qui codirige le projet IPFC avec nous, ainsi que Julien Eychenne pour le
développement de Dolmen-IPFC. Le travail présenté ici n’aurait pas été possible sans le précieux
concours de Marion Didelot, Tanjema Majeed, Cécile Mollet, Marie-Laure Sandoz et Roberto
Paternostro, qui ont transcrit, codé et vérifié les données. Enfin, nous tenons à remercier
également tous nos collègues impliqués dans IPFC pour leur dynamisme qui contribue à faire
vivre ce projet, ainsi que tous les apprenants qui ont donné de leur temps pour la constitution de
ce corpus.
1 Si l’apport de la linguistique de corpus à l’étude du français parlé par des locuteurs
natifs n’est plus à démontrer, comme en témoignent les différents chapitres qui
constituent ce volume, il en va autrement lorsqu’il s’agit de la parole de locuteurs non
natifs. Dans le domaine de l’acquisition du français langue étrangère ou seconde (ci-
après L2)1, les études basées sur de grands corpus ne sont en effet pas légion2, et c’est
encore moins le cas lorsque l’on se concentre sur les aspects phonétiques et
phonologiques.
2 Les principaux modèles théoriques d’acquisition phonologique d’une L2 sont en effet le
plus souvent fondés sur des données issues de parole « de laboratoire » qui sont trop
restreintes tant au niveau du style de parole que du nombre de locuteurs et de
structures étudiés (Zampini, 2008). Comme le mentionne Gut (2009, 2014), l’approche
par corpus permet en partie de dépasser ces limitations et d’élargir le regard porté sur
Corpus, 15 | 2016
152
l’acquisition phonologique d’une L2, en intégrant notamment la dimension de
comparabilité inter-tâches et inter-apprenants d’une même L2 ou de L2 différentes.
3 Afin de combler ce retard en la matière, de nombreux projets de corpus L2 ont vu le
jour ces dix dernières années et ce pour différentes langues : en néerlandais L2 (Neri et
al., 2006), en polonais L2 (Cylwik et al., 2009), en allemand L2 et en anglais L2 dans un
contexte européen (Gut, 2009) ou asiatique (Visceglia et al., 2009), et ce, non seulement
sur le plan segmental mais aussi suprasegmental (Trouvain & Gut, 2007 ; Meng et al.,
2009). Ce champ est toutefois resté peu exploité en ce qui concerne le français L2, et
c’est ce qui a motivé le lancement, en 2008, du projet « Interphonologie du français
contemporain » (Detey & Kawaguchi, 2008 ; Racine et al., 2012 ; Detey & Racine, 2012,
Detey et al., à paraître3, ci-après IPFC), qui constitue l’une des extensions récentes du
programme « Phonologie du français contemporain : usages, variétés et structure »
(PFC ; Durand, Laks & Lyche, 2009, 2014 ; Racine, Durand & Andreassen, ce volume).
Après sept ans d’existence, IPFC assure donc, conjointement à d’autres projets plus
récents (le corpus Coreil, Delais-Roussarie & Yoo, 2010 et le corpus Phodifle, Landron et
al., 2011), la présence du français aux côtés des travaux menés dans d’autres langues.
4 L’objectif du présent article est double : d’une part, il vise à offrir une brève
présentation ainsi qu’un état des lieux du projet IPFC après sept ans d’existence et,
d’autre part, à illustrer l’intérêt d’un tel corpus pour l’étude de l’acquisition de la
phonologie du français L2, ce que nous nous proposons de faire par le biais d’un
phénomène qui constitue un passage obligé dans l’enseignement du français langue
étrangère (ci-après FLE), à savoir la liaison. Dans la deuxième partie de cet article, nous
examinerons donc la question de l’acquisition de la liaison en français L2 et de ses
enjeux pour l’enseignement. Nous expliquerons comment la liaison est traitée dans le
projet IPFC avant de présenter une analyse des productions de liaison issues de la
lecture du texte par des apprenants hispanophones et japonophones. Par ce biais, nous
montrerons en quoi les données IPFC permettent d’enrichir la réflexion sur la liaison
en L2, qui devrait permettre, à terme, un renouvellement du matériel pédagogique
pour l’enseignement de cette question.
1. Le projet « Interphonologie du françaiscontemporain »
5 L’objectif du projet IPFC est de constituer, analyser et mettre à disposition un corpus de
recherche de FLE varié. La base de données consiste en un ensemble de points
d’enquête, rassemblant des populations d’apprenants de profils linguistiques aussi
similaires que possible (même variété de L1, même niveau de compétence linguistique
en français d’après les descripteurs du Cadre européen commun de référence pour les
langues (CECRL) et, si possible, parcours d’apprentissage similaire). Dans la lignée de
PFC, un focus particulier a été mis sur l’analyse de la variation et sur la comparabilité
des données. Le protocole de recueil de données est par conséquent identique pour
toutes les L1 et est resté le plus proche possible de celui de PFC au niveau des tâches,
sans exclure évidemment une adaptation de ses modalités à des populations
d’apprenants (pour une description du protocole PFC, voir Racine, Durand &
Andreassen, ce volume).
Corpus, 15 | 2016
153
6 Le recueil de données est constitué de six tâches : 1) la répétition d’une liste spécifique
de mots produits par un locuteur natif, 2) la lecture de la liste de mots PFC, 3) la lecture
de la même liste spécifique qui a été répétée dans la première tâche, 4) la lecture du
texte PFC, 5) un entretien guidé avec un natif, le plus souvent un enseignant, et 6) une
interaction semi-contrainte entre deux apprenants.
7 La liste spécifique comprend à la fois des difficultés qui sont partagées par l’ensemble
des apprenants, telles que les voyelles nasales ou antérieures arrondies, ainsi que des
difficultés plus spécifiques à chaque population d’apprenants ciblée, comme par
exemple les occlusives sonores en initiale de mots pour les apprenants suisses
alémaniques ou les groupes consonantiques pour les japonophones. La tâche de
répétition a été incluse de manière à contourner les effets orthographiques induits par
une tâche de lecture (Detey, 2005 ; Vendelin & Peperkamp, 2006 ; Bassetti, 2006).
L’entretien guidé, quant à lui, comporte des questions fermées et ouvertes, qui sont
adaptées au niveau de l’apprenant ainsi qu’au contexte dans lequel se déroule son
apprentissage (homoglotte vs hétéroglotte). L’interaction semi-contrainte débute par
une brève présentation de l’un des apprenants sur un sujet spécifique, suivie d’une
série de questions-réponses qui se transforme généralement en discussion libre entre
les deux intervenants. Les rôles sont ensuite inversés. Un questionnaire biographique
complète le protocole.
8 Si le projet IPFC a débuté avec la constitution d’un corpus d’apprenants japonophones
et d’un corpus d’apprenants hispanophones, d’autres chercheurs s’y sont depuis
associés, et le projet regroupe actuellement quinze équipes travaillant avec des
apprenants de L1 différentes (allemand, anglais canadien, arabe, coréen, danois,
espagnol, grec, italien, japonais, néerlandais, norvégien, portugais brésilien, russe,
suédois et turc). De nouvelles équipes s’y adjoignent régulièrement. Ainsi, des projets
avec des apprenants malais et tchèques sont par exemple en cours d’élaboration. En
parallèle, le travail sur les L1 déjà représentées dans le projet s’élargit. C’est le cas pour
l’italien où, outre les corpus de Milan, Trieste et Rome, un corpus avec des apprenants
tessinois est en cours de constitution, de même que pour l’allemand, où des données
d’apprenants autrichiens et suisses allemands sont également collectées depuis peu4.
9 L’ensemble du corpus ainsi recueilli représente environ une heure de données par
apprenant. Les enregistrements sont transcrits orthographiquement avec alignement
au signal – sous Praat (Boerma & Weenink, 2014) –, selon des conventions spécifiques
adaptées à la parole en L2 (cf. Racine et al., 2011), notamment concernant des cas
d’ambiguïté au niveau morpho-lexical ou phonético-phonologique. Divers types
d’analyse sont ensuite appliqués aux données. Pour les mots en isolé, une évaluation
experte vs non experte, éventuellement complétées par des analyses acoustiques (pour
des exemples concernant les voyelles nasales et arrondies, voir Detey et al., 2010 ;
Racine et al., 2010 ; Racine, Detey & Kawaguchi, 2012 ; Racine, 2012). Ce type
d’évaluation n’étant pas adapté à la parole continue – la dimension morpho-
grammaticale est en effet susceptible de biaiser l’évaluation de la production de
surface – nous avons choisi d’appliquer, dans la lignée de ce qui a été fait dans PFC pour
la liaison et le schwa, une approche par le biais d’un codage alphanumérique de
différents paramètres (Detey, 2012 ; Detey et al., 2014a ; Detey et al., 2014b ; Detey et al., à
paraître). Le code alphanumérique, spécifique à chaque phénomène ciblé, est inséré
manuellement sur la base d’une évaluation perceptive, dans la transcription
orthographique, dans des tires séparées (une par phénomène ciblé).
Corpus, 15 | 2016
154
10 Une triple motivation a guidé ce choix : i) dans le quotidien des locuteurs apprenants, la
parole non native est évaluée de manière catégorielle et non pas en termes de détails
phonétiques fins. Les analyses acoustiques, qui fournissent des informations fines sur
les caractéristiques acoustiques du signal, ne sont donc pas adéquates. Seule une
évaluation perceptive humaine, en termes de catégories phonologiques, permet
d’atteindre cet objectif. L’analyse du signal peut toutefois constituer une étape
ultérieure en vue d’obtenir des informations plus précises sur un ensemble particulier
de stimuli, par exemple des productions ayant été évaluées comme très éloignées de la
cible visée ; ii) le recours à un codage alphanumérique ciblant certains paramètres
précis permet d’éviter certains pièges liés à la transcription phonétique. En effet, s’il est
possible d’évaluer le caractère nasalisé ou non d’une voyelle, l’adéquation de son
timbre par rapport à une cible donnée ou la présence/absence d’un appendice
consonantique postvocalique, il n’est pas toujours possible de sélectionner un symbole
phonétique qui représente de manière adéquate la réalisation globale de cet élément
par un apprenant ; iii) l’idée fondamentale de l’approche par corpus est de décrire, de
manière aussi automatique que possible, sur la base d’un ensemble conséquent de
données, les tendances globales qui se dégagent de la parole en L2, en prenant en
compte le contexte de production et sans précatégoriser – et pré-interpréter – les
productions interlangagières de l’apprenant sur la base des catégories phonémiques de
la L2 ou de la L1, puisqu’il s’agit justement d’un système en construction dont les
formes peuvent être potentiellement non identifiables dans les deux systèmes en
contact, source et cible.
11 Une fois les données codées5, l’analyse s’effectue par le biais du concordancier Dolmen,
développé par J. Eychenne (cf. Eychenne & Paternostro, à paraître), dans le cadre
duquel des interfaces spécifiques pour les phénomènes ciblés dans IPFC ont été
développées, à savoir, pour l’instant, les voyelles orales et nasales, les consonnes, les
groupes consonantiques et la liaison. Dolmen permet d’obtenir de manière automatique
des statistiques descriptives concernant certaines caractéristiques des productions non
natives.
12 En conclusion, cette procédure de codage alphanumérique constitue, à nos yeux, une
étape intermédiaire entre des analyses acoustiques fines et une catégorisation
phonologique plus grossière, en termes de substitution, d’insertion ou d’effacement
(Detey, 2012, 2014). La démarche que nous avons adoptée et développée dans IPFC a
inspiré des travaux similaires d’analyse de corpus pour d’autres langues cibles (pour
l’espagnol, voir Carranza, Cucchiarini, Llisterri, Machuca & Rios, 2014 ; pour l’anglais,
voir Lacoste, Herry-Bénit & Kamiyama, 2013). Dans le cadre du projet IPFC, des analyses
des productions de voyelles nasales et arrondies (Detey, Racine & Kawaguchi, 2014 ;
Detey et al., 2014a et 2014b) d’apprenants japonophones et hispanophones ont été
conduites selon cette procédure. La question de l’acquisition de la liaison L2 par des
apprenants de différentes L1 est également en cours d’examen par ce biais dans le
projet (voir, par exemple, les contributions dans Racine et Detey (2015) pour les
apprenants allemands (Pustka), canadiens anglophones (Tennant), espagnols (Racine),
grecs chypriotes (Valetopoulos), italiens (Falbo, Janot, Murano & Paternostro), japonais
(Detey, Kawaguchi & Kondo) et norvégiens (Andreassen & Lyche)). C’est à travers ce
phénomène phonologique spécifique du français que nous avons choisi d’expliciter de
manière plus concrète la démarche adoptée dans le projet IPFC.
Corpus, 15 | 2016
155
2. La question de la liaison : enjeux pour le FLE6
13 La liaison est, comme le rappellent Durand & Lyche (à paraître), un phénomène de
sandhi externe qui implique la présence – ou l’absence – d’une consonne entre deux
mots produits conjointement, le premier mot étant appelé « mot liaisonnant ». Selon la
littérature, les consonnes de liaison possibles sont au nombre de huit ([z, n, t, ʁ, p, v, k,
ɡ])7, les trois premières couvrant la plus grande majorité des occurrences. La consonne
de liaison peut apparaître lorsque le deuxième mot commence par une voyelle (p. ex. :
« un escargot » [œnɛskaʁɡo]), mais est absente lorsque le deuxième mot commence
par une consonne (p. ex. : « un stylo » [œstilo]). En outre, cette consonne se rattache le
plus souvent – mais pas obligatoirement – à l’attaque de la syllabe suivante, qui
appartient donc au deuxième mot. Lorsqu’il y a resyllabation de la consonne finale, la
liaison est enchaînée (p. ex. : « un escargot » [œ-nɛs-kaʁ-ɡo]). Elle est produite sans
enchaînement lorsque cette resyllabation n’a pas lieu (p. ex. : « un escargot » [œn-ɛs-
kaʁ-ɡo]). Ainsi, lorsqu’elle est enchaînée, la liaison, qui reflète un état ancien de la
langue où toutes les consonnes étaient prononcées (pour un historique, cf. Mallet,
2008), contribue à renforcer la tendance à la syllabation ouverte et la prédilection du
français pour les syllabes de type CV (Delattre, 1946).
14 La réalisation de la liaison est soumise à variation et dépend, comme le rappellent
Eychenne et al. (2014) et Durand & Lyche (à paraître) de facteurs phonologiques – y
compris prosodiques –, lexicaux, (morpho)syntaxiques ainsi que sociolinguistiques.
Parmi ces derniers, ces auteurs relèvent notamment le registre, l’âge, la provenance du
locuteur, le niveau d’instruction ou encore le degré de connaissance de l’orthographe.
En outre, lorsque la liaison est réalisée, elle peut parfois avoir un effet sur la voyelle
précédant la consonne de liaison, soit en l’ouvrant (p. ex. : « premier élève » sera ainsi
produit [pʁəmjɛʁelɛv], avec une forme masculine ne se différenciant plus de la forme
féminine « première »), soit en la dénasalisant (p. ex. : « bon après-midi » sera ainsi
produit [bɔnapʁɛmidi], avec une forme masculine dont la prononciation est identique
à sa contrepartie féminine « bonne »)8.
15 Si l’on se place du point de vue d’un apprenant, la question de la liaison est
extrêmement complexe, notamment en raison du fait que sa réalisation va à l’encontre
de certains principes que l’apprenant a dû – ou est en train – d’intégrer, comme le
souligne Howard (2013). Il a ainsi dû apprendre à ne pas prononcer la consonne finale
graphique d’un grand nombre de mots, ce qui constitue une difficulté accrue pour les
apprenants dont la L1 dispose d’une très bonne correspondance entre prononciation et
orthographe. Or, dans le cas de la liaison, cette consonne finale habituellement non
prononcée peut l’être dans certaines conditions, de surcroît avec une réalisation qui ne
correspond pas toujours à la consonne graphique, et le plus souvent en se resyllabant
avec la voyelle initiale du mot suivant (p. ex. : « grand », avec une consonne finale non
prononcée qui, si elle se réalise en liaison, l’est en [t], p. ex. : « grand animal » [ɡʁɑ-ta-
ni-mal]).
16 La liaison en [n] renforce ce phénomène. En effet, l’acquisition des voyelles nasales du
français constitue déjà en soi une difficulté majeure pour la plupart des apprenants. La
dimension graphique ne leur simplifie pas la tâche puisque, outre le fait que les
voyelles nasales possèdent des graphies multiples, l’apprenant doit acquérir des
graphèmes complexes dans lesquels la consonne nasale ne se prononce pas (p. ex. :
« plein » [plɛ]). Or, dans le cas de la liaison en [n], la consonne nasale graphique se
Corpus, 15 | 2016
156
prononce, et la voyelle qui précède peut perdre sa nasalité (p. ex. : « plein hiver » [plɛn
ivɛʁ]), mais pas de manière systématique (« rien à faire » [ʁjɛnafɛʁ]).
17 À cela s’ajoute le fait que, comme mentionné précédemment, la liaison est soumise à
variation, variation dont l’apprenant doit acquérir la maîtrise, et dont Wauquier (2009)
distingue deux types : une variation conditionnée par le contexte d’abord, qui fait que
certaines liaisons sont systématiquement réalisées, réalisées de manière variable ou pas
réalisées – liaisons catégoriques, variables ou erratiques, selon la terminologie adoptée
par Durand & Lyche (2008), appelées également obligatoires, facultatives ou interdites
dans une perspective plus normative –, et, dans le cas des liaisons variables, une
variation libre, qui reflète le choix du locuteur de réaliser ou non la liaison,
généralement en fonction de facteurs d’ordre sociolinguistique.
18 Les difficultés posées par la liaison à l’apprenant sont donc multiples mais peuvent
cependant, nous semble-t-il, être réparties en deux catégories distinctes : 1) les
problèmes posés par le phénomène de liaison lui-même, qui sont de l’ordre de ce que
l’on pourrait qualifier de microplanification : nature de la consonne de liaison à réaliser
(en lien avec la graphie), placement de cette consonne dans la structure syllabique
(avec resyllabation avec la voyelle initiale du mot suivant ou non), modification
éventuelle de l’environnement immédiat (dénasalisation/ouverture de la voyelle
précédente) ; 2) les problèmes posés par la variation inhérente à la liaison, qui relèvent
davantage d’une planification à un niveau macro, cette fois-ci, et qui peuvent être
résumés ainsi : identifier le contexte – sur la base de facteurs phonologiques,
prosodiques, lexicaux, (morpho)syntaxiques et sociolinguistiques – afin de déterminer
si la liaison doit – ou peut – ou non être réalisée.
19 L’essentiel des explications et des exercices consacrés à la liaison dans les manuels de
FLE spécialisés dans le domaine de la prononciation se rapportent plutôt à ce deuxième
type de difficultés, lié aux contextes de réalisation de la liaison. Les questions qui
relèvent de la microplanification sont généralement mentionnées mais de manière
sommaire, avec peu ou pas d’exercices ciblés et sans conscientisation des difficultés
pour l’apprenant.
20 Les contextes de réalisation de la liaison sont généralement divisés en trois catégories –
liaisons obligatoires, facultatives et interdites – et présentés sous forme de tableaux ou
de listes basées sur des généralisations d’ordre morphosyntaxique (p. ex. : « la liaison
est obligatoire entre le déterminant et le nom qui le suit »), suivies d’exemples. Les
autres facteurs de variation – d’ordre sociolinguistique, lexical ou prosodique – ne sont
généralement pas mentionnés, hormis la distinction, pour les liaisons facultatives,
entre registre courant/standard et soutenu. On peut relever que les explications sont
parfois opaques, que le nombre de règles énoncées est plutôt élevé (selon les manuels,
entre 6 et 9 pour chacune des catégories « liaisons obligatoires » et « liaisons
interdites »), avec des divergences d’un manuel à l’autre.
21 On constate également que certaines règles énoncées ne semblent pas correspondre à
la réalité des usages actuels. Ainsi, par exemple, la liaison est présentée comme
obligatoire après les prépositions monosyllabiques suivantes : « en », « dans », « chez »,
« sans », « sous » (Abry & Chalaron, 1994 : 110). Or, Eychenne et al. (2014 : 44), en se
basant sur les données issues du corpus PFC, montrent que, si la liaison est quasi
catégorique après « en » (taux de réalisation : 99.35 %), elle l’est moins après « sans »
(93.13 %) et encore moins après « chez » (75.68 %). Le dernier cas illustre, selon les
auteurs, le rôle primordial de la prosodie : la liaison est en effet catégorique dans le
Corpus, 15 | 2016
157
contexte « chez + clitique », alors qu’elle est variable à 50 % dans le contexte « chez +
syntagme nominal ». Eychenne et al. (2014 : 34) expliquent ce décalage entre les
descriptions traditionnelles et les usages – mis en avant par les travaux sur la liaison
basés sur des corpus oraux (entre autres Ågren, 1973 ; Encrevé, 1988 ; De Jong, 1994 ;
Durand & Lyche, 2008)9 – par le fait que, si de nombreux travaux ont été consacrés à la
liaison dans la seconde moitié du XXe siècle, peu d’entre eux ont pris en compte les
données authentiques. La plupart des analyses classiques en linguistique ont été
élaborées sur la base de descriptions normatives destinées à faciliter l’apprentissage du
phénomène par des apprenants étrangers – les auteurs citent notamment Delattre
(1951) et Fouché (1959). Or, ce sont ces mêmes descriptions qui sont à la base des
classements qui figurent généralement dans les manuels de phonétique. On peut
ajouter que, hormis la question de l’authenticité des données sur lesquelles s’appuient
ces descriptions, le décalage entre descriptions et usages réels peut également
s’expliquer par le fait que l’on ne s’exprime plus aujourd’hui de la même manière qu’à
l’époque où elles ont été élaborées. De Jong (1994) a en effet mis en évidence
l’importance du facteur âge : les locuteurs jeunes de son corpus réalisent un taux de
liaison significativement inférieur par rapport à leurs aînés, ceci étant particulièrement
marqué entre la tranche des 18-29 ans et la tranche des 30-49 ans, ce qui semble
indiquer qu’un changement majeur a eu lieu au milieu des années soixante10, les
descriptions traditionnelles mentionnées – Delattre (1951) et Fouché (1959) – y étant
donc antérieures.
22 Comme le soulignent Eychenne et al. (2014), les travaux basés sur des corpus oraux ont
montré que l’on ne peut expliquer la liaison en se basant uniquement sur des principes
d’association mécanique mais que d’autres facteurs, tels que par exemple la fréquence
lexicale du mot liaisonnant et la prosodie, doivent être pris en compte. Le travail réalisé
sur la liaison dans le cadre du projet PFC a permis d’affiner encore les descriptions des
usages réels. Durand & Lyche (2008) peuvent ainsi réduire à quatre contextes les
liaisons systématiquement réalisées dans les usages : déterminant + substantif (p. ex. :
« un animal »), proclitique + verbe (« ils aiment », « ils y dorment souvent »), verbe +
enclitique (p. ex. : « dit-il », « fais-en ») et expressions figées (p. ex. : « de mieux en
mieux », « de temps à autre »). Les données PFC montrent également que la liaison
variable est très peu réalisée en conversation spontanée, que les liaisons sont
quasiment systématiquement produites avec enchaînement et que, du point de vue des
facteurs externes, la liaison semble essentiellement influencée par l’âge et par l’origine
géographique des locuteurs ainsi que par le registre (Eychenne et al., 2014).
23 Si, d’un point de vue linguistique, comme le relèvent Eychenne et al. (2014 : 56), il
semble qu’on ne peut plus aujourd’hui se satisfaire de données « fabriquées » et que l’on
se doit d’intégrer les résultats des études sur corpus dans les modélisations
phonologiques, la même conclusion semble s’imposer dans le domaine de
l’enseignement du FLE : les descriptions des manuels de phonétique doivent être
renouvelées afin de mieux correspondre aux usages réels en vigueur. À ce titre, on peut
déjà mentionner les ouvrages de Lauret (2007) et d’Abry & Chalaron (2011), qui
proposent quant à eux une description des contextes de liaison catégorique qui
correspond aux quatre contextes décrits par Durand & Lyche (2008) où la liaison est
systématiquement réalisée.
24 Pour compléter ce panorama de la liaison, il paraît important d’examiner également la
question du point de vue des productions des apprenants, afin de déterminer ce qui
Corpus, 15 | 2016
158
leur pose problème. Un certain nombre de travaux se sont penchés sur cette question
et ont analysé les occurrences de liaison dans les productions d’apprenants de FLE (De
Moras, 2011 ; Harnois-Delpiano et al., 2012 ; Howard, 2005, 2013 ; Mastromonaco, 1999 ;
Thomas, 2002, 2010). On peut tout d’abord relever l’hétérogénéité des travaux qui
portent sur cette question et qui ont examiné les productions des liaisons par des
apprenants – en grande majorité anglophones – de niveaux variés (débutants à
avancés), dans des contextes d’apprentissage divers – notamment avec ou sans séjour
dans une région francophone – et avec des tâches distinctes (production de séquences
isolées, description d’images, texte lu, entretien guidé et parole spontanée). Les
résultats sont néanmoins assez homogènes et montrent d’une part un taux
généralement élevé de réalisation des liaisons obligatoires chez les apprenants avancés,
avec – lorsqu’une dimension longitudinale est intégrée, comme par exemple dans
l’étude de Howard (2013) – une progression dans le taux de réalisation de certaines de
ces liaisons obligatoires, notamment pour celles entre déterminant et substantif et
après les pronoms sujets. Certains contextes semblent par contre poser plus de
problèmes. Howard (2005, 2013) relève en effet des taux moins élevés après les pronoms
clitiques et un taux très faible de réalisation de la liaison entre un adjectif et le
substantif qui le suit. Toutefois, il faut rappeler que cette dernière catégorie n’apparaît
pas comme catégorique dans les données de corpus de Durand & Lyche (2008). La
comparaison avec les natifs doit donc être considérée avec précaution car les études
portant sur les apprenants n’ont généralement pas constitué de corpus de données
natives comparables11 et se basent donc sur la littérature dans le domaine. Or, comme le
souligne De Moras (2011), les différentes catégories de liaison ne sont pas définies de
manière uniforme dans la littérature. De plus, comme nous l’avons vu précédemment,
la prise en compte des données de corpus, qui questionnent la classification
traditionnelle en obligatoire/facultative/interdite et soulignent l’importance de
certains facteurs, est encore relativement récente.
25 Les travaux qui ont examiné les productions des liaisons par des apprenants
fournissent également des indications concernant les difficultés au niveau de ce que
nous avons appelé la microplanification. Mastromonaco (1999), Harnois-Delpiano et al.
(2012) et Thomas (2002) observent en effet des erreurs de type [ɡʁɑdami] pour « grand
ami » ou [ɡʁɑnɔm] pour « grand homme » qui semblent découler d’une prononciation
orthographique et qui n’apparaissent pas chez les enfants natifs (Wauquier, 2009).
Mastromonaco (1999) et De Moras (2011) mentionnent la difficulté particulière
engendrée par les liaisons en [n] liées à la question des voyelles nasales. Un autre
phénomène intéressant est le taux important de liaisons réalisées sans enchaînement
par les apprenants, qui est de 7 % chez Mastromonaco (1999) – sans distinction de
tâches (lecture, description et conversation) – de 8.5 % chez Thomas (2002) et de 8.85 %
– pour les liaisons obligatoires uniquement – chez De Moras (2011), alors que, comme
mentionné auparavant, ce type de réalisation est quasiment absent des données de
conversation du corpus PFC (Eychenne et al., 2014), et il semble également l’être des
données d’acquisition en L1 (Wauquier, 2009). Pour Thomas (2002), cela peut refléter
soit une hésitation devant un mot difficile, soit l’influence de la tendance à la
syllabation fermée de l’anglais, la L1 des apprenants de son étude, hypothèse également
avancée par De Moras (2011).
26 Il semble ainsi indispensable d’affiner davantage les connaissances dans le domaine de
l’acquisition de la liaison en FLE, afin de déterminer si les difficultés observées dans les
travaux portant sur des apprenants anglophones peuvent être généralisées aux
Corpus, 15 | 2016
159
apprenants d’autres L1 ou sont induites par des caractéristiques spécifiques aux
langues germaniques, telles que la tendance à la syllabation fermée. De nouvelles
données d’apprenants de L1 plus diversifiées doivent être collectées et la comparabilité
non seulement avec les productions natives mais également entre les différentes
populations d’apprenants doit être améliorée, de même qu’en termes de tâche(s)
effectuée(s).
3. Le traitement de la liaison dans IPFC
27 Sur la base de ce qui a été décrit dans la première partie de ce chapitre, le projet IPFC
semble être en mesure de répondre aux besoins mentionnés ci-dessus et par
conséquent constituer un cadre adéquat pour approfondir les recherches dans le
domaine de l’acquisition de la liaison en FLE.
28 Sur le modèle de la méthodologie adoptée dans PFC, la liaison y est traitée par le biais
d’un codage alphanumérique inséré dans une tire spécifique, sous Praat (Boersma &
Weenink, 2014). Le code PFC pour la liaison a été modifié afin de s’adapter aux
caractéristiques des productions non natives et aux difficultés générées par la liaison.
Pour pouvoir repérer les liaisons « orthographiques » (p. ex. : [ɡʁɑdami] pour « grand
ami » ou [ɡʁɑnɔm] pour « grand homme ») observées dans les travaux antérieurs en
FLE, il est en effet indispensable que la consonne cible soit codée, ce qui n’est pas le cas
dans le code PFC, des erreurs de ce type n’apparaissant pas chez les natifs. Le code IPFC
pour la liaison comprend donc sept champs. Les quatre premiers portent sur des
éléments descriptifs : 1) nature de la consonne de liaison cible, 2) catégorie syntaxique
du mot liaisonnant, 3) catégorie syntaxique du mot qui suit, 4) nombre de syllabes du
mot liaisonnant et nature – orale ou nasale – de la voyelle du mot liaisonnant. Les trois
derniers champs ciblent l’évaluation perceptive de la liaison : 5) réalisation de la liaison
et, si oui, avec ou sans enchaînement, 6) nature et caractéristiques de la consonne de
liaison (correspond à la cible ou non, etc.), 7) présence d’une pause, d’une hésitation ou
d’un coup de glotte. Ces données sont ensuite décodées par le biais d’une interface
spécifique du concordancier Dolmen, qui permet d’obtenir facilement des statistiques
descriptives, telles que le nombre de liaison en [n] réalisées, le nombre de liaisons
produites avec enchaînement, etc.
29 Cette procédure est actuellement appliquée à grande échelle dans le projet IPFC (voir
Racine & Detey, 2015). Dans ce qui suit, nous l’illustrons en présentant les résultats
d’une étude préliminaire portant sur des productions d’apprenants avancés
hispanophones et japonophones.
4. Une illustration : la liaison en lecture de texte chezles apprenants hispanophones et japonophones
4.1 Méthode
30 Trente-sept apprenants avancés (B2-C1 du CECRL), 20 Espagnols et 17 Japonais, ainsi
que 10 natifs suisses romands ont pris part à cette étude préliminaire. Les apprenants
étaient répartis en deux groupes : avec séjour prolongé en milieu francophone vs sans
séjour. Dans le groupe d’hispanophones, 10 apprenants (8 femmes et 2 hommes, âge
Corpus, 15 | 2016
160
moyen : 27.0) étudiaient le français – ou en français – à l’Université de Genève et
vivaient dans un environnement francophone depuis au moins douze mois. Les
10 autres (8 femmes et 2 hommes, âge moyen : 26.6) étudiaient le français à Madrid, à
l’Université ou dans une école de langue officielle. Aucun d’entre eux n’avait effectué
de séjour de plus de trois semaines en milieu francophone. Pour le groupe de
japonophones, 7 apprenants (5 femmes et 2 hommes, âge moyen : 24.7) étudiaient le
français à TUFS (Tokyo University of Foreign Studies) et avaient effectué pendant leurs
études un séjour prolongé (de 6 mois à 1 an) en milieu francophone. Les 10 autres
(8 femmes et 2 hommes, âge moyen : 20.2) étaient également étudiants de français à
TUFS mais n’avaient effectué aucun séjour en milieu francophone. Ces données ont été
comparées avec celles d’un groupe contrôle constitué de 10 francophones natifs suisses
romands (8 femmes et 2 hommes, âge moyen : 27.3), enregistrés dans le cadre de PFC.
31 Les participants disposaient de 5 minutes pour prendre connaissance du texte PFC
intitulé « Le Premier ministre ira-t-il à Beaulieu » et le préparer, avant de le lire à voix
haute. Rappelons que, dans le protocole PFC, ce texte a été conçu spécifiquement pour
étudier la liaison et le schwa et contient donc 35 sites potentiels de liaison (17 sites de
liaisons obligatoires, 14 de liaisons facultatives et 4 de liaisons interdites selon la
classification de Delattre, 1951). 1 295 sites potentiels de liaison ont ainsi été codés
selon le code liaison IPFC par une locutrice native et vérifiés par un deuxième
évaluateur12.
4.2 Résultats et discussion
32 Les analyses montrent tout d’abord que si les deux populations d’apprenants
hispanophones ne se distinguent pas des natifs au niveau du taux global de réalisation
des liaisons dans le texte (59.43 % pour les apprenants sans séjour, 58.83 % pour ceux
avec séjour et 56 % pour les natifs, ns13), les deux populations d’apprenants
japonophones réalisent moins de liaisons que les natifs (44.63 % pour les apprenants
sans séjour, 47.93 % pour ceux avec séjour vs 56 % pour les natifs, p < 0.01). Ce résultat,
pour les hispanophones, contraste également avec les travaux portant sur des
apprenants anglophones (Howard, 2005 ; Mastromonaco, 1999 ; Thomas, 2002), dans
lesquels le taux de réalisation des apprenants était généralement inférieur à celui des
natifs. Si l’on se base uniquement sur ce premier résultat, les hispanophones
sembleraient donc a priori plus performants que les deux autres populations
d’apprenants, au niveau du taux global de liaison réalisées.
33 Nous avons également analysé les productions en fonction des contextes obligatoires
définis par Delattre (1951) ainsi que par Durand & Lyche (2008). Les résultats montrent
que, si l’on se base sur la classification de Delattre (1951), le taux de réalisation de la
liaison est significativement moins élevé dans les quatre populations d’apprenants que
chez les natifs. Pour les hispanophones, on trouve 90.00 % de réalisation de la liaison
pour les hispanophones sans séjour et 92.29 % pour ceux avec séjour, les deux groupes
ne se différenciant pas entre eux mais effectuant moins de liaisons obligatoires que les
natifs (99.41 %, p < 0.05). Les deux groupes d’apprenants japonophones réalisent
également moins de liaisons que les natifs, avec 72.48 % pour les apprenants sans
séjour, contre 85.10 % pour ceux avec séjour (p < 0.01). À noter que les japonophones
sans séjour réalisent significativement moins de liaisons obligatoires que le groupe avec
Corpus, 15 | 2016
161
séjour (p < 0.05), le séjour en milieu francophone semblant donc avoir un effet positif au
niveau de la réalisation des liaisons obligatoires.
34 Si l’on examine ces mêmes chiffres en fonction de la classification de Durand & Lyche
(2008), établie sur la base du corpus PFC – et qui semble donc correspondre, comme
mentionné précédemment, davantage aux usages actuels en vigueur –, on observe que
seuls les japonophones se différencient des natifs avec un taux de réalisation de 75.28 %
pour le groupe sans séjour et 86.03 % pour celui avec séjour, contre 99.17 % pour les
natifs (p < 0.001). Si l’on se base sur ces quatre contextes uniquement, les
hispanophones ne se distinguent plus des natifs, avec 93.33 % pour le groupe sans
séjour et 93.24 % pour celui avec séjour (ns). Les hispanophones semblent donc
également, au niveau des liaisons catégoriques, plus performants que les japonophones.
35 Comme les apprenants anglophones, les hispanophones et les japonophones réalisent
des liaisons avec une consonne inattendue, très souvent présente orthographiquement
dans le mot (p. ex. : [ɡʁɑnɔnœʁ] « grand honneur » ou [siʁkɥitabitɥɛl]14 « circuits
habituels »). On observe 9.46 % de productions de ce type chez les hispanophones sans
séjour (dont 72 % le sont avec [n]) et 7.22 % chez les apprenants avec séjour (dont 52 %
en [n]). Ces chiffres sont beaucoup moins élevés chez les japonophones, avec seulement
5.20 % chez les apprenants sans séjour (dont 68 % en [n]) et 2.10 % (dont 0 % en [n])
chez ceux avec séjour. Les apprenants japonophones ayant effectué un séjour en milieu
francophone se rapprochent donc davantage des natifs, qui, eux, ne réalisent aucune
liaison avec une consonne inhabituelle.
36 Les apprenants hispanophones et japonophones produisent également des liaisons non
enchaînées (p. ex. : [ɔn-ɑn-a-vy] « on en a vu », [tʁu-veʁ-o] « trouver au ») dans des
taux comparables à ceux observés chez les apprenants anglophones (7 % chez
Mastromonaco, 1999, 8.5 % chez Thomas, 2002 et 8.85 % chez De Moras, 2011). On
trouve ainsi 7.98 % de liaisons non enchaînées chez les hispanophones sans séjour et
7.51 % chez ceux avec séjour. Si l’on observe un taux comparable pour les apprenants
japonophones sans séjour, avec 6.93 %, ce chiffre diminue drastiquement chez les
japonophones avec séjour, avec seulement 1.68 % de liaisons non enchaînées. Les
japonophones avec séjour se rapprochent donc à nouveau des natifs, qui eux ne
produisent aucune liaison sans enchaînement dans la lecture du texte. Pour les autres
trois groupes, ces résultats concordent avec les observations effectuées sur les
apprenants anglophones dans les travaux précédents et semblent donc montrer que les
difficultés ne peuvent être expliquées par la tendance à la syllabation fermée des
langues germaniques, l’espagnol et le japonais ayant, comme le français, une
prédilection pour les syllabes ouvertes.
37 Nos données révèlent également parfois un cumul des deux phénomènes, consonne
orthographique et liaison non enchaînée (p. ex. : [ɡʁɑn-ɔ-nœʁ] « grand honneur »), et
ce plus fréquemment chez les hispanophones. Il paraît difficile toutefois dans ce cas –
et ce même s’il s’agit d’apprenants avancés – de déterminer s’il s’agit réellement d’une
liaison non enchaînée ou plutôt de la prononciation d’une consonne graphique, les
apprenants produisant également en conversation des formes telles que [ɡʁɑn-pʁɔ-
blɛm] « grand problème ». Afin de mieux comprendre ces formes, une analyse parallèle
des réalisations des consonnes graphiques finales semble donc indispensable,
notamment pour les apprenants dont la L1 dispose d’une très bonne correspondance
entre prononciation et orthographe, ce qui est le cas de l’espagnol. À noter également
que la non-différenciation entre les deux groupes d’apprenants hispanophones et les
Corpus, 15 | 2016
162
natifs, au niveau du taux global de réalisation des liaisons de l’ensemble du texte, qui
avait été interprétée dans un premier temps comme une meilleure performance des
hispanophones par rapport aux autres populations d’apprenants (japonophones et
anglophones) pourrait également s’expliquer par le fait qu’il ne s’agit pas réellement de
liaisons réalisées mais plutôt de consonnes graphiques finales prononcées. Ce résultat
surprenant doit donc être considéré avec prudence et être complété avec une analyse
des réalisations de ces dernières.
38 Ces résultats mettent également en évidence l’intérêt d’élargir les analyses des
productions de liaison à un plus grand nombre de populations d’apprenants, puisque le
comportement des apprenants hispanophones et japonophones n’est pas identique. En
effet, si les apprenants hispanophones ne se différencient pas des natifs au niveau du
taux global de liaisons réalisées ainsi que du taux de liaisons catégoriques réalisées
(basé sur les 4 catégories de Durand & Lyche, 2008), ils réalisent, dans des proportions
comparables aux apprenants anglophones des études précédentes, des liaisons avec une
consonne orthographique et des liaisons non enchaînées, avec parfois un cumul des
deux phénomènes. Le schéma n’est pas identique pour les apprenants japonophones,
puisque l’on observe d’une part des taux de réalisation globale de la liaison ainsi que
des taux de liaisons catégoriques significativement moins élevés que les natifs. D’autre
part, les taux de liaisons avec une consonne orthographique ainsi que ceux de liaisons
non enchaînées semblent globalement légèrement inférieurs à ceux des
hispanophones, avec surtout une amélioration notable en fonction du séjour : les
apprenants japonophones ayant effectué un séjour prolongé en milieu francophone
s’approchent des taux observés chez les natifs pour ces deux phénomènes.
5. Conclusion
39 Sur le plan didactique, ces résultats préliminaires montrent que les questions liées à la
microplanification ne sont pas anodines, y compris pour des apprenants dont la L1
partage la prédilection du français pour les syllabes ouvertes, et qu’il semble nécessaire
de les traiter de manière approfondie, notamment en les conscientisant, dans
l’enseignement du FLE. De Moras (2011) observe en effet que le taux de liaisons
enchaînées dans la catégorie des liaisons obligatoires augmente sensiblement après que
les apprenants ont suivi un cours sur la liaison.
40 Les différences observées entre les apprenants hispanophones et japonophones
soulignent également la nécessité d’élargir les analyses à d’autres populations. Les
futurs travaux devront également intégrer la dimension inter-tâches, afin de
déterminer l’impact de la tâche effectuée. Une analyse récente des productions de
douze apprenants hispanophones montre en effet que les taux de liaisons avec une
consonne orthographique ainsi que ceux de liaisons non enchaînées sont beaucoup
moins élevés en conversation par rapport à ceux observés dans la lecture du texte.
Cette tendance semble confirmée par des observations similaires effectuées chez les
apprenants italophones (12 débutants et 12 avancés) examinés dans cette même étude
(voir Racine et al., 2014). Les deux phénomènes observés (liaisons avec une consonne
orthographique et liaisons non enchaînées) semblent donc intrinsèquement liés aux
processus cognitifs impliqués dans la tâche de lecture, qui sont différents de ceux mis
en œuvre dans la parole spontanée. Enfin, ajoutons encore que les différences
observées (inter-populations et inter-tâches) dans le cadre de la liaison rejoignent les
Corpus, 15 | 2016
163
observations effectuées sur les aspects segmentaux (voyelles nasales et voyelles
arrondies).
41 Ces premières données montrent donc que la méthodologie adoptée dans le projet IPFC
devrait permettre de disposer de données de liaison diversifiées, en termes de L1 et de
tâches, rendant possible des comparaisons à grande échelle. Cet approfondissement et
cette diversification des travaux portant sur l’acquisition de la liaison en FLE, combinés
à une meilleure prise en compte des usages réels en vigueur, rendue possible par le
travail conséquent issu de la linguistique de corpus devraient en outre, à terme,
permettre un renouvellement adéquat du matériel pédagogique pour l’enseignement
de la liaison.
BIBLIOGRAPHIE
Abry, D. & Chalaron, M. (1994). 350 Exercices de phonétique. Paris : Hachette.
Abry D. & Chalaron M. (2011). Les 500 Exercices de phonétique. Paris : Hachette.
Ågren J. (1973). Enquête sur quelques liaisons facultatives dans le français de conversation radiophonique.
Uppsala : Acta Universitatis Uspaliensis.
Baralo M. (1999). La adquisición del español como lengua extranjera. Madrid : Arco libros.
Bassetti B. (2006). « Orthographic input and phonological representations in learners of Chinese
as a Foreign Language », Written Language and Literacy 9 (1) : 95-114.
Boersma P. & Weenink D. (2014). Praat : doing Phonetics by Computer. http://www.praat.org.
Carranza M., Cucchiarini C., Llisterri J., Machuca M. J. & Ríos A. (2014). « A corpus-based study of
Spanish L2 mispronunciations by Japanese speakers », Proceedings of Edulearn14, 6th International
Conference on Education and New Learning Technologies. Barcelone, Espagne : 3696-3705.
Coquillon A.-L. & Durand J. (2010). « Le français méridional : éléments de synthèse », in S. Detey,
J. Durand, B. Laks & C. Lyche (éd.) Les Variétés du français parlé dans l’espace francophone : Ressources
pour l’enseignement, Paris : Ophrys, 185-197.
Côté M.-H. (2012). « Laurentian French (Quebec) : Extra vowels, missing schwas and surprising
liaison consonants », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French :
Illustrations from three continents. Amsterdam/Philadelphia : John Benjamins, 235-274.
Cylwik N., Wagner A. & Demenko G. (2009). « The EURONOUNCE corpus of non-native Polish for
ASR-based Pronunciation Tutoring System », Proceedings of SlaTE 2009 – 2009 ISCA Workshop on
Speech and Language Technology in Education. Birmingham, UK.
De Jong D. (1994). « La sociophonologie de la liaison orléanaise », in C. Lyche (éd.), French
Generative Phonology : Retrospective and Perspectives. AFLS/ESRI : 95-130.
De Moras N. (2011). Acquisition de la liaison et de l’enchaînement en français L2 : Le rôle de la fréquence.
PhD. Dissertation, University of Western Ontario.
Corpus, 15 | 2016
164
Debrock M. & Flament-Boistrancourt D. (1996). « Le corpus LANCOM : Bilan et perspectives », ITL
– Review of Applied Linguistics 111-112 : 1-36.
Delais-Roussarie E. & Yoo H.-Y. (2010). « The COREIL corpus : a learner corpus designed for
studying phrasal phonology and intonation », in K. Deziubalska-Kolaczyk, M. Wrembel & M. Kul
(éd.) Proceedings of New Sounds 2010. Poznan, 100-105.
Delattre P. (1946). « Pour imiter un disque de français parlé », The French Review 20 (1) : 43-48.
Delattre P. (1951). Principes de phonétique française à l’usage des étudiants anglo-américains.
Middlebury College.
Detey S. (2005). Interphonologie et représentation orthographiques. Du rôle de l’écrit dans l’enseignement/
apprentissage du français oral chez des étudiants japonais. Thèse de Doctorat, Université de Toulouse
Le Mirail.
Detey S. (2012). « Coding and L2 phonological corpus : from perceptual assessment to non-native
speech models – an illustration with French nasal vowels », in Y. Tono, Y. Kawaguchi &
M. Minegishi (éd.) Developmental and Crosslinguistic Perspectives in Learner Corpus Research.
Amsterdam/Philadelphia : John Benjamins, 229-250.
Detey S. (2014). « Vers une évaluation par codage perceptif sur corpus de la production des
liquides françaises /R/ et /l/ des apprenants japonais en singleton et en groupe consonantique »,
Flambeau 40, 1-17.
Detey S. & Kawaguchi Y. (2008). « Interphonologie du français contemporain (IPFC) : récolte
automatisée des données et apprenants japonais », Journées PFC. Phonologie du français
contemporain : variation, interfaces, cognition. Paris, 11-13 décembre 2008.
Detey S. & Racine I. (2012). « Les apprenants du français face aux normes de prononciation :
quelle(s) entrée(s) pour quelle(s) sortie(s) ? », Revue française de linguistique appliquée 17(1) : 81-96.
Detey S., Racine I., Eychenne J. & Kawaguchi Y. (2014a). « Corpus-based L2 phonological data and
semi-automatic perceptual analysis : the case of nasal vowels produced by beginner Japanese
learners of French », Proceedings of Interspeech 2014. Singapore, 14-18 Septembre : 539-544.
Detey S., Racine I. & Kawaguchi Y. (2014b). « Des modèles prescriptifs à la variabilité des
performances non-natives : les voyelles nasales des apprenants japonais et espagnols dans le
projet IPFC », in J. Durand, G. Kristoffersenm B. Laks avec la collaboration de J. Peuvergne (éd.) La
Phonologie du français : Des normes aux périphéries (Festschrift pour Chantal Lyche). Paris : Presses
universitaires de Paris-Ouest, 197-226.
Detey S., Racine I., Kawaguchi Y. & Zay F. (à paraître). « Variation among non-native speakers :
Japanese and Spanish learners of French », in S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties
of Spoken French. Oxford : Oxford University Press.
Detey S., Racine I., Kawaguchi Y., Zay F., Buehler N. & Schwab S. (2010). « Évaluation des voyelles
nasales en français L2 en production : de la nécessité d’un corpus multitâches », in F. Neveu,
J. Durand, T. Klingler, S. Prévost & V. Muni-Toké (éd.) Actes de CMLF’10. Paris : ILF, 1289-1301.
Durand J., Laks B. & Lyche C. (2009). Phonologie, variation et accents du français. Paris : Hermès.
Durand J., Laks B. & Lyche C. (2014). « French phonology from a corpus perspective : the PFC
programme », in J. Durand, U. Gut & G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology.
Oxford : Oxford University Press, 486-497.
Durand J. & Lyche C. (2008). « French liaison in the light of corpus data », Journal of French and
Language Studies 18 (1) : 33-66.
Corpus, 15 | 2016
165
Durand J. & Lyche C. (à paraître). « Approaching variation in PFC : the liaison level », in S. Detey,
J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University Press.
Encrevé P. (1988). La liaison avec et sans enchaînement. Paris : Seuil.
Eychenne J., Lyche C., Durand J. & Coquillon A.-L. (2014). « Quelles données pour la liaison en
français : la question des corpus », in C. Soum-Favaro, A.-L. Coquillon & J. P. Chevrot (éd.) La
Liaison : approches contemporaines. Berne : Peter Lang, 33-60.
Eychenne J. & Paternostro R. (à paraître). « Analyzing transcribed speech with Dolmen », in
S. Detey, J. Durand, B. Laks & C. Lyche (éd.) Varieties of Spoken French. Oxford : Oxford University
Press.
Fouché P. (1959). Traité de prononciation française. Paris : Klincksieck. 2e édition.
Gut U. (2009). Non-native Speech : a Corpus-based Analysis of Phonological and Phonetic Properties of L2
English and German. Wien : Peter Lang.
Gut U. (2014). « Corpus phonology and second language acquisition », in J. Durand, U. Gut &
G. Kristoffersen (éd.) The Oxford Handbook of Corpus Phonology. Oxford : Oxford University Press,
286-301.
Harnois-Delpiano M., Cavalla C. & Chevrot J.-P. (2012). « L’acquisition de la liaison en L2 : étude
longitudinale chez des apprenants coréens de FLE et comparaison avec enfants francophones
natifs », in F. Neveu, V. Muni Toke, P. Blumenthal, T. Klingler, P. Ligas, S. Prévost & S. Teston-
Bonnard (éd.) Actes du Congrès mondial de linguistique française (CMLF 2012). Paris : Institut de
linguistique française, 1575-1589.
Howard M. (2005). « L’acquisition de la liaison en français langue seconde – Une analyse
quantitative d’apprenants avancés en milieu guidé et en milieu naturel », CORELA, Numéros
thématiques, Colloque AFLS.
http://corela.edel.univ-poitiers.fr/index.php?id=1127.
Howard M. (2013). « La liaison en français langue seconde : une étude longitudinale
préliminaire », Language, Interaction, and Acquisition 4 (2) : 190-231.
Lacoste V., Herry-Bénit N. & Kamiyama T. (2013). « The Interphonology of Contemporary
English : An introduction ». Conférence annuelle du projet PAC : Spoken English corpora : from
annotation to interphonologies. Aix-en-Provence, 30 mai-1er juin 2013.
Laks B. (2013). « Diachronie de la liaison dans la parole publique », Journées PFC 2013 Phonologie
du français contemporain : Regards croisés sur les corpus oraux. Paris, 5-7 décembre 2013.
Landron S., Paillereau N., Nawafleh A. et al. (2011). « Le corpus PhoDiFLE : un corpus commun de
français langue étrangère pour une étude phonétique des productions de locuteurs de langues
maternelles plurielles », CJC Praxiling2011. Montpellier.
Lauret B. (2007). Enseigner la prononciation du français, questions et outils. Paris : Hachette.
Mallet G. (2008). La liaison en français : Description et analyses dans le corpus PFC. Thèse de Doctorat,
Université Paris Ouest Nanterre la Défense.
Mastromonaco S.M. (1999). Liaison in French as a Second Language. Doctor of Philosophy. PhD
Dissertation, University of Toronto.
Meng H., Tseng C.-Y., Kondo M., Harrison A. & Viscelgia T. (2009). « Studying L2 suprasegmental
features in Asian Englishes : a position paper », Proceedings of Interspeech 2009. Brighton, UK.
Corpus, 15 | 2016
166
Myles F. & Mitchell R. (2007). French Learner Language Oral Corpora (FLLOC). University of
Southampton, 13.3 GB.
Neri A., Cucchiarini C. & Strik H. (2006). « Selecting segmental errors in L2 Dutch for optimal
pronunciation training », IRAL 44 : 357-404.
Perdue C. (1993). Adult Language Acquisition : Crosslinguistic Perspectives. Volume 1, Field Methods.
Cambridge : Cambridge University Press.
Racine I. (2012). « Spanish learners’productions of French close rounded vowels : a corpus-based
perceptual study » in Y. Tono, Y. Kawaguchi & M. Minegishi (éd.) Developmental and Crosslinguistic
Perspectives in Learner Corpus Research. Amsterdam/Philadelphia : John Benjamins, 205-228.
Racine I. (2014). « Une approche par corpus de la liaison chez les apprenants hispanophones de
français langue étrangère : quelles conséquences pour l’enseignement du FLE ? », Flambeau 40,
18-37.
Racine I. & Detey S. (2012). « La liaison dans IPFC : premiers regards sur les données
hispanophones et japonophones », Colloque Du français et de l’anglais aux langues du monde :
variation, structure et théorie du langage. Montpellier, 28-30 juin 2012.
Racine I. & Detey S. (2015). « L’apprentissage de la liaison en français par des locuteurs non
natifs : éclairage des corpus oraux », Bulletin VALS-ASLA 102.
Racine I., Detey S., Buehler N., Schwab S., Zay F. & Kawaguchi Y. (2010). « The production of
French nasal vowels by advanced Japanese and Spanish learners of French : a corpus-based
evaluation study », in K. Deziubalska-Kolaczyk, M. Wrembel & M. Kul (éd.) Proceedings of New
Sounds 2010 – Sixth International Symposium on the Acquisition of Second Language Speech. Poznan :
Adam Mickiewicz University, 367-372.
Racine I., Detey S. & Kawaguchi Y. (2012). « Les voyelles /y-u/ dans IPFC : évaluation perceptive
de productions natives, hispanophones et japonophones », Actes de JEP 2012. Grenoble : 385-392.
Racine I., Detey S., Zay F. & Kawaguchi Y. (2012). « Des atouts d’un corpus multitâches pour
l’étude de la phonologie en L2 : l’exemple du projet “ Interphonologie du français contemporain”
(IPFC) », in A. Kamber & C. Skupiens (éd.) Recherches récentes en FLE. Berne : Peter Lang, 1-19.
Racine I., Paternostro R., Falbo C., Janot P. & Murano M. (2014). « La liaison chez les
hispanophones et les italophones : du texte lu à la conversation », Rencontres FLORAL 2014 «
Corpus oraux et enseignement de la prononciation en FLE & Interphonologie et corpus oraux ». Paris, 8-9
décembre 2014.
Racine I., Zay F., Detey S. & Kawaguchi Y. (2011). « De la transcription de corpus à l’analyse
interphonologique : enjeux méthodologiques en FLE », in G. Col & S. N. Osu (éd.) Travaux
linguistiques du CerLiCO 24 (Actes du 24e colloque du CERLICO « Transcrire, écrire, formaliser », Université
de Tours, juin 2010). Rennes : PUR, 13-30.
Thomas A. (2002). « La variation phonétique en français langue seconde au niveau universitaire
avancé », AILE 17 : 101-121.
Thomas A. (2010). « La complexité en FLE2 universitaire avancé », in U. Paprocka-Piotrowska,
C. Martinot & S. Gerolimich (éd.) Actes du colloque La complexité en langue et son acquisition. Paris :
Université Descartes, 149-152.
Trouvain J. & Gut U. (2007). Non-Native Prosody. Phonetic Description and Teaching Practice. Berlin/
New York : Mouton de Gruyter.
Corpus, 15 | 2016
167
Visceglia T., Tseng C.-Y., Kondo M., Meng H. & Sagisaka Y. (2009). « Phonetic aspects of content
design in AESOP (Asian English Speech cOrpus Project) », Proceedings of Oriental-COCOSDA.
Urumuqi, Chine.
Vendelin I. & Peperkamp S. (2006). « The influence of orthography on loanword adaptations »,
Lingua 116 : 996-1007.
Wauquier S. (2009). « Acquisition de la liaison en L1 et L2 : stratégies phonologiques ou
lexicales ? », in J.-Y. Dommergues (éd.), Phonétique, bilinguisme et acquisition, Aile-Lia 2 : 93-130.
Zampini M. L. (2008). « L2 speech production research : Findings, issues, and advances. », in
J. G. Hansen Edwards, & M. L. Zampini (éd.) Phonology and Second Language Acquisition.
Amsterdam : John Benjamins, 219-249.
NOTES
1. Bien que les termes « langue seconde » (L2) et « langue étrangère » (LE) ne soient pas
synonymes (Baralo, 1999), ils sont utilisés ici de manière interchangeable, tout comme les termes
« langue maternelle » et « langue première » (L1).
2. Parmi ceux-ci, on peut par exemple mentionner le corpus ESF (European Science Foundation
Second Language, Perdue, 1993), le projet LANCOM (LANgue et COMmunication, Debrock & Flament-
Boistrancourt, 1996) et le projet FLLOC (French Learner Language Oral Corpora, Myles & Mitchell,
2007).
3. www.cblle.tufs.ac.jp/ipfc/
4. Une description détaillée des différentes enquêtes ainsi que la liste des publications liées sont
disponibles sur le site du projet : (http://cblle. tufs.ac.jp/ipfc/).
5. Tous les codages sont effectués par des locuteurs natifs. Pour certains phénomènes, un double
– voire triple – codage à l’aveugle est effectué. Une fonction de Dolmen permet de comparer
aisément les codages effectués par des codeurs différents. Pour un exemple plus détaillé de cette
procédure de double codage et du traitement des données, voir Detey et al. (2014a).
6. Les réflexions et analyses présentées dans cette section ont bénéficié des commentaires des
participants à une conférence organisée a Montpellier, en 2012 (Racine & Detey, 2012), ainsi que
de ceux des relecteurs anonymes du manuscrit de Racine (2014). Qu’ils en soient ici remerciés.
7. Ce nombre est toutefois soumis à la variation diatopique, le français laurentien connaissant
par exemple des liaisons en [l] (Côté, 2012).
8. À noter, toutefois, que cette dénasalisation n’est pas systématique (dans « mon animal », la
voyelle reste nasale, de même que dans « en effet » ou « un entrepôt ») et qu’elle est également
soumise à la variation diatopique, étant en effet plus fréquente par exemple dans le français
méridional (cf. Coquillon & Durand, 2010).
9. Pour un résumé récent des apports de ces différents corpus, voir Eychenne et al. (2014).
10. Selon Laks (2013), ce changement coïnciderait avec le mouvement de mai 68.
11. Certains auteurs ont tout de même constitué un groupe témoin de natifs qui sert de
référence. C’est le cas de De Moras (2011) par exemple.
12. Les deux évaluateurs sont des linguistes, enseignants de FLE spécialisés en phonétique.
13. Une analyse ANOVA montre que cette différence n’est pas significative (ns).
14. Les transcriptions phonétiques ne cherchent pas à reproduire fidèlement la prononciation
des apprenants, ce point n’étant pas le propos ici.
Corpus, 15 | 2016
168
RÉSUMÉS
Ce chapitre présente le projet « Interphonologie du français contemporain » (IPFC), qui vise à
constituer et analyser une large base de données de français langue étrangère produit par des
apprenants de diverses L1. Nous illustrons ensuite la méthodologie adoptée dans le projet à
travers le phénomène de la liaison. Après avoir exposé les enjeux de la liaison pour le français L2,
nous présentons une étude préliminaire des réalisations de liaisons par des apprenants
hispanophones et japonophones en lecture de texte et montrons en quoi le projet IPFC est
susceptible de fournir des données diversifiées en termes d’apprenants et de tâches, ce qui
devrait, à terme, permettre un renouvellement des données pour l’enseignement de la liaison en
français L2.
In this chapter, we present the project “Interphonology of Contemporary French” (IPFC). The
aim of the project is to constitute and analyse a large database of L2 French, produced by learners
of different origins. The methodology adopted in the project is then illustrated through the
phenomenon of liaison. First we describe the challenges of liaison for L2 French learners and
then we present a preliminary study of the realisations of liaison produced by Spanish and
Japanese learners of French in the text reading task. We conclude by showing that the IPFC
project provides an adequate framework to deepen our knowledge of L2 liaison, which in turn
should help us to renew the pedagogical material used to teach liaison in L2 French.
INDEX
Mots-clés : corpus, interphonologie, français parlé, français langue étrangère, acquisition
phonologique, liaison, IPFC, apprenants hispanophones, apprenants japonophones
Keywords : corpus, interphonology, spoken French, French as a foreign language, phonological
acquisition, liaison, IPFC, Spanish learners, Japanese learners
AUTEURS
ISABELLE RACINE
ELCF, Université de Genève
SYLVAIN DETEY
SILS, Université Waseda
Corpus, 15 | 2016
169
Le CFPP2000 : constitution, outils etanalyses. Le cas des interrogativesindirectesThe spoken Parisian French corpus in the 2000’: constitution, tools and analyses.
The case of indirect interrogatives clauses
Sonia Branca-Rosoff et Florence Lefeuvre
1 L’objet de cet article est de préciser quel type de français apparaît dans le Corpus de
français parlé parisien des années 2000, constitué par Sonia Branca-Rosoff, Serge
Fleury, Florence Lefeuvre et Mat Pirès1. Ce corpus atteint, en mars 2015, 602 000 mots
pour 42,5 heures d’enregistrement, réparties en 32 interviews, qui couvrent la plupart
des arrondissements de l’est et du centre de Paris ainsi que quelques villes de la petite
couronne. La diversité des locuteurs interrogés doit permettre de préciser l’ampleur de
la variation observable dans cet usage oral du français contemporain, que nous
appelons la langue commune. Dans cet article, nous nous appuierons sur l’exemple des
interrogatives indirectes (percontatives) pour situer ce registre qui ne se confond ni
avec le français standard, tel qu’il est décrit dans les grammaires et les dictionnaires, ni
avec les variétés les plus vernaculaires.
1. L’hypothèse de la langue commune
2 Les choix qui ont présidé à la confection du CFPP2000 expliquent les formes de français
parlé observables dans le corpus. Le CFPP2000 est un corpus d’entretiens semi-préparés
(l’enquêteur disposant d’une grille de questions qui n’a pas été communiquée
auparavant à l’enquêté) sur le thème du rapport des locuteurs à leur quartier et à la
ville de Paris en général. Ce corpus ne relève donc pas de l’observation participante, où
l’enquêteur cherche à disparaître pour ne pas modifier les échanges ordinaires du
groupe qu’il observe. Les universitaires qui ont réalisé l’enquête n’ont pas davantage
adopté « la neutralité » distante, recommandée un temps, notamment en sociologie,
puisqu’ils n’hésitent pas à s’impliquer dans l’échange, ce qui rapproche les entretiens
Corpus, 15 | 2016
170
du CFPP2000 de « vrais » dialogues. L’enquêteur adopte une attitude empathique, mais
il pousse parfois ses interlocuteurs dans leurs retranchements, rappelant ainsi qu’il est
extérieur à leur groupe. Ce dispositif, marqué par l’asymétrie des pôles d’interlocution,
a certainement des conséquences en ce qui concerne la production des opinions ; ainsi,
lorsqu’il s’agit d’immigration, les enquêtés tiennent compte des positions défavorables
à la critique des migrants qu’ils prêtent à l’enquêteur.
3 Ce dispositif a aussi des conséquences sur les activités langagières développées lors de
l’entretien. Il entraîne, par exemple, le recours à des séquences argumentatives, car le
locuteur, qui ne peut compter sur une étroite connivence avec l’enquêteur, entre
souvent dans l’exposé de ses motifs et plus généralement dans un discours de
justification. De même, il comporte une sur-utilisation des marques de réflexivité2. La
volonté d’agir sur le point de vue de l’enquêteur s’accompagne, chez beaucoup
d’enquêtés, de retours sur leurs formulations comme chez cette Ivryenne des « classes
moyennes », soucieuse de n’être pas confondue avec la « racaille » des cités et de
préserver les avantages procurés par une école d’élite, mais qui vit dans une banlieue
communiste dont elle partage en principe les options généreuses :
(1) on faisait partie de l’école + entre guillemets privilégiée d’Ivry hein (mm) detoute façon ça faut faut que ça soit bien clair (mm) + et euh nos enfants avaient uneun très bon niveau qui se vendait très bien sur Paris + nous on peut dire notre filson l’a vendu sur son livret scolaire hein c’est + on l’a vendu dans trois collègesparisiens [IV-02]
4 La locutrice revient sur la brutalité de l’étiquette « école privilégiée » qu’elle pourrait
attribuer à une fiction d’énonciateur tenant du politiquement correct – soit
l’enquêtrice, soit le public virtuel des lecteurs de l’interview – avant de proposer un
« très bon niveau » qui induit une orientation argumentative moins négative.
5 Le dispositif d’enquête a aussi des effets en ce qui concerne le registre, question
centrale, lorsqu’il s’agit des interrogatives indirectes. Les locuteurs n’usent pas
librement de la variété qu’ils emploient dans leur milieu vernaculaire, si celle-ci
s’écarte sensiblement de la variété utilisée par l’enquêteur. Les traits pouvant être
perçus comme trop marqués sont inhibés au profit de traits où langue de l’interviewé et
langue de l’intervieweur convergent3 : enquêtés et enquêteur vont avoir recours à une
« langue commune ». Pour désigner cette variété, nous aurions pu utiliser la notion de
standard très employée en sociolinguistique, mais les entretiens s’en distinguent sur de
nombreux points. Nous conservons le terme standard pour renvoyer aux normes
sociales instituées, telles qu’on les trouve dans les grammaires et les dictionnaires. De
ce fait, le terme ne recouvre pas les normes émergentes déviantes que l’on rencontre
dans le corpus CFPP2000 – comme nous le montrerons à propos des interrogatives
indirectes. Le corpus ne peut davantage servir à décrire les différents vernaculaires
(français dit « des cités », jeux bilingues…) ou les argots de métiers qui circulent dans la
capitale. Il est centré sur la variété qui émerge dans la situation d’intercommunication
cadrée comme « Entretiens-sur-la-ville-de-Paris-recueillis-par-des-universitaires-et-
destinés-à-être-mis-en-ligne », une variété que les enquêtés jugent convenable dans
une situation où ils sont bien avertis que leurs discours seront diffusés dans l’espace
public, puisqu’ils doivent signer une autorisation de mise en ligne après anonymisation.
6 Pour résumer, le corpus permet d’aborder le comportement des locuteurs, en se
référant non pas aux prescriptions des grammaires et des dictionnaires (il s’agit
justement d’en mesurer l’efficacité) ou aux déclarations subjectives de ces locuteurs (on
Corpus, 15 | 2016
171
sait qu’elles sont souvent très normatives), mais en dégageant des « normes descriptives
», statistiques, qui correspondent à une description objective des comportements des
locuteurs. Dans la variété de CFPP2000, il s’agit d’un français oral, délesté d’un certain
nombre de traits communautaires, l’accommodement réalisé entre les deux partenaires
aboutissant à une variété qui présente une homogénéité suffisante pour qu’il y ait un
échange. Plutôt que d’une variété, il faudrait d’ailleurs parler d’un espace de variation,
où les locuteurs se rapprochent tantôt du pôle familier, tantôt du pôle standard. Le
corpus implique actuellement 58 locuteurs4. C’est dire qu’il n’est pas encore parvenu au
stade de la représentativité statistique. Toutefois, il ouvre sur la diversité des usages.
7 Les métadonnées permettent de tenir compte de la variation due à la situation sociale
des locuteurs. Ces renseignements a priori peuvent être utilement complétés par la
lecture de l’entretien afin de dégager les identités sociolinguistiques revendiquées par
les locuteurs qui peuvent influencer leurs comportements.
8 Le corpus CFPP2000 permet par conséquent d’observer la diffusion d’une forme en
tenant compte du sexe, de l’âge et du statut des locuteurs. Dans un corpus
synchronique, une progression en cours se repère notamment aux emplois plus
nombreux dans la jeune génération que dans la génération ancienne. Labov (1976) parle
à ce propos de changement en temps apparent.
2. Les percontatives ou interrogatives indirectes :critères de reconnaissance
9 Dans ce travail, nous laissons de côté le problème des rapports entre questions,
propositions relatives et interrogations indirectes. Nous ne discutons pas des choix
théoriques impliqués par l’usage de telle ou telle terminologie. Nous adopterons celle
de Le Goffic (1993), qui parle de percontatives. Nous savons bien que chaque terme
renvoie à une définition différente de ce type de structures, mais dans la mesure où le
lecteur peut identifier ce dont nous parlons, ce choix n’a pas paru trop gênant. Trois
critères de reconnaissance (cf. Lefeuvre 2006) nous ont permis de relever les
percontatives dans le CFPP2000 : le type de verbes introducteur, le type de mots en qu-
et le rôle de la préposition.
2.1 Une approche sémantique : le verbe introducteur
10 D’après R. Martin 1984, le verbe introducteur doit évoquer un univers de croyance et la
non-explication de la valeur de p dans la subordonnée5. Pour G. Serbat (1985 : 9) :
Le verbe introducteur n’a pas besoin d’être lui-même percontatif. Il suffit qu’il soitcompatible avec la conception ou l’énoncé d’une donnée problématique autrementdit il suffit qu’il appartienne aux classes larges « savoir » ou « dire ».
11 Le Goffic (p. 265), quant à lui, retient trois types de verbes : i) verbe d’action sur autrui
(demander), ii) verbes déclaratifs et iii) verbes de connaissance :
(2) les gens m’ont beaucoup demandé quand il est mort [14-01](3) donc je lui ai dit où il était [IV-01] (4) je sais pas où c’est [03-01]
12 B. Defrancq (2005, p. 170), signale, en repartant de la liste des verbes introducteurs
donnée dans L. Karttunen 1978, que les interrogatives indirectes « s’associent toutes à
des verbes référant d’une façon ou d’une autre à un procès qui a trait à l’information »,
Corpus, 15 | 2016
172
même si « l’inverse n’est pas vrai : tous les verbes de ce type ne s’associent pas à une
[interrogative enchâssée] ».
2.2 Les mots en qu-
13 Il se révèle parfois difficile de distinguer les percontatives des intégratives qui
regroupent relatives sans antécédent et circonstancielles en comme, quand, si, que. Pour
s’assurer qu’il s’agit bien d’une percontative, les grammairiens ont proposé différents
tests de substitution dont nous rappelons quelques-uns ci-dessous.
2.2.1 comment ≠ comme
14 D’après P. Le Goffic, le verbe introducteur percontatif accepte des subordonnées en
comment et non en comme (1993 : 45). Ainsi pour :
(5) je sais pas où c’est [03-01]
15 où peut être remplacé par comment et non par comme :
(6) Je sais pas comment c’est / *comme c’est
16 Ce qui montre que savoir se construit bien avec des percontatives.
2.2.2 quel
17 Le verbe introducteur percontatif accepte des subordonnées en quel (Le Goffic
1987 : 84)6 :
(7) je sais pas quel est cet individu
2.2.3 insertion de est-ce que
18 M. Pierrard ajoute le test de l’insertion de est-ce que dans la subordonnée. Si l’insertion
est possible, il s’agit d’une percontative (« interrogative indirecte », 1988 : 32) :
(8) je sais pas où on irait jouer au foot [KB-01](9) je sais pas où est-ce qu’on irait jouer au foot
2.3 L’intégrative et la préposition impliquée
19 L’intégrative (relative sans antécédent) dépend de la préposition impliquée par le verbe
introducteur, à la différence de la percontative ou interrogative indirecte :
(10) Je pense à qui tu sais (relative sans antécédent, ex. tiré de Léard 1992)(11) je ne sais (mm) même pas de quoi ils vivaient (interrogative indirecte, CFPP2000[14-02])
20 Cela dit, il existe des structures intégratives dont la préposition dépend bien du verbe
de la subordonnée :
(12) C’est à quoi je pense (ex. tiré de Lefeuvre 2006 : 151)
21 D’autre part, dans le discours informel, ces tests sont moins pertinents. Ainsi peut-on
trouver est-ce que dans des subordonnées qui ne sont pas ici des percontatives mais des
intégratives (ou relatives sans antécédent) basées sur la structure de clivées :
(13) je suis déjà allé où est-ce que j’ai envie d’aller [SO-02](14) tu entendras pas quelqu’un dire : “c’est qu’est-ce que je t’ai dit” [12-02](15) je pensais plutôt à qu’est-ce qui se passe dans la cour de récréation [11-02]
Corpus, 15 | 2016
173
22 En effet, les verbes aller, être, penser n’introduisent pas de percontatives et ne peuvent
pas se construire avec quel :
(16) *Je suis déjà allé dans quel lieu tu es allé*C’est dans quel lieu tu es allé*Je pensais à quel lieu tu es allé
23 En outre, certains verbes comme parler peuvent être pris comme des verbes
introducteurs de percontatives, alors qu’ils ne le sont pas dans un discours standard.
C’est ce que l’on a dans cet exemple qui renferme est-ce que et qui est proféré d’un seul
tenant, sans pause ni décrochage intonatif, ce qui aurait pu faire penser à un abandon
de construction et un redémarrage avec une interrogative directe. Il faut donc
considérer qu’il s’agit d’une subordonnée dépendant du verbe parler et introduite par
comment :
(17) parler comment est-ce qu’on vit euh + comment est-ce qu’on vit en tant que Parisienneavec euh voilà avec deux enfants [11-01]
24 D’après ces deux indices (présence de comment et de est-ce que), il s’agit d’une
interrogative indirecte mais le verbe parler n’est pas un verbe reconnu comme un verbe
introducteur de percontatives en français standard. Nous avons le choix entre deux
types d’analyse : soit il s’agit d’un verbe qui est transformé en verbe introducteur de
percontative, proche de dire, soit il s’agit d’une subordonnée qui est une intégrative
adverbiale (circonstancielle en comment), paraphrasable par de la façon dont on vit (cf.
Lefeuvre 2009).
25 Voyons à présent quels types de percontatives figurent dans le CFPP2000.
3. Les types de percontatives dans le CFPP2000
26 Cinq types d’interrogatives indirectes apparaissent dans le CFPP, avec des fréquences
variées.
3.1 Les percontatives attendues selon les grammaires du françaisstandard
27 Il s’agit des percontatives qui se présentent sans inversion, sans est-ce que, avec le mot
en qu- en début de subordonnée, comme elles sont décrites par exemple dans Riegel et
al. 2009 (838).
28 Deux schémas sont attestés dans le CFPP. Le schéma S-V :
(18) je sais pas où c’est chez (Özgur [H 32 ans, élevé dans le 3e arrondissement, 03-01])(19) et et quand on sait où d’où on vient on se dit “je suis là j’ai beaucoup de chance”[Pierre-Marie Simo, H 34 ans, Camerounais d’origine, arrivé en France, dans le 18e
arrondissement populaire, à 9 ans, 18-01]
29 Et le schéma avec postposition du GN sujet :
(20) je sais pas où est la préfecture [SBR enq, F, 65 ans]
30 Nous n’avons pas relevé toutes les structures standard car leur décompte aurait
nécessité de faire des requêtes longues pour chaque verbe introducteur, mais elles sont
bien attestées et chez des locuteurs d’origine sociale variée (cf. plus bas le sondage pour
les percontatives introduites par je (ne) sais pas).
Corpus, 15 | 2016
174
31 Il y a ainsi 11 occurrences de je ne sais pas ce que chez des locuteurs jeunes comme Paul
Simo, âgé de 18 ans (je sais pas ce que je vais faire, [18-01]), et chez des locuteurs âgés
comme J. Pelletier qui vit en banlieue et a un faible bagage scolaire (je sais pas ce que la
vie me réserve [IV-01]).
3.2 Les percontatives en est-ce que
32 Cette structure, refusée par les grammairiens normatifs, est également bien ancrée
dans les usages des locuteurs parisiens. Le CFPP2000 comporte 27 percontatives en est-
ce que. Les verbes introducteurs se répartissent dans les trois catégories signalées plus
haut :
33 – type demander (4 exemples) :
(21) ils me demandent un peu euh + + où est-ce que j’aime bien aller dîner machin et tout +(Raphaël Larivière, H. 23 ans, vit dans le 7e, quartier le plus bourgeois de Paris,étudiant en médecine [07-04])
34 – type dire, énonciation (3 exemples) :
(22) vous ne signalez pas qu’est-ce que vous faites (Thérèse Le Vern, F 70 ans, enfancejusqu’à 10 ans, île de la Réunion [12-03])
35 – type savoir, épistémique (20 exemples) :
(23) euh c’est vrai que quand on s’cachait derrière les voitures on prenait rapidementl’réflexe de regarder où est-ce qu’on se cachait (Özgur, H. 32 ans, ingénieur du son pourl’audiovisuel, élevé à Paris dans le 3e arr. [03-01])
36 Le verbe introducteur le plus fréquent est savoir (11 occurrences), qui apparaît
massivement avec la négation : 7 je sais pas, 2 je sais plus ; contre seulement 2 savoir
affirmatifs, comme dans l’exemple cité plus haut. L’affinité entre la négation et la
structure en est-ce que est un bon indicateur d’une probable influence de l’interrogative
indépendante. La forme affirmative du verbe savoir n’a pas de signification
interrogative et, dans ce cas, le locuteur a tendance à ne pas s’aligner sur
l’interrogative directe en est-ce que. Au contraire, lorsque, sémantiquement, ne pas
savoir exprime une question, le locuteur adopte davantage la structure syntaxique en
est-ce que, caractéristique de la question.
37 Même si cette structure n’est pas répertoriée dans les grammaires ou est considérée
comme ne relevant pas du bon usage (Riegel et al., 2009 : 838), elle existe depuis au
moins quatre siècles. De grands auteurs du XVIIe siècle en ont usé sans soulever la
réprobation des puristes de l’époque :
(24) Il faut voir de quoi est-ce qu’elle est malade (Molière, Le Médecin malgré lui)(25) me demandant qu’est-ce que c’était que des tambours qui battaient (Cardinal de Retz,ex. tiré de Lefeuvre 2014) (26) Dites-nous qui est-ce que nous pouvons choisir pour notre roi (Fénelon, ex. tiré deLefeuvre 2014)
38 Plusieurs linguistes, comme B. Defrancq (2000, p. 135 pour Corpaix) ou C. Blanche
Benveniste (1997, p. 41), signalent que la structure est bien attestée dans d’autres
corpus. C. Blanche Benveniste estime même qu’on ne devrait plus parler de faute à son
propos. Dans le même sens, nous notons que, sauf exception7, les locuteurs, en usent
sans se corriger. Le type « standard » est cependant le plus fréquent, ce que permet
d’observer la comparaison d’énoncés introduits par je (ne) sais pas, structure dont nous
avons dit qu’elle favorise est-ce que :
Corpus, 15 | 2016
175
Tableau 1. Fréquence des percontatives
Percontatives suivant l’ordre S-V
(ou VS)
Percontatives renfermant est-
ce qu-
je (ne) sais pas qui 4 1
je (ne) sais pas où 7 3
je (ne) sais pas pourquoi 8 0
je (ne) sais pas comment 23 0
je (ne) sais pas ce qu- /qu’est-
ce qu-24 2
je (ne) sais pas quand 0 0
total 66 6
39 Je (ne) sais pas quand n’apparaît pas dans le corpus, mais en revanche nous avons trouvé
un exemple avec l’introducteur je sais même plus :
(27) je sais même plus quand est-ce qu’il est devenu à la mode [Anita Musso, 46 ans,licence, auxiliaire de vie a grandi dans le 11e, 11-01]
40 Il faut noter l’influence des mots en qu-. Où favorise l’emploi de est-ce que. Comment et
pourquoi l’inhibent.
3.3 Les percontatives qui renferment deux mots en qu-
41 Seulement deux exemples de ce type ont été répertoriés, tous avec comment :
(28) je sais pas comment que ça se passe dans les autres pays + mais je trouve qu’en(Valentine Testanier, 60 ans, [12-03])(29) moi ce qui m’intéressait et ce qui m’intéresse toujours + + c’est + l’humain + le vécu desgens (mm) savoir comment qu’on va pouvoir les + les sortir de cette foutue merde + où on esten ce moment (mm) (Jacqueline Pelletier, 65 ans, [IV-01])
42 Nous n’avons pas trouvé d’exemples en quand qu- ni où qu-. Notons que ce schéma est
également rare en ce qui concerne les interrogatives (directes). Nous n’en avons trouvé
dans le CFPP que cinq, produites par le même locuteur (cf. Lefeuvre & Rossi-Gensane,
2015) :
(30) comment que c’était j’en sais rien (Marie-Hélène Matera, 67 ans, secrétaireretraitée, enfant d’immigrés italien, [MO-02])(31) et ben y a eu euh euh comment qu’il s’appelle + aidez-moi Mireille (Marie-HélèneMatera, [MO-02])(32) + qui fabriquait bon euh comment que ça s’appelle ben des bougies (Marie-HélèneMatera, [MO-02])(33) dans les dans les autres unités par exemple dans la distribution ou dans : comment queça s’appelle la distribution puis l’autre c’est quoi déjà ? bougies (Marie-Hélène Matera,[MO-02])(34) si un souvenir me me me tente tu sais des fois un vieux moulin à la main là commentque ça s’appelle (Marie-Hélène Matera, [MO-02])
Corpus, 15 | 2016
176
43 Dagnac (2014) rappelle la forte stigmatisation de ce type de structure qui serait en
déclin. Defrancq (2005) n’évoque pas ce schéma pour les percontatives. Ce schéma
semble bien inscrit en langue, puisque l’on peut trouver quelques percontatives en
comment que à l’oral représenté (3 occurrences de sais pas comment que, toutes 3 sur la
première moitié du XXe siècle) :
(35) J’sais pas comment que tu te démerdes, mais t’es toujours d’attaque ! (Frantext, Genet,le Miracle de la rose, 1947)(36) Je ne sais pas comment que ça se fait. (Frantext, Péguy, Le Mystère de la charité deJeanne d’Arc, 1910)
Ce type de percontative est attesté sur Frantext à partir de 1879,(37) Dis-moi un peu comment que tu t’y prendrais ! (Huysmans, Les Sœurs Vatard, 1879)
les dernières occurrences trouvées datant de 1966 :(38) Ceux d’entre nous qui avaient encore la force de parler se soulevèrent sur un coude etdemandèrent comment que ça s’était passé. (Pérec, Quel Petit Vélo à guidon chromé aufond de la cour ?, 1966)
44 On peut donc faire l’hypothèse que ce schéma, pour les percontatives, est effectivement
en déclin.
45 En revanche, il est davantage présent dans le CFPQ (corpus de français parlé québécois
de 471 575 mots) ; pour les interrogatives (directes), 18 exemples sur les 50 relevés avec
comment en position frontale adoptent cette structure (cf. Lefeuvre & Rossi-Gensane,
2015) :
(39) comment qu’ils appellent ça dans les bu un bureau de travail/ là dans les::: (CFPQ,sous‐ corpus 15, CFPQ)
et nous avons trouvé 11 exemples de percontatives amorcées par comment que :(40) hum hum hum hum hum hum hum et pour dire hein que tu sais pas comment que ça çapeut brimer un enfant (sous-corpus 20, CFPQ)
3.4 Les percontatives avec inversion
46 F. Gadet (1997, 108) relève des énoncés comme :
(41) Je me demande quand part-il
47 Ce type d’énoncés avec inversion semble typique de conduites d’hypercorrection. Le
locuteur en « fait trop » : il essaie de produire une forme d’interrogation qui relève d’un
usage soutenu en inversant le verbe et le sujet, mais en alignant la percontative sur la
forme la plus normée d’interrogative, il oublie qu’il n’y a pas d’inversion dans la
subordonnée. De fait, on entend parfois ces formes à la radio ou à la télévision et on les
trouve à l’écrit dans des copies d’étudiant. Dans la situation d’enregistrement du
CFPP2000, les locuteurs n’ont pas jugé utile d’avoir recours au registre le plus soutenu.
De fait ces structures ne sont pas attestées.
3.5 Les percontatives avec le mot en qu- in situ
48 Nous avons relevé seulement deux exemples de percontatives in situ dans le CFPP2000,
et tous les deux chez des locuteurs d’origine maghrébine qui vivent dans des cités
ghettoïsées de la même banlieue populaire, Saint-Ouen :
(42) euh il me dit “ben écoute t’as encore trois trois autres entretiens entretien médicalpsychologique et un autre entretien je sais plus c’était quoi la fin et plus un test un test [mm]euh + un test un questionnaire (Youcef, 29 ans, actuellement sans emploi, titulaire d’unmaster de géographie, [SO-02])
Corpus, 15 | 2016
177
(43) non juste le le le le montrer euh euh la la la vie c’est quoi euh de se lever à six heures[mm] du matin récurer les toilettes avec les brosses à dents euh (Abdel, 25 ans,manutentionnaire au journal Le Parisien, CFPP2000, [SO-02])
4. Analyse des données
49 Le tableau ci-dessus montre que de nombreux locuteurs du CFPP2000 alternent entre
deux variantes de percontatives qu’ils traitent comme appartenant toutes les deux à la
langue commune. Les interrogatives indirectes en est-ce que ne sont pas cantonnées à
un type de locuteur. On les trouve par exemple chez R. Larivière, un étudiant en
médecine de 23 ans, qui habite le quartier le plus bourgeois de Paris, le 7e :
(44) Je sais pas où est-ce que je vais
50 et dans la bouche de M. L. Orsin, qui a grandi dans le 11e (un quartier assez populaire),
mais qui est fille d’instituteur et qui est elle-même devenue professeure des écoles,
métier en rapport avec la transmission des normes linguistiques :
(45) Je sais pas où est-ce que vous auriez été.
4.1 Les formes in situ et l’influence des français périphériques
51 En revanche, ce n’est pas le cas des percontatives in situ. Les deux formes répertoriées
proviennent de locuteurs jeunes qui ont grandi dans la même banlieue défavorisée :
(46) euh il me dit “ben écoute t’as encore trois trois autres entretiens entretien médicalpsychologique et un autre entretien je sais plus c’était quoi la fin et plus un test un test [mm]euh + un test un questionnaire (Youcef, 29 ans, actuellement sans emploi, titulaire d’unmaster de géographie, [SO-02])(47) non juste le le le le montrer euh euh la la la vie c’est quoi euh de se lever à six heures[mm] du matin récurer les toilettes avec les brosses à dents euh (Abdel, 25 ans,manutentionnaire au Parisien [SO-02])
52 Des exemples relevés à la volée montrent qu’il s’agit d’une structure que l’on entend
chez d’autres locuteurs d’origine maghrébine. L’exemple suivant est prononcé par une
femme de ménage d’origine algérienne dans un entretien en cours de transcription :
(48) quand il manque des bonbons vous savez c’est qui (adulte, Samia, originealgérienne, 49 ans, scolarité jusqu’en 6e, arrivée en France à 22 ans)
53 En français hexagonal, cette structure apparaît chez de jeunes enfants, mais a toutes les
chances de disparaître par la suite, lorsqu’ils appartiennent à des milieux favorisés :
(49) tu sais son nom de famille c’est quoi (enfant d’enseignant, 4 ans)(50) je sais c’est qui mes copines (enfant d’enseignant, 8 ans)
54 Elle a cependant été observée chez des élèves plus âgés qui sont scolarisés dans des
établissements classés en Zone d’éducation prioritaire (Paris, CM2 / 6e). On en trouve de
nombreuses attestations dans un corpus rassemblé par B. Lesort (2002) qui a été
recueilli dans une école très ghettoïsée de Paris : presque tous les parents des classes
observées viennent d’Afrique Noire, d’Asie ou du Maghreb. La plupart des percontatives
utilisées par les enfants (prononcées sans pause, ni rupture intonative d’aucune sorte)
sont des formes in situ :
(51) je sais pas c’est quoi (Abdoulay)(52) je sais pas c’est comment (Idriss)(53) je sais pas c’est combien d’heures techno (Idriss)(54) y’a piscine, techno, après je sais pas y a quoi là-bas (Idriss)(55) je sais pas ça veut dire quoi (Malamine)
Corpus, 15 | 2016
178
(56) je demande à la maîtresse si j’ai pas compris, elle m’aide après elle me dit c’est quoi,après elle m’explique (Malamine)
55 Une comparaison avec d’autres corpus d’oral spontané permet de mieux situer les
emplois du CFPP2000. D’après Defrancq (2005), Corpaix ne renferme pas ce type
d’exemples. Nous n’en avons pas trouvé non plus dans OFROM.
56 En revanche, ils sont nombreux en français québécois. Le corpus CFPQ recueilli par
G. Dostie en comporte beaucoup : Pour les seuls sous-corpus 17, 18, 19, nous avons
relevé 12 percontatives de ce type :
(57) ils savent c’est quoi t’sais (CFPQ, sous-corpus 19)(58) t’as dit c’est quoi c’est Good lu- (CFPQ, sous-corpus 17)(59) mais les gens justement ils le savent PAS c’est quoi (CFPQ, sous-corpus 19)
57 G. Ledegen (2007) signale l’existence de ce type d’exemples dans le français de la
Réunion, et E. Biloa, dans le français du Cameroun. Il note ainsi qu’ils sont « nombreux
chez les écrivains camerounais transcrivant le français oralisé / oral », et cite par
exemple (Nganang, 2001 : 23).
58 En 2015, des témoignages littéraires ou tirés du Net indiquent que les percontatives in
situ suscitent facilement des jugements négatifs en France, comme le montrent les deux
exemples suivants.
59 Le premier provient d’une pièce de théâtre de la Comédie Saint-Michel. Le personnage
du loup emploie cette structure, alors que le Petit Chaperon rouge propose la variante
acceptée par la norme :
(60) — j’sais pas c’est qui (le loup) — je ne sais pas qui c’est (reprise par le petit chaperon rouge) (Le petit Chaperon rouge,avril 2014)
60 L’auteur stigmatise le loup en lui faisant parler une langue incorrecte.
61 De même, sur Internet, un internaute, pour railler l’inculture de Nabilla, une vedette de
téléréalité qui, semble-t-il, ignore qui est Jean Valjean8, résume son registre de langue
par une percontative in situ :
(61) www.public.fr ›. Les Anges de la téléréalité 4 : Nabilla : “Je connais Jean Valjean mais jesais pas c’est qui, c’est un clochard ?”
62 L’inculture de Nabilla est, semble-t-il, rendue encore plus manifeste par cette
stylisation syntaxique.
63 Un autre message montre bien la différence d’évaluation des deux formes, puisqu’un
commentateur, qui se voit comme un redresseur du mauvais français, fustige l’emploi
de « je sais pas c’est quoi » et, ce qui ne manque pas de piquant, semble recommander
l’usage de « qu’est-ce », sans prendre soin de différencier indépendante et enchâssée :
(62) à propos de je sais pas c’est quoi : heavendoor ns Forumeur alchimiste, 49 a C’est ladifférence entre la langue écrite et parlé… C’est vrai que toutes les langues évoluent… pastoujours dans le bon sens d’ailleurs… Normalement à la place de “c’est quoi” nous devrionsdire et écrire “Qu’est –ce ?” forme interrogative… (Coups de blues - FORUM Ados-Santeforum.ados.fr)
4.2 Hypothèses
64 Comment expliquer l’apparition des percontatives in situ, et quelle évolution future
pouvons-nous prévoir ? Nous pouvons proposer des hypothèses complémentaires. Et
non exclusives.
Corpus, 15 | 2016
179
4.2.1 Une évolution naturelle du français
65 Les percontatives in situ semblent assez récentes en français hexagonal : B. Conein et
F. Gadet ont écrit qu’elles appartiennent aux « traits populaires héréditaires » (1998,
p. 121), mais nous n’en avons trouvé aucun exemple dans les textes des XVIIe siècle - XXIe
siècle de la base Frantext.
66 Parallèlement, ce n’est qu’à partir des années 1930 que l’on repère dans Frantext des
interrogatives indépendantes où le syntagme interrogatif est in situ : 500 exemples de
c’est quoi, de 1970 à nos jours vs 37 exemples de 1927 à 1970 et 1 seul exemple (1881) de
1600 à 1926 :
(63) C’est quoi, ton boulot ? (Arnaud Claude, Qu’as-tu fait de tes frères ?, 2010, Frantext)
67 On pourrait dès lors se demander si les percontatives in situ ne constituent pas une
étape qui suit logiquement le développement des interrogatives indépendantes in situ
que le corpus Frantext permet de documenter surtout à partir de 1927 : on pourrait
prévoir que, dans une échéance plus ou moins longue, s’installeront dans tous les
registres du français des percontatives in situ.
68 Dans la lignée des explications de H. Frei (1920), on peut noter que l’alignement des
percontatives sur les interrogatives directes va dans le sens d’une plus grande
expressivité et d’une plus grande économie. La forme en est-ce que a l’intérêt d’être
pragmatiquement marquée (et dans un premier temps) de produire un effet d’emphase9
; d’autre part, les structures des percontatives s’alignent sur les structures des
interrogatives (directes), ce qui permet aux locuteurs d’unifier leurs façons de poser
des questions.
69 De même que les interrogatives en qu’est-ce que ont pu donner des percontatives en
qu’est-ce que (cf. plus haut), de même les interrogatives in situ aboutiront logiquement à
des percontatives in situ.
70 Les percontatives ne sont pas dans ce cas introduites par un mot subordonnant ;
l’absence d’élément introducteur « subordonnant » n’empêche pas la relation de
dépendance entre la proposition enchâssée et le verbe introducteur mais leur
subordination s’établit en discours. Cela peut suggérer que les percontatives
canoniques, du type :
(64) bon on sait quand quelqu’un a besoin de quelque chose [IV-01]
71 s’établissent également en discours et que quand n’est pas en fait subordonnant dans
cet emploi (cf. Le Goffic 1993 : 43 : « la subordonnée, enchâssée directement, conserv[e]
un caractère proche d’une indépendante »).
4.2.2 Renforcement du phénomène
72 Ce développement récent est peut-être renforcé par l’immigration massive qui a eu lieu
en France à partir des années 60. La présence de cette structure dans les français
périphériques (français de la Réunion, du Québec, Cameroun) peut s’expliquer elle-
même par une tendance à la parataxe plus forte dans les usages périphériques ou par
l’influence qu’ils auraient reçue des français régionaux (mais les attestations
manquent).
Corpus, 15 | 2016
180
4.2.3 La question de la rapidité des changements en cours
73 Nous serons prudentes pour faire des pronostics sur l’évolution. D’une part, la
percontative en est-ce que et le tour normé coexistent depuis trois siècles au moins.
Cette coexistence constitue un exemple de plus des variations sur la longue durée
constatables dans toutes les langues. Le langage est par nature hétérogène et comporte
beaucoup de variations semblables. Il n’y a donc pas de raison de supposer un
effondrement proche et d’ailleurs, dans le CFPP2000, les occurrences normées semblent
dominer.
74 Pour autant, l’usage des structures in situ – qui permettent elles aussi d’aligner les
percontatives sur les structures directes – devrait se poursuivre. Le seul frein que l’on
peut imaginer est celui de la pression scolaire. Jusqu’à récemment, l’institution scolaire
cherchait à imposer des formes de subordination « classique » où un subordonnant
marquait la frontière entre un élément introducteur et un élément enchâssé et
indiquait la relation de dépendance entre les deux. Cet idéal est évidemment troublé
par les cas où l’on observe une relation de dépendance entre une proposition enchâssée
et le verbe dont elle dépend en l’absence d’élément introducteur, ce qui conduit jusqu’à
aujourd’hui à stigmatiser ces formes.
5. Conclusion
75 En 2014, les interrogatives indirectes en « est-ce que » font partie du français commun
que décrit CFPP2000. Les interrogatives indirectes in situ sont encore aux marges du
système, comme l’indique le fait que leur usage suffit pour caricaturer un locuteur sur
Internet.
BIBLIOGRAPHIE
Bell A. (1984). « Language Style as Audience Design », Language in Society 13 : 145-204.
Biloa E. Des traits syntaxiques et morphosyntaxiques du français au Cameroun, www.unice.fr/bcl/
ofcaf/27/BILOA.pdf.
Blanche Benveniste C. (1997). Approches de la langue parlée en français. Paris : Ophrys.
Branca-Rosoff S. (2015). « Dieu est dans les détails. L’expression entre guillemets et ses usages »,
in J. Angermuller & G. Philippe (dir.) Analyse du discours et dispositifs d’énonciation. Autour des
travaux de Dominique Maingueneau. Limoges.
Branca-Rosoff S., Fleury S., Lefeuvre F. & Pires M. (2012). Discours sur la ville. Présentation du Corpus
de français parlé parisien des années 2000 (CFPP2000). cfpp2000.univ-paris3.fr/Corpus.html
Corpus de français parlé au Québec (CFPQ), dir. Gaétane Dostie, CATIFQ, Université de Sherbrooke,
2006. http://re-cherche.flsh.usherbrooke.ca/cfpq/
Corpus, 15 | 2016
181
Dagnac A. (2014). « La variation des interrogatives en français », https://hal.archives-
ouvertes.fr/hal-00988751, document préparatoire pour la GGF (Abeillé & Godard).
Defrancq B. (2005). L’interrogative enchâssée, Structure et interprétation. Bruxelles : De Boeck
Duculot.
Defrancq B. (2000). « Un aspect de la subordination en français parlé : l’interrogation indirecte »,
Études romanes 47 : 131-141.
Frei H. (1929). La Grammaire des fautes. Genève : Reprints Slatkine.
Gadet F. (éd.) (1997). La variation en syntaxe (= Langue française, 115). Paris : Larousse.
Hadermann P. (1993). Étude morphosyntaxique du mot où. Paris/Louvain-la-Neuve : Duculot.
Karttunen L. (1978). « Syntax and semantics of questions », in Hiz H. (éd.) Questions. Dordrecht :
D. Reidel.
Léard J.-M. (1992). Les Gallicismes, Étude syntaxique et sémantique. Paris/Louvain-la-Neuve : Duculot.
Ledegen G. (2007). « L’interrogative indirecte in situ à la Réunion : elle connaît elle veut quoi », in
A. Abecassis et al. (éd.) Le français parlé du XXIe siècle : normes et variations géographiques et sociales.
Lefeuvre F. (2015). « Analyse grammaticale et sur corpus de l’expression c’est quoi (?) », in Dostie &
Hadermann (éd.) La dia-variation en français actuel. Études sur corpus, approches croisées et ouvrages de
référence. Bern : Peter Lang, coll. Sciences pour la communication, 39-62.
Lefeuvre F. (2006). Quoi de neuf sur quoi ?. Rennes : PUR.
Lefeuvre F. (2009). « Catégorisation de comment subordonnant », Travaux de linguistique, Études
sur comment 58 : 63-88.
Lefeuvre F. (2014). Étude grammaticale du français classique à partir de textes. PSN.
Lefeuvre F. & Rossi-Gensane N. (2015). « Interrogation », in P. Larrivée & F. Lefeuvre (dir.) Projet
Fracov. http://www.univ-paris3.fr/index-des-fiches-227311.kjsp? RH=1373703153287
Le Goffic P. (1993). Grammaire de la phrase française. Paris : Hachette.
Le Goffic P. (1987). « Sur l’ambiguïté des relatives / interrogatives indirectes en ce qui, ce que », in
Fuchs (éd.) L’Ambiguïté et la paraphrase : opérations linguistiques, processus cognitifs, traitements
automatisés. Centre de publication de l’Université de Caen, 83-88.
Lesort B. (2002). « Entretiens semi-directifs réalisés avec une classe de CM2 », in E. Bautier,
S. Branca-Rosoff & J.-P. Terrail, Décrochage scolaire : genèse et logique des parcours. https://
halshs.archives-ouvertes.fr/halshs-00808806
Martin R. (1985). L’Interrogation comme universel du langage.
Nganang A. P. (2001). Temps de chien. Paris : Serpent à plumes.
Pierrard M. (1989). La Relative sans antécédent. Louvain : Peeters.
Serbat G. (1985). « Le verbe introducteur de la subordonnée interrogative en latin », in Valentin
(éd.) L’Interrogation. Presses de l’Université de Paris-Sorbonne, 3-16.
NOTES
1. Avec le soutien de la Ville de Paris, de la DGLFLF et, récemment, d’Ortolang.
2. Voir Branca-Rosoff, 2015.
Corpus, 15 | 2016
182
3. Voir les théories de l’accommodation développées tout d’abord par A. Bell, 1984.
4. Ce faible nombre s’explique parce que nous avons préféré transcrire des entretiens longs
(souvent de plus d’une heure) qui permettent entre autres de repérer des phénomènes
fréquemment attestés chez une personne.
5. Tantôt le locuteur est dans l’ignorance (je ne sais pas quand, où, comment, etc.) ; tantôt, il laisse
son interlocuteur dans l’incertitude en ne déterminant pas la valeur de vérité de p (je sais où,
quand, comment…).
6. Cf. également Hadermann, 1993 : 126-130.
7. À l’exception d’un locuteur universitaire qui se reprend après une amorce : « je sais pas
qu’est-ce qui te + quel axe euh est pour toi significatif » [SU-01].
8. Héros des Misérables, roman supposé connu de tous les collégiens français.
9. Foulet, 1919, a bien noté qu’en ancien français les formes qu’est-ce que, qui est-ce qui n’étaient
pas encore grammaticalisées et qu’elles avaient une valeur d’insistance qui a pu aider à leur
diffusion. Le même phénomène se reproduirait pour l’interrogative indirecte.
RÉSUMÉS
L’article permet de préciser quelques spécificités du corpus CFPP2000 et montre à partir de
l’exemple des interrogatives indirectes (percontatives) comment ce corpus peut contribuer à une
description de ce que nous appelons « la langue commune ». Dans un premier temps, nous
rappelons les choix qui ont présidé à la confection du CFPP2000. Puis nous examinons les types
d’interrogatives indirectes qui apparaissent dans le CFPP2000, avec des fréquences variées. Les
interrogatives indirectes selon la norme grammaticale dominent. Cependant les interrogatives
indirectes en « est-ce que » sont bien représentées et elles apparaissent chez des locuteurs de
toutes les origines sociales montrant que le corpus CFPP2000 ne se confond pas avec ce standard
des grammaires. En revanche, les percontatives in situ sont très rares et plusieurs indices
montrent qu’il s’agit encore de formes stigmatisées.
This paper gives some different points about the parisian french spoken corpora (CFPP2000) and
shows, from indirect interrogatives clauses (“percontatives”), how this corpora can be exploited
for a description of the “common language”. First, the choices of the making of the corpora are
mentioned. Then the diffents kinds of the indirect interrogatives clauses in the parisian french
spoken corpora are evoked. The indirect interrogatives clauses based on grammatical norm are
the more frequent. The indirect interrogatives clauses with “est-ce que” occur regularly in the
speeches of speakers of all social origins, what shows that the parisian french spoken corpora
differs from grammatical norm. On the other hand, the indirect interrogatives clauses in situ are
very rare; many clues show that they are stigmatized structures.
INDEX
Mots-clés : corpus, interrogative indirecte, percontative, langue commune
Keywords : corpus, indirect interrogative, percontative, common language
Corpus, 15 | 2016
183
AUTEURS
SONIA BRANCA-ROSOFF
SYLED, ED268, Paris 3 Nouvelle Sorbonne
FLORENCE LEFEUVRE
SYLED, ED268, Paris 3 Nouvelle Sorbonne
Corpus, 15 | 2016
184
Construire un corpus pour desfaçons de parler non standard :« Multicultural Paris French »Constructing a corpus for non standard ways of speaking: MPF
Françoise Gadet et Emmanuelle Guerin
1 L’observation de parlers non standard suppose un recueil de données illustrant des
pratiques réglées selon des normes locales, en marge des règles reconnues comme
légitimes. Afin de constituer un tel corpus, il faut commencer par questionner les
conditions auxquelles ces pratiques prennent place. L’opposition traditionnelle entre
situation formelle vs informelle (en supposant qu’on sache la circonscrire), suffit-elle à
garantir l’émergence de faits de langue marginaux ? Peut-on déterminer en amont les
types de locuteurs concernés ? Pour s’assurer que l’on a affaire à des données non
standard, la sélection de locuteurs et de situations d’interaction (entretiens avec un
chercheur, échanges entre pairs, prises de parole publique…) doit ainsi être
problématisée. Autrement dit, il n’est pas certain que l’identité des locuteurs dans
certains contextes suffise pour actualiser un type de parler donné. Partant, un corpus
de données non standard semble une entreprise à peu près irréalisable.
2 Nous présentons ici un corpus tenant compte de ces difficultés, MPF (Multicultural Paris
French). Si, comme les autres corpus, il n’est pas exempt d’a priori catégoriels (choix de
territoires socialement et géographiquement déterminés, choix de locuteurs), ceux-ci
sont réévalués au fur et à mesure de l’observation des données recueillies. Le projet a
été mis en place dans le cadre d’une ANR (09 FRBR-037-01, avec une contrepartie
britannique, Multicultural London English). Après la fin de l’ANR, le projet continue en
s’étant recentré sur le français et non plus sur la comparaison1. Le corpus ainsi
constitué en région parisienne récuse la sélection des enquêtés à travers les seuls
critères de catégories externes tels qu’ils sont assurés par la tradition de corpus
antérieurs ou par des points de vue privilégiant des quadrillages sociodémographiques,
où les questionnements sociolinguistiques ne sont pas constitutifs. On a ainsi fait en
Corpus, 15 | 2016
185
sorte que la réalisation d’un grand corpus soit un moment de réflexion théorique et
méthodologique, accordant une place centrale à la sociolinguistique.
1. Le corpus MPF, les principes à ses fondements, sesmodalités de recueil
3 Suite à l’immigration qu’a connue la région parisienne depuis la fin du XIXe siècle
(Noiriel, 2002 ; Blanc-Chaléard, 2001 ; Rabaud, 2014), on peut aujourd’hui parler d’une
« Île-de-France multiculturelle », qui se matérialise linguistiquement à travers des
effets de contacts de langues sur le français tel qu’il y est parlé. On peut ainsi
considérer ces effets comme relevant de formes non standard du français. Dans le droit
fil de réflexions de Labov (1972) ou de Kerswill (2010) sur les locuteurs innovateurs, on
considère que les phénomènes langagiers issus des effets du contact sont observables
dans les pratiques de locuteurs répondant aux critères : « jeunes », « de milieu modeste
ou populaire », « connaissant des contacts multiculturels réguliers ».
1.1 Des corpus antérieurs
4 Toutes les métropoles occidentales ont aujourd’hui affaire à une telle immigration et à
la présence (que l’on peut désormais considérer comme pérenne) de populations
influencées plus ou moins directement par d’autres cultures. De fait, des études
(socio)linguistiques sur ce thème ont été pratiquées dans plusieurs des métropoles
européennes, surtout d’Europe du Nord, où le phénomène est un peu plus ancien qu’au
sud (voir les travaux de Cheshire et al., 2011, sur Londres ; Wiese, 2013, sur Berlin ;
Kotsinas, 1998, sur Stockholm ; Quist, 2008, sur Copenhague ; Jaspers, 2008, sur Anvers…2). La France, quant à elle, a pris un gros retard dans l’étude des effets linguistiques
pouvant ainsi être induits sur le français, alors même qu’elle est l’un des plus anciens
pays d’immigration d’Europe (depuis la seconde moitié du XIXe siècle, où la plupart des
autres pays européens étaient des terres d’émigration). Le projet MPF a été constitué
avec l’objectif de contribuer à combler ce retard.
5 Ce n’est pas qu’il n’existe aucun corpus sur Paris, mais d’une part il y en a peu, d’autre
part ceux qui existent n’intègrent pas la question des contacts comme un facteur de
dynamique langagière. Parmi les quelques corpus sur la région parisienne (petits ou de
taille moyenne), les recueils de données ont en général été construits pour cibler un
seul aspect de la langue : soit le niveau phonique – voir Jamin (2004), Fagyal (2010) –,
soit le plan lexical – voir les nombreux dictionnaires, dont aucun ne s’appuie
réellement sur un corpus (en tous cas visible et publié), même si, dans le meilleur des
cas, ils mettent en jeu des relevés et des observations systématiques. Parmi les corpus
plus grands sur Paris, on peut évoquer le récent CFPP2000 (Branca-Rosoff et al., 2011).
Bien que constitué « en premier lieu pour étudier les modifications qui interviennent
dans ce qu’on peut considérer comme un parisien véhiculaire en tension entre le pôle
du standard et le pôle du vernaculaire », il exclut volontairement la question du
contact. Le corpus MPF adopte une autre position, puisque les effets du contact y sont
considérés comme constitutifs d’une forme de vernaculaire. Des corpus à objectifs
sociolinguistiques ont aussi été recueillis dans d’autres grandes villes françaises,
comme Grenoble (Billiez, 1992), Orléans3, Marseille ou Lille (Pooley, 2012)4 ; voir aussi
Jamin & Trimaille (2008), Jamin et al. (2006) pour des comparaisons entre villes.
Corpus, 15 | 2016
186
6 MPF s’inscrit ainsi dans le paysage des corpus de français avec un positionnement
original puisqu’il est multi-objectif et situe les contacts de langue comme intégrant la
réflexion sur la dynamique des pratiques langagières.
1.2 La méthodologie adoptée dans MPF
7 Pour constituer le corpus MPF, on a renoncé à la problématique du vernaculaire
théoriquement abordée dans l’opposition entre situations formelles et informelles
(Labov, 1972) pour privilégier la qualité des interactions entre les protagonistes, qui
correspondait mieux à nos hypothèses. Les options sous-jacentes à ce choix concernent
les facteurs susceptibles de produire de la variation et de la diversification langagières
dans une même langue : les facteurs décisifs relèvent-ils des situations ? Des genres ?
Des caractéristiques sociodémographiques des locuteurs ? Des interactions ? Ces
questions ne sont pas indépendantes les unes des autres, et la méthodologie adoptée
tient compte de leur imbrication.
8 Nous étions conscients du caractère partiel des réponses apportées par un quadrillage
sociodémographique (Eckert, 2012) et nous voulions acter dans le corpus même le fait
que la réalité sociolinguistique est bien plus complexe (Gadet & Guerin, 2012 ; Gadet,
2013). Les informateurs ont ainsi été sélectionnés sur réseaux, soit préalables aux
enregistrements, soit construits pour l’occasion à travers une immersion prolongée,
avec l’idée de se rapprocher de l’immédiat communicatif authentique, c’est-à-dire
d’interactions entre locuteurs entretenant une réelle connivence. La réflexion
méthodologique a ainsi débouché sur une démarche innovante, privilégiant la qualité
des échanges conversationnels et le contenu de ce qui est dit, plutôt qu’une illusoire
représentativité sociodémographique, quadrillant surtout des facteurs aisément
quantifiables en dichotomie ou en continuum, comme le sexe, l’âge, la classe sociale, et
éventuellement l’origine ethnique – tous facteurs dont il reste à montrer qu’ils
constitueraient bien une clef de la production de diversité langagière (voir Gadet &
Wachs, 2015, pour une critique de ce point de vue).
9 Bien que MPF joue aussi sur les identités pré-assignées par le chercheur (jeunes, de
milieux populaires, multiculturels), le profil des informateurs tient compte de
métadonnées éclairant notamment la relation préalable enquêteur/enquêté, et les
circonstances de l’enregistrement. C’est l’identité en interaction (Greco et al., 2014) qui
prévaut sur les caractéristiques objectivables et quantifiables. Quand cela a été possible,
on a fait faire, parallèlement à l’entretien (dit « de proximité » quand l’enquêteur est
parvenu à établir une interaction connivente), un enregistrement écologique 5 afin de
disposer de matériau pour étudier la variation intra-locuteur : il s’agit
d’enregistrements effectués en l’absence de l’enquêteur – parfois en sa présence, mais
sans qu’il se trouve alors en posture d’enquêteur (conversations entre pairs, non
provoquées). Toutefois, différents obstacles, plus ou moins prévisibles du point de vue
méthodologique, ont conduit à ce que le nombre d’enregistrements écologiques soit
plus réduit que celui des entretiens.
10 Le recueil du corpus a été soutenu d’une mise au point du vocabulaire, la plupart des
termes s’avérant problématiques, qu’ils soient issus de la réflexion linguistique, de la
reprise sociale (en particulier médiatique) ou encore d’ordre sociologique/
ethnographique : jeunes (si l’on convient que ce qui aboutit à de la différentiation
sociolinguistique dépasse largement le sociodémographique – voir Cheshire, 2005), la
Corpus, 15 | 2016
187
catégorisation ethnique qui tend à ne pas se dire (voir une critique de ce point de vue bien
français dans Lagrange, 2010), la caractérisation par le type d’habitat (banlieue, quartier,
cité, ghetto… et même le fréquent langue de la rue) ; mais aussi quant à la façon de parler :
langue des jeunes ou parlers jeunes… (voir Gadet & Hambye, 2014).
2. Le traitement du corpus
11 Il n’y a pas lieu de distinguer les exigences pour le recueil et celles des étapes du
traitement. Elles sont toutes intégrées à la réflexion qui oriente les choix
méthodologiques. Ces derniers étant le reflet du cadre théorique adopté.
2.1 En amont du recueil : les options méthodologiques
12 Tout recueil d’une certaine envergure confronte au fait que la qualité des données n’est
pas en dichotomie (entretiens en face à face vs enregistrements écologiques) : il y a des
continuums entre ces deux pôles, de plusieurs types, d’une complexité telle que les
effets n’en sont pas toujours convergents ni prévisibles.
13 Constituer un corpus multi-objectifs dont l’exploitation pourra concerner et des
phénomènes linguistiques et des contenus susceptibles d’une analyse de discours,
impose de songer non seulement à la qualité phonique des enregistrements (objectif
facile à atteindre avec les moyens actuels), mais aussi à des qualités intrinsèques du
discours, linguistiques, énonciatives, langagières et communicatives. On rend ainsi
possible le traitement de certains phénomènes, en croisant les points de vue (voir p. ex.
Guerin & Paternostro, 2013 ; ou Moreno & Paternostro, 2014).
14 Ce sont les exploitations morphosyntaxiques et discursives qui s’avèrent les plus
exigeantes pour la nature des données. Au-delà de l’évidente nécessité de diversifier les
genres discursifs pour garantir la diversité des productions (voir Blanche-Benveniste,
2010), on prendra les deux exemples d’exigences quant à la longueur et quant à la
complexité des séquences : pourquoi et comment chercher à obtenir du « discours
long » et du « discours complexe » ?
15 La sociolinguistique et l’analyse de la conversation ont établi qu’il y avait deux
occasions sociales privilégiées de production de discours long : les récits, où une
suspension conversationnelle autorise le locuteur en place à conserver la parole (voir p.
ex. Gülich & Mondada, 2001), et les argumentations. Une condition nécessaire mais non
suffisante est la longueur des tours de parole, réduite quand la parole circule vite, ce
qui est justement un indice de naturel dans la conversation ordinaire. Aussi, si l’on veut
étudier des phénomènes qui ne se manifestent qu’en discours long, il faut une collecte
ciblée. Maintenant, qu’est-ce que la longueur des séquences assure ? En tous cas pas la
diversité de phénomènes, et on peut de ce point de vue opposer les récits et les
argumentations/explications. Dans beaucoup d’échanges ordinaires, en effet, les récits
manifestent dans le format long des structures monotones, peu complexes. Ce sont
surtout les argumentations/explications qui peuvent recéler des structures complexes
et des imbrications. Mais il y en a peu dans la conversation ordinaire, car elles
répondent à des situations très particulières : discours didactique, recherche
d’explications spontanées ou sollicitées, provocation amenant à se justifier. On peut
voir à ce propos Blanche-Benveniste (2008) sur des spécialistes expliquant leur
expertise, et de nombreux exemples dans Blanche-Benveniste (2010). Lorsque l’on
Corpus, 15 | 2016
188
cherche à recueillir de la parole d’interactions en proximité communicationnelle,
obtenir des argumentations ou des explications est difficile, puisque ces situations
supposent une connivence et le partage d’un ensemble dense de savoirs et
d’expériences à l’origine de nombreux implicites.
16 Les entretiens n’excluent pas ces deux genres discursifs, surtout les récits. Thibault &
Vincent (1990 : 49), qui ont pratiqué des interviews pour le corpus de Montréal (1984),
soulignent que celles-ci tendent à produire des données « monologiques »,
contraignant l’occurrence de certaines formes. Cependant, il est difficile de corréler
cette tendance avec d’autres éléments en rapport avec la proximité/distance
communicationnelle, puisque le corpus est constitué d’entretiens traditionnels, avec
des locuteurs inconnus. Ainsi, si le genre discursif favorise l’apparition de tours de
parole longs, il reste à déterminer si d’autres paramètres peuvent rectifier la tendance :
la reconnaissance d’une connivence (comme la découverte au cours de l’entretien d’une
passion commune) aurait-elle un effet sur la production de monologues/dialogues ?
17 Quoi qu’il en soit, les modalités d’obtention des données sont liées aux attentes du
chercheur, une même propriété pouvant s’avérer qualité ou limite. Nous avons obtenu
beaucoup plus de récits, en particulier sur les rapports des jeunes avec la police, que
d’argumentations, ce qui n’est pas inattendu.
2.2 La transcription et l’état actuel du corpus MPF
18 La transcription a été effectuée sous Praat, par exigence d’alignement son-
transcription6. En droite ligne des travaux de Blanche-Benveniste, synthétisés en
particulier dans un article de 2003, on a renoncé à toute forme de trucage
orthographique7 (Cappeau et al., 2011 pour des précisions sur les choix de
transcriptions dans MPF). On peut dire, comme Baude & Dugua (2011 : 107) :
Nous avons adopté des principes de base généralement partagés à savoir unetranscription orthographique qui conserve les spécificités de l’oral (amorces,disfluences, répétitions, etc.), sans usage de la ponctuation, et avec la segmentationdes tours de paroles. (p. 105)
19 La transcription est ainsi regardée comme une notation facilitant l’accès à la source
sonore. C’est pourquoi la transcription de MPF ne cherche pas à représenter de
spécificités phoniques (voir aussi note 8).
20 Des conventions ont été établies pour les termes à la graphie peu ou pas du tout
stabilisée, en particulier pour les mots empruntés à l’arabe, pour lesquels on rencontre
jusqu’à trois ou quatre graphies différentes (par exemple zaama, aussi écrit zarma,
zaâma) : ces termes ont été répertoriés dans un petit lexique, utile tout autant pour les
transcripteurs que pour les réflexions sur le lexique (voir le point 3.1).
21 Le corpus comporte, en avril 2016, dans les 820 000 mots transcrits, révisés,
anonymisés, traduits quand il y a lieu, ce qui correspond à un peu plus de 60 heures
enregistrées. Sont considérées comme « finalisées » les données qui ont parcouru les
trois étapes de la transcription, la révision par un chercheur autre que le transcripteur
– parfois plusieurs, pour les enregistrements particulièrement complexes comportant
beaucoup de recouvrements de parole, et de l’anonymisation, pour le son et pour la
transcription. À terme, les données ainsi traitées seront mises en ligne à disposition de
la communauté scientifique. S’y ajoute une « traduction » de tous les termes considérés
comme « non-standard », qu’il s’agisse de verlan, d’argot ou d’emprunts, ces derniers
Corpus, 15 | 2016
189
provenant surtout de l’arabe (mots, parfois alternances codiques, quand l’enquêteur
parle lui aussi arabe) ainsi que de l’anglais – mais aussi des néologismes.
22 D’autres enregistrements ont été recueillis, et en sont actuellement à différents stades
de traitement. Il n’y a pour le moment pas d’annotations. Une vitrine en ligne montre
un extrait de 34 enregistrements8 : elle offre la possibilité d’écouter et de visualiser une
minute (son + transcription) d’une partie des enquêtes.
2.3 Les métadonnées et leur mise en fiches
23 Comme il est désormais de coutume, les enregistrements sont accompagnés des
consentements des enquêtés et de fiches de métadonnées, concernant à la fois les
locuteurs et les modalités d’enregistrement. Elles donnent accès à des renseignements
de différentes sortes : sociodémographiques, linguistiques et sur les circonstances de
l’enregistrement. Mais elles insistent surtout sur des facteurs autres que
sociodémographiques, qui renseignent sur la connivence des interactants lors de
l’échange. Elles donnent ainsi une idée, faute de pouvoir l’évaluer plus finement, de la
proximité communicationnelle entre interactants (informateur/enquêteur pour les
entretiens, informateurs entre eux pour les enregistrements écologiques).
24 On cherche ainsi à préciser les caractéristiques objectives des locuteurs et des
situations, de même que des spécificités de l’interaction. Dès lors, tous les items
n’appellent pas le même traitement dans les fiches de métadonnées : certaines
rubriques sont des questions ouvertes, laissant à l’enquêteur la liberté d’évaluer la
pertinence de certaines informations. Par exemple, indiquer que l’enquêteur partage
avec l’informateur un intérêt pour un style de musique, sans qu’ils entretiennent
d’intimité, peut s’avérer déterminant pour la proximité communicationnelle si le
thème de la musique est abordé. Inversement, un sujet inconnu de l’un des interactants
favorise la distance communicationnelle, même dans un échange entre proches (voir
Koch & Œsterreicher, 2001).
2.4 Classifier les enregistrements
25 Les enregistrements ont finalement été classifiés en 3 groupes, sur la base de la qualité
sonore perceptible (telle qu’elle peut être reconnue par un groupe d’évaluateurs de
l’équipe) : A) « entretiens traditionnels », B) « entretiens de proximité », et C) « corpus
écologiques » – à quoi ont été ajoutés des entretiens avec des « grands témoins »9.
26 La qualité du lien interpersonnel entre les protagonistes l’emportant sur tout autre
critère pour la sélection des enquêtés, les localisations géographiques ne sont pas
regardées comme prioritaires, et les enquêtés proviennent de 4 arrondissements
parisiens et de 27 villes de la couronne parisienne. On est ainsi très loin aussi bien des
monographies que des études de cas.
27 Si l’on peut distinguer entre ces trois types d’enregistrements, les frontières entre eux
ne sont pas étanches, et il a parfois été difficile de catégoriser, malgré les qualifications
fines des interactions. On peut citer l’exemple d’une conversation entre un membre du
projet, son conjoint et la sœur de ce dernier. A priori, cette situation aurait pu donner
lieu à un enregistrement de type B ou C. Mais l’incongruité de la présence de
l’enregistreur et du questionnement de l’enquêteur dans un contexte intime a conduit à
une production contrôlée, relevant plutôt du type A. De plus, dans un même
Corpus, 15 | 2016
190
enregistrement, il n’est pas rare que différents moments tendent vers des
catégorisations différentes. C’est pourquoi, si l’on maintient ce type de classement par
commodité, on n’ignore pas son caractère approximatif dans un continuum.
28 Le programme se prolongera avec la constitution d’une banque de données (en cours de
réalisation) qui retiendra des critères d’interrogation de trois ordres : 1) paramètres,
difficilement quantifiables, concernant la proximité/distance entre les interactants,
2) phénomènes linguistiques et langagiers, 3) aspects sociodémographiques (ville, âge,
sexe des interactants, origine ethnique…). L’architecture même de cette banque de
données reflète ainsi le fait que la priorité ne va pas aux paramètres
sociodémographiques en tant qu’ils constitueraient une clé de la diversification des
façons de parler : la complexité et l’intrication des différents facteurs doivent être
reflétées.
3. Quelques exploitations pour un corpus
29 Quant aux exploitations d’ores et déjà permises pour ce corpus, on en prendra quatre
exemples, en diversifiant les domaines et les auteurs. Ils concernent des thèses,
soutenues ou en cours, et/ ou des communications et articles. Les trois premiers
exemples portent sur des formes linguistiques, le dernier sur les représentations sur les
langues.
3.1 Plan lexical
30 Un premier domaine concerne le lexique, avec un inventaire et un classement de
termes d’argot, de verlan, d’emprunts et de néologismes. Il s’agit, au-delà de la
collection de mots, de tenter de dégager les matrices qui les sous-tendent et de les
comparer avec les dictionnaires, en particulier le Dictionnaire de la zone (collaboratif),
Keskiladi, Langue française bob, le Dico-des-mots (collaboratif), ou le Petit Momo.
31 L’étude d’un premier échantillon a montré que, selon le dictionnaire retenu pour la
comparaison, il n’y avait que de 35 % à 70 % des mots de notre corpus qui y figuraient,
certains mots du corpus (comme tchipage) n’apparaissant dans aucun dictionnaire. Ce
qui permet d’évaluer comparativement la qualité des dictionnaires, avec l’intérêt
d’exemples en usage pris dans un contexte large.
32 L’une des particularités du lexique ainsi recueilli concerne le traitement des mots
d’origine étrangère, qui ne sont pas regardés comme une classe à part. Ce choix reflète
un positionnement théorique quant aux effets des contacts de langues, renforcé par
l’étude du corpus. En effet, en écoutant les informateurs, il apparaît que l’usage de
termes d’origine étrangère ne relève le plus souvent pas de phénomènes de code-
switching ou de crossing, qui impliqueraient la conservation de leur valeur « ethnique »
initiale. Des termes comme wesh ou zaama, employés fréquemment par des
informateurs sachant l’interlocuteur arabophone (ou ayant un rapport avec l’arabe),
peuvent dans un même discours relever du code-switching ou constituer des marqueurs
discursifs d’une certaine forme de français, le « parler jeune ». En ce cas, wesh ou zaama
employés par des non-arabophones n’illustreraient du crossing que si les locuteurs
n’appartiennent pas au groupe des jeunes.
Corpus, 15 | 2016
191
33 Il semble plutôt s’agir d’usages relatifs à des éléments de l’environnement des
informateurs. En d’autres termes, ils ne sont pas à comprendre d’abord comme des
manifestations d’identité « ethnique » (réelle ou fantasmée), mais ils indexent
l’appartenance à un groupe de locuteurs du français, les jeunes, dont les normes
autorisent des formes non standard et innovantes, produits de la « distorsion » de
formes attestées (par exemple, le verlan), de la créativité de formes inédites ou du
détournement de formes provenant d’une autre langue ou propres à d’autres groupes
de locuteurs (comme le vieil argot). Le travail de Sandrine Wachs, Nacer Kaci, Nawal
Boussouira, Joanne Kanguara, Magali Floren et Zakia Ayadi a notamment été présenté
dans Wachs (2014), tentant d’établir l’extension de termes rencontrés dans MPF, de
points de vue à la fois régional et social.
3.2 Plan phonique
34 Un deuxième exemple concerne la prosodie de contours intonatifs montant-
descendant, réputés typiques d’un « accent banlieue ». Après l’annotation manuelle
d’environ 600 contours intonatifs extraits du corpus (ce qui est loin de constituer la
totalité de ces contours), Roberto Paternostro a pu montrer que, plutôt qu’à un contour
banlieue, on a affaire à un contour déjà repéré et bien attesté en français standard et
dans les usages ordinaires, où il est associé à l’expression de l’emphase. Ce qu’il y a de
particulier dans les usages des jeunes réside non dans la spécificité, mais dans la
fréquence, et dans les lieux d’apparition inhabituels de ce contour (voir Paternostro,
2013 et 2014 ; Paternostro & Goldman, 2014).
35 Une telle analyse a été rendue possible parce qu’on a pris des distances par rapport à la
précatégorisation des locuteurs, qui aurait poussé à intégrer ce contour à l’ensemble
des manifestations phoniques traditionnellement relevées pour caractériser les parlers
jeunes (voir Jamin et al., 2006), comme une certaine prononciation du r, qui selon
certaines interprétations aurait à voir avec la langue arabe. De même que ce r
renseignerait sur les influences multiculturelles des locuteurs concernés, la
surreprésentation des contours emphatiques pourrait être interprétée comme
l’expression d’une certaine violence verbale à l’image de la violence associée
communément aux pratiques des jeunes de banlieue.
36 Cependant, qu’il s’agisse d’influence de l’arabe (voir ce que nous avons vu pour le
lexique) ou de violence verbale dans une posture de mise en scène de « langue de la
rue », on peut se demander si ces interprétations ne risquent pas d’être orientées par
des a priori liés aux catégories sociales et/ou ethniques. Le corpus MPF a ainsi l’intérêt
d’étayer la possibilité d’autres interprétations, sur la base d’analyses objectives.
3.3 Morphosyntaxe et discours
37 Pour la morphosyntaxe et le discours, plusieurs exploitations sont en cours, comme le
recensement des formes verbales non conjuguées, à la fois l’inventaire (ken, marave, tèj,
il va graille…), le contexte où elles apparaissent et les contraintes que l’on peut dégager.
D’autres phénomènes syntaxiques notables concernent l’absence de clitique (comme
dans les exemples (1) ou (11)), des usages élargis de que comme en (2), ou son absence,
comme en (3) et (4), tous phénomènes déjà répertoriés dans différentes variétés de
français… D’autres phénomènes, que l’on qualifiera d’« émergents » faute de
Corpus, 15 | 2016
192
dénomination plus adéquate, concernent en particulier total, direct, obligé, grave, même
(pas), wesh, zaama, vas-y, perso (voir les exemples de (5) à (10)) :
(1) – vous faites la différence entre l’arabe littéraire et l’arabe marocain ? – non je fais pas (Wajih 4, 46410)(2) c’est bizarre que un français qui dit ça / que normalement ça doit être un arabe(Emmanuelle 2, 246) (3) moi le bled moi franchement ça fait longtemps je suis pas parti (Wajih 4, 244)(4) c’était la première fois ils y allaient (Wajih 4, 367)(5) parce que vas-y c’est un peu cher les billets et tout (Wajih 4, 254)(6) même pas je sais parler rebeu (Wajih 4, 953)(7) je sais pas c’est quoi zaama on fait trop de bruit je sais ap (Wajih 4, 1396)(8) moi perso comme j’ai dit moi ça sert à rien des longues études de toute façon(Wajih 4, 1914)(9) elles par contre ça les a grave aidées au niveau de l’anglais quoi (Aristide 2a, 292)(10) obligé à la rentrée d’octobre je me donne au moins une semaine pour oublier(Emmanuelle 4, 746)
38 On peut prendre l’exemple de genre, dans des emplois comme (11). Le nombre élevé
d’occurrences permettra d’affiner la connaissance des contraintes gouvernant ses
emplois : on en trouve par exemple 55 dans un enregistrement pris au hasard, Nacer 2,
qui dure 86 minutes :
(11) si une fois genre quelqu’un il te demande quelque chose et il voit que tu as del’argent et tu dis non j’ai pas ou je peux pas nananinanana après genre tu as uneréputation tout le monde sait que tu es tu es une radine (Nacer 2, 1651)
39 On rencontre aussi des phénomènes qui impliquent des tronçons d’énoncés plus vastes,
comme le discours rapporté (mode d’introduction, continuateurs – voir Moreno, 2014 ;
Guerin & Moreno, 2014, et ici-même les exemples (11) ou (12)), des interrogatives
indirectes sur le schéma des interrogations directes par intonation (exemples (7), (13)
ou (14)). MPF permet aussi de s’interroger sur des tendances à plus long terme de la
langue française, comme la gestion de certains accords morphologiques. Ainsi, un
travail a porté sur des cas de non-accord entre le sujet et le verbe (Benzitoun &
Cappeau, à paraître – ici, exemple (15)), supposant que le corpus MPF pourrait être
regardé comme du « français avancé » :
(12) une fois elle m’a dit euh ah non elle m’avait dit elle est où ta racli (Nacer 3, 393)(13) je sais même pas moi ça veut dire quoi (Wajih 4, 1004)(14) à chaque fois il me voit je sais ap il a quoi contre oim (Wajih 4, 1289)(15) genre les meufs qui dit je m’en bats les couilles (Roberto 2c, 386)
40 D’autres exploitations en morphologie et en syntaxe sont en cours de réalisation ou en
projet.
3.4 Les représentations sur la/les langue(s)
41 Enfin, du côté du contenu des enregistrements, et dans les enregistrements écologiques
et dans certains entretiens, nous nous sommes intéressés aux représentations sur les
langues et les identités qu’elles manifestent, qui ont d’évidents effets sur les pratiques
langagières : les discours tenus sur le français – en particulier sur la notion de « parler
normal », comme en (16), et ceux sur les langues d’origine, quel que soit le degré de
maîtrise par l’informateur :
(16) wallah je les ai pas traités je leur parlais normal wesh (Wajih 4, 4122)
Corpus, 15 | 2016
193
42 Ces pratiques sont crucialement adressées à un interlocuteur spécifiquement identifié,
comme le montre l’exemple d’un enregistrement où l’enquêteur, lui-même Algérien, se
trouve de plain-pied avec un Beur qui se dit algérien bien qu’il ne parle pas arabe et ne
soit jamais allé en Algérie (voir Gadet & Kaci, 2012 [2015]). Plusieurs des enquêteurs de
MPF étant des Maghrébins, il y a des effets pour des jeunes dont les origines
maghrébines appuient une identité en partie fantasmée (ils se disent souvent « rebeus »
et non « beurs »). On a ainsi exploré l’intrication de discours tenus sur les langues, en
particulier quant aux relations entre arabe et français. De façon générale, il apparaît
que les jeunes locuteurs, quelle que soit leur propre façon de parler, sont souvent
porteurs d’idéologie du standard dans leurs représentations du français, tout en
paraissant s’y opposer (ce qui revient à réasserter quelque chose par le fait même de le
mettre en cause – à la marge d’ailleurs ; voir Gadet & Guerin, 2015 ; Jaspers, 2011, sur
des jugements à propos du flamand dans une école de Gand).
43 Ces différents travaux et d’autres qui sont en cours visent à exploiter désormais les
possibilités de croisements entre les domaines.
4. Remarques conclusives : qu’est-ce que MPFmanifeste de spécifique ?
44 Le corpus MPF permet des réflexions qui n’auraient pas nécessairement pu prendre
place sur la base d’autres corpus.
45 Tout d’abord, à une étape de mise en place des conditions du recueil, MPF a été
l’occasion d’une réflexion sur le recueil de données, une préoccupation que les
linguistes ont trop souvent, dans l’élaboration de grands corpus, traité avec quelque
légèreté, ou comme une évidence ne méritant pas d’élaboration ; au contraire du souci
constant manifesté par les ethnologues dans l’élaboration de leurs données (voir p. ex.
les réflexions de Lepoutre, 2001, qui revient après coup sur son travail de 1997).
46 Au niveau de la collection de données et d’un point de vue avant tout formel, MPF
permet de disposer d’une ample documentation sur des catégories « émergentes » ou
« innovantes », en tous cas encore peu décrites – le terme émergent étant d’ailleurs à
manier avec précaution car difficile à définir, mais n’étant certainement pas à
confondre avec « nouveau » (qui ne serait guère adapté que pour le lexique, et
encore…). Il permet aussi de mesurer des contraintes sur des phénomènes déjà connus.
La pratique de recueil d’immédiat communicatif sur base de réseaux ouvre-t-elle l’accès
à des données différentes de celles qui sont recueillies dans des entretiens
traditionnels ? C’était en tout cas notre hypothèse. Maintenant, à quel(s) niveau(x)
linguistique(s) des effets se manifestent-ils ? Il apparaît impossible de répondre à cette
question – ce qui n’empêche pas de la soulever –, les entretiens n’étant pas réitérables
ad libitum afin de mesurer un éventuel « effet enquêteur »11.
47 L’empreinte de la sociolinguistique et de l’ethnolinguistique dans la réflexion sur MPF
est plus nette encore pour ce qui est de la considération des effets du contact des
langues. S’il apparaît en effet certain que les langues peuvent emprunter du lexique ou
des intonations d’une autre langue, il est moins évident – et cela demeure à
documenter – qu’il soit possible de « copier » des phénomènes phoniques segmentaux,
des faits syntaxiques et, probablement, encore moins des faits morphologiques. Il faut
ainsi se garder de sauter trop vite à l’hypothèse qu’on a affaire à des effets du contact,
Corpus, 15 | 2016
194
et confronter les phénomènes qui pourraient être des candidats à être traités comme
des emprunts à d’autres hypothèses, dont celle de l’évolution endogène. Toutefois, une
telle démonstration exigerait une documentation, à travers toute la francophonie, bien
plus solide que celle dont on dispose actuellement.
48 Enfin, MPF permet aussi de s’intéresser à ce qui est dit dans les enregistrements, au
contenu, au-delà du corpus conçu comme un « réservoir de données » pour pratiquer
des études linguistiques. Ainsi, on peut entrevoir la possibilité d’aborder des questions
sociolinguistiques, didactiques et même politiques (sur le système d’enseignement et
au-delà – voir Sayad, 201412), avec un éclairage sur la posture de mise en scène de soi
des jeunes, en rapport à l’intensité, à l’emphase et à la culture des rues (Lepoutre, 1997 ;
Gadet & Hambye, 2014). Des analyses plus fines à ce propos permettront sans aucun
doute de mieux comprendre la difficile quête d’identité de beaucoup de ces jeunes.
BIBLIOGRAPHIE
Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf,
linguiste ? », Corpus 10 : 99-118.
Benzitoun Ch. & Cappeau P. (2014). « Quel accord ? Retour sur les cas de ‘non accord’ entre sujet
et verbe à l’oral », Colloque Les relations d’accord dans la syntaxe du français. Fribourg, 25-26
septembre 2014.
Billiez J. (1992). « Le ‘parler véhiculaire interethnique’ de groupes d’adolescents en milieu
urbain », in E. Gouaini and N. Thiam (éd.) Des langues et des villes. Paris : Didier-Érudition, 117-126.
Blanc-Chaléard M.-Ch. (2001). Histoire de l’immigration. Paris : La Découverte.
Blanche-Benveniste C. (2003). « Réflexions sur les transcriptions de corpus de français parlé »,
Revue PAroles 22-23-24 : 91-116.
Blanche-Benveniste C. (2008). « Le français parlé au XXIe siècle. Réflexions sur les méthodes de
description : système et variations », in M. Abecassis, L. Ayosso, E. Vialleton (éd.) Le français parlé
au XXIe siècle : normes et variations dans les discours et les interactions. Volume 2. Paris : L’Harmattan,
17-39.
Blanche-Benveniste C. (2010). Le français : Usages de la langue parlée. Leuven : Peeters.
Branca-Rosoff S. et al. (2011). « Constitution et exploitation d’un corpus de français parlé
parisien », Corpus 10 : 81-98.
Cappeau P. & Gadet F. (2010). « Transcrire, ponctuer, découper l’oral. Bien plus que de simples
choix techniques », Cahiers de linguistique 35/1 : 187-202.
Cappeau P. & Gadet F. (2014). « Quand l’œil écoute… Que donnent à lire les transcriptions
d’oral ? ». Actes du colloque CILPR de Nancy, en ligne : http://www.atilf.fr/ cilpr2013/.
Cappeau P., Gadet F., Guerin E. & Paternostro R. (2011). « Réflexions sur les incidences de
quelques aspects de la transcription outillée », LINX 64-65 : 85-100.
Corpus, 15 | 2016
195
Cheshire J. (2005). « Age and generation-specific use of language », in U. Ammon, N. Dittmar,
K. Mattheier & P. Trudgill (éd.) Sociolinguistics : An Introductory Handbook of the Science of Language
and Society. Berlin : Mouton de Gruyter, 1552-1563.
Cheshire J., Kerswill P., Fox S. & Torgersen E. (2011). « Contact, the feature pool and the speech
community : the Emergence of Multicultural London English », Journal of Sociolinguistics 15-2 :
151-196.
Dico-des-mots http://dico-des-mots.com/liste-de-mots.
Dictionnaire de la zone http://www.dictionnairedelazone.fr/?index=lexique&let=0.
Eckert P. (2012). « Three waves of variation study : the Emergence of meaning in the study of
sociolinguistic variation », Annual Review of Anthropology 41 : 87-100.
Fagyal Z. (2010). L’Accent de banlieue. Paris : L’Harmattan.
Gadet F. (2008). « L’oreille et l’œil à l’écoute du social », in M. Bilger (dir.) Données orales. Les enjeux
de la transcription. Les cahiers 37. Presses universitaires de Perpignan, 35-48.
Gadet F. (2013). « Collecting a new corpus in the Paris area : intertwining methodological and
sociolinguistic reflections », in D. Hornsby & M. Jones (éd.) Language and Social Structure in Urban
France. Oxford : Legenda, 162-171.
Gadet F. (2015). « Le style et les corpus : réflexions à partir d’un corpus recueilli en région
parisienne », in K. Jeppesen Kragh & J. Lindschouw (éd.) Les Variations diasystématiques et leurs
interdépendances dans les langues romanes. Société de linguistique romane, série TraLiRo, collection
Sociolinguistique, dialectologie, variation.
Gadet F. & Guerin E. (2012). « Des données pour étudier la variation : petits gestes
méthodologiques, gros effets », Cahiers de linguistique 2012-1 : 41-65.
Gadet F. & Guerin E. (2015). « Le français en contact en région parisienne : le poids des
représentations sur les langues », in Actes du colloque de Raguse, Repères DoRIF. Revue en ligne.
Gadet F. & Hambye Ph. (2014). « Contact and ethnicity in ‘youth language’ description : in search
of specificity », in R. Nicolaï (dir.) Questioning Language Contact. Limits of Contact, Contact at its limits.
Leiden/Boston : Brill, 183-216.
Gadet F. & Kaci, N. (2012 [2015]). « Identification en première personne. Le discours d’un ‘jeune
de banlieue’ en entretien », Cahiers de praxématique, no 59, 29-44.
Gadet F. & Paternostro R. (2013). « Un accent multiculturel en région parisienne ? », Repères DORIF
3. http://www.dorif.it/ezine/.
Gadet F. & Wachs S. (2015). « Comparer des données de corpus : évidence, illusion, ou
construction ? », Langage & Société, no 154, 33-49.
Greco L., Mondada L. & Renaud P. (dir.) (2014). Identités en interaction. Limoges : Lambert Lucas.
Guerin E. & Moreno A. (2014). « Le discours rapporté dans les interactions orales et écrites. Au-
delà d’une opposition de surface », Actes du colloque CILPR de Nancy. En ligne : http://www.atilf.fr/
cilpr2013/
Guerin E. & Paternostro R. (2014). « What is langue des jeunes and Who speaks it », in H. Tyne et
al. (éd.) French through Corpora : Ecological and Data-driven Perspectives in French Language Studies.
Actes du colloque AFLS de Nancy 2011. Cambridge Scholars Publishing.
Gülich E. & Mondada L. (2001). « Analyse conversationnelle », in Lexikon der Romanistischen
Linguistik. Tübingen : Max Niemeyer Verlag, 196-250.
Corpus, 15 | 2016
196
Jamin M. (2004). « ‘Beurs’ and accent des cités : a case study of linguistic diffusion in La
Courneuve », Contemporary French and Francophone Studies 8-2 : 169-176.
Jamin M. & Trimaille C. (2008). « Quartiers pluriethniques et plurilingues en France : berceaux de
formes supra-locales (péri-)urbaines ? », in M. Abecassis, L. Ayosso & V. Alleton (éd.) Le français
parlé au XXIe siècle. Normes et variations géographiques et sociales, Volume 1. Paris : L’Harmattan,
225-246.
Jamin M., Trimaille C. & Gasquet-Cyrus M. (2006). « De la convergence dans la divergence : le cas
des quartiers pluriethniques en France », Journal of French Language Studies 16-3 : 335-356.
Jaspers J. (2008). « Problematizing Ethnolects : Naming linguistic practices in an Antwerp
secondary school », International Journal of Bilingualism 12 (1-2) : 85-103.
Jaspers J. (2011). « Talking like a ‘zerolingual’ : Ambiguous linguistic caricatures at an urban
secondary school », Journal of Pragmatics 43 : 1264-1278.
Kerswill P. (2010). « Youth Languages in Africa and in Europe : Linguistic subversion or emerging
vernaculars ? ». http://www.lancaster.ac.uk/fass/doc_library/linguistics/kerswill/Kerswill-
African-Studies-19-10-10.pdf
Keskiladi http://www.keskiladi.com/.
Koch P., Œsterreicher W. (2001). « Langage oral et langage écrit », in G. Holtus, M. Metzeltin &
C. Schmitt (éd.) Lexikon der Romanistischen Linguistik, Tome 1. Tübingen : Max Niemeyer Verlag,
584-627.
Kotsinas U.-B. (1998). « Language Contact in Rinkeby – an immigrant suburb », in
J. Androutsopoulos & A. Scholz (éd.) Jugendsprache, langue des jeunes, Youth Language. Frankfurt am
Main : Peter Lang, 125-148.
Labov W. (1972). Sociolinguistic Patterns. Philadelphia : University of Pennsylvania Press.
Lagrange H. (2010). Le Déni des cultures. Paris : Le Seuil.
Langue française bob. http://www.languefrancaise.net/bob/.
Lepoutre D. (1997). Cœur de banlieue. Paris : Odile Jacob.
Lepoutre D. (2001). « La photo volée. Les pièges de l’ethnographie en cité de banlieue », Ethnologie
française XXXI-1 : 89-101.
Moreno A. (2014). « Le discours rapporté dans l’interaction : proximité et variabilité », in Actes du
Congrès mondial de linguistique française de Berlin.
Moreno A. & Paternostro R. (2014). « Les parlers jeunes en banlieue parisienne au croisement de
la syntaxe et de la prosodie », Communication au Colloque de Nanterre (5-6-7 juin 2014), Les
Métropoles francophones en temps de globalisation.
Noiriel G. (2002). Atlas de l’immigration en France. Paris : Éditions Autrement.
Paternostro R. (2013). « La langue des jeunes parisiens : une forme actualisée dans la proximité ? »,
Cahiers de l’École doctorale de Brescia 7 : 9-19.
Paternostro R. (2014). L’Intonation des jeunes en région parisienne : aspects phonétiques et
sociolinguistiques, implications didactiques. Thèse non publiée des universités de Brescia et de Paris
Ouest Nanterre la Défense.
Corpus, 15 | 2016
197
Paternostro R. & Goldman, J.-Ph. (2014). « Modeling of a rise-fall intonation pattern in the
language of young Paris speakers », Actes du colloque Speech Prosody 7. Trinity College de Dublin,
20-23 mai 2014.
Petit Momo. http://michel.buze.perso.neuf.fr/lavache/petit_momo.htm.
Pooley T. (2012). « Code-crossing and multilingualism among adolescents in Lille », Journal of
French Language Studies 22-3 : 371-394.
Quist P. (2008). « Sociolinguistic approaches to Multiethnolect : Language variety and stylistic
practice », International Journal of Bilingualism 12 (1-2) : 43-61.
Rabaud A. (2014). « Une histoire de l’immigration en France », in J.-Y. Blum Le Coat et
M. Eberhard (dir.) Les Immigrés en France. Paris : La Documentation française, 15-36.
Rickford J., McNair-Knox F. (1994). « Addressee – and topic –influenced style shift : a quantitative
sociolinguistic study », in D. Biber & E. Finegan (éd.) Sociolinguistic Perspectives on Register. New
York : Oxford University Press, 235-276.
Rougé J.-L. (2013). « Faire le portrait linguistique d’une ville. Présentation du projet de recherche
langues en contact à Orléans (LCO) », Langage & Société 145 : 123-129.
Sayad A. (2014). L’École et les enfants de l’immigration. Paris : Le Seuil (La couleur des idées).
Thibault P. & Vincent D. (1990). Un corpus de français parlé. Québec : Recherches sociolinguistiques
1.
Wachs S. (2014). « Paris, créativités lexicales et frontières géographiques », Communication au
Colloque de Nanterre (5-6-7 juin 2014), Les Métropoles francophones en temps de globalisation.
Wiese H. (2013). « What can new urban dialects tell us about internal language dynamics ? The
power of language diversity », Linguistische Berichte 19 : 208-245.
NOTES
1. Il bénéficie actuellement de soutiens par la DGLFLF (budget 2015) et par le GTRC canadien Le
français à la mesure d’un continent (France Martineau, directrice).
2. Pour chacun de ces auteurs, on ne donne ici qu’une référence afin de ne pas surcharger la
bibliographie. Pour une bibliographie plus complète sur l’Europe, voir Gadet & Hambye, 2014.
Nous n’envisageons pas ici les comparaisons avec l’Afrique ou l’Amérique « francophones ».
3. Pour les corpus sur Orléans, le contact est traité de façon spécifique dans un projet parallèle
aux corpus des ESLOs (« Étude SocioLinguistique sur Orléans ») : le projet LCO, « Langues en
contact à Orléans », dont on trouve une présentation dans Rougé, 2013.
4. Nous adoptons ici le même choix que celui exposé à la note 2, en renvoyant à la même
publication pour une bibliographie plus ample. On pourrait certes évoquer d’autres corpus, mais
nous nous arrêterons là, du fait de la modestie de taille ou de ce que l’option de qualité
interactive empêche de s’appesantir sur des entretiens faits sans beaucoup de préoccupations
sociolinguistiques.
5. Le terme écologique appuie dans MPF la distinction entre les auto-enregistrements et les
entretiens. Cependant, il ne s’agit nullement d’une dichotomie, et les entretiens peuvent tendre
plus ou moins vers l’écologique, compte tenu de l’attention portée aux spécificités contextuelles
et au rôle des réseaux liant les interactants.
6. Cappeau et al., 2011 tente de justifier le choix qui a été fait de Praat pour MPF, parmi les
différents logiciels de transcription offrant le même type de propriétés.
Corpus, 15 | 2016
198
7. Tous les chercheurs qui travaillent sur des parlers non standard ont eu à se demander
comment éviter de stigmatiser le parler qu’ils étudient, dès l’étape de la transcription. MPF a
suivi la perspective de Blanche-Benveniste (2003, 2010) pour laquelle seul un écrit standardisé
prenant acte de l’incommensurabilité sémiotique des ordres de l’oral et de l’écrit peut satisfaire
cette exigence. On ne cherche ainsi pas à représenter graphiquement des particularités
phoniques comme la chute d’un e muet ou une liaison, mais les mots non prononcés ne sont pas
restitués (voir aussi Gadet, 2008 ; Cappeau & Gadet, 2014).
8. http://mpfvitrine.modyco.fr
9. Il s’agit d’entretiens avec des « personnalités » ayant un rapport, de types variés, avec les
pratiques langagières visées. Si ces enregistrements peuvent parfois constituer un matériau
intéressant pour l’analyse linguistique, ils sont avant tout recueillis pour l’intérêt des propos qui
y sont tenus. Ces « grands témoins », en général un peu plus âgés, sont des responsables
d’association de quartier, des enseignants en ZUS, des acteurs de la culture urbaine…
10. Les exemples sont ici présentés avec le prénom de l’enquêteur et le numéro de l’enquête. Le
chiffre qui suit est le minutage en secondes.
11. Des tentatives ont pourtant été faites en ce sens (p. ex. Rickford & McNair Knox, 1994). Elles
permettent certes de montrer quelque chose quant au fonctionnement du style dans les langues,
mais elles ont selon nous l’inconvénient de négliger le point de vue de l’enquêté, pourtant crucial
pour la qualité des données obtenues. Comment un enquêté qui se trouve sollicité pour réitérer
le même type d’entretien, avec des enquêteurs différents, mais avec lesquels il n’a toujours
aucune histoire conversationnelle antérieure, peut-il construire une interprétation
vraisemblable de la situation ?
12. Ces inédits d’un auteur décédé en 1998 reproduisent des textes datant du début des années
80, permettant ainsi de mesurer que ce sont à peu près les mêmes problèmes qui se posent
aujourd’hui, en particulier à l’école, demeurés intraités ou négligés, et donc qui n’ont fait entre-
temps que s’aggraver.
RÉSUMÉS
Dans cet article, nous présentons le corpus « Multicultural Paris French » (MPF), en en montrant
les enjeux théoriques et méthodologiques, ainsi que quelques directions d’exploitation. En visant
des données non-standard illustrant ce qu’il est de coutume d’appeler « parler jeune », MPF
repose sur une réflexion quant à la façon d’appréhender les situations propices à leur émergence,
au-delà d’informations généralement retenues, d’ordres sociodémographiques ou ethniques, ou
du degré de formalisme de l’échange. Si ces considérations ne sont évidemment pas évacuées,
elles sont combinées à d’autres qui concernent les effets de la relation entre locuteurs au
moment de l’enregistrement. De ce fait, MPF apparaît comme un corpus original dans le champ
des corpus de français parlé contemporain, tant du point de vue de la nature des données
recueillies que de celui du traitement rendu possible par cette spécificité.
This article presents the “Multicultural Paris French” (MPF) corpus, focusing on the theoretical
and methodological issues and possible research avenues that it opens up. The MPF corpus
comprises non-standard speech, commonly referred to as ‘youth language’. A key aspect of the
corpus design is that it inquires into the situational factors conducive to the emergence of this
type of speech, beyond the features generally taken into consideration, such as socio-
Corpus, 15 | 2016
199
demographic and ethnic data or the degree of formality of the exchange. While these features are
obviously not ignored, they are combined with others concerning the effect of the relationship
between speakers during the recording. This specificity distinguishes MPF from other corpora of
contemporary spoken French, making it original both as regards the type of data collected and
the possible avenues for investigation that it offers.
INDEX
Mots-clés : corpus, non-standard, langue parlée, parlers jeunes, multiculturalisme
Keywords : corpus, non-standard, speech, youth language, multiculturalism
AUTEURS
FRANÇOISE GADET
Université Paris Ouest & MoDyCo
EMMANUELLE GUERIN
Université d’Orléans & LLL
Corpus, 15 | 2016
200
De l’archive de parole au corpus deréférence : la base de données oralesdu français de Suisse romande(OFROM)From speech archive to reference corpus: the spoken Swiss French database
(OFROM)
Mathieu Avanzi, Marie-José Béguelin et Federica Diémoz
1. Introduction
Le français est, avec l’allemand, l’italien et le romanche, l’une des quatre langues
officielles de la Confédération suisse. Il y est parlé par un peu plus de 22 % de la
population (Lüdi & Werlen, 2005)1, sur un territoire que l’on nomme Suisse romande,
parfois Romandie. Au plan politique, la Suisse romande est composée de sept cantons,
dont quatre sont officiellement unilingues (Genève, Vaud, Neuchâtel, Jura) et trois
bilingues (Fribourg et Valais, à majorité francophone ; Berne, à majorité
germanophone, cf. Schläpfer, 1985). Du fait de sa situation périphérique par rapport à la
France, la Suisse romande a été, tout au long du XXe siècle, sujette à l’insécurité
linguistique (Jolivet, 1984). Comme l’ont montré des études sociolinguistiques menées,
pour l’essentiel, dans le canton de Vaud, les Romands, bien qu’ils se déclarent parfois
fiers de leur accent (Singy, 1996, 2004), entretiennent une attitude de « subordination
linguistique » (Prikhodkine, 2011 : 24) par rapport aux Français, notamment parisiens, à
qui ils tendent à attribuer une meilleure qualité de langue (Bayard & Jolivet, 1984 ;
Singy, 1996 ; L’Eplattenier, 1998).
Le français que l’on parle en Suisse romande (désormais, pour plus de commodité, FS)
n’est cependant pas uniforme (Knecht & Rubattel, 1984 ; Mahmoudian & Jolivet, 1984)2.
Des variétés de FS ont ainsi été distinguées en fonction du canton où elles sont parlées
(Voillat, 1971 ; Singy, 1996, 2004 ; Matthey, 2003 ; Andreassen, Maître & Racine, 2010) :
Corpus, 15 | 2016
201
on a opposé la variété vaudoise à la variété fribourgeoise ou à la variété neuchâteloise,
même si des distinctions plus fines peuvent être faites parmi les locuteurs d’un même
canton (Voillat, 1971 ; Singy, 2004 ; Racine & Andreassen, 2012), voire à l’intérieur d’un
même district ou d’une même bourgade (Métral, 1977 ; Matthey, 2003). Par ailleurs, les
variétés de français parlé en Suisse ne figurent pas sur un pied d’égalité dans les
représentations des Romands. Bien que le français parlé à Genève suscite des
sentiments ambivalents, il semble jouir, de l’extérieur, d’un prestige plus grand que les
autres variétés romandes (Schoch, 1980 ; L’Eplattenier, 1998), du fait qu’il est considéré
comme plus proche du français dit « de référence » (désormais FR3).
Pourtant, c’est le français parlé dans la ville de Neuchâtel qui a longtemps passé pour
être le « meilleur » français de Suisse romande (Jolivet & Bayard, 1984 ; L’Eplattenier,
1998 ; Racine, Schwab & Detey, 2013), notamment parce que les patois s’y sont
maintenus moins longtemps qu’ailleurs (Gauchat, 1902 ; Gauchat, Jeanjaquet &
Tappolet, 1925 ; Terrier, 1998 ; Kristol 1999 ; Kristol, 2013). Le français du canton de
Vaud demeure associé à un accent rural, voire rustique (Knecht & Rubattel, 1984 ;
Singy, 1996). Quant au français parlé dans le canton du Valais, s’il est parfois qualifié
« d’incompréhensible » et de « chantant », il n’en a pas moins bonne presse chez les
Romands, étant associé au sud et aux vacances…
Ces représentations reposent cependant sur des stéréotypes plus ou moins caricaturaux
et rendent imparfaitement justice à la diversité des accents et des pratiques
linguistiques que l’on peut observer sur le terrain. La base OFROM, que nous allons
présenter dans cet article, a précisément pour vocation de permettre une observation
directe des pratiques langagières en Suisse romande et de développer à ce sujet des
études descriptives empiriquement fondées.
Au siècle dernier, les spécificités du français de Suisse romande ont été étudiées
essentiellement sur la base de documents écrits ou d’exemples oraux recueillis à la
volée (Pierrehumbert, 1926 ; Hadacek, 1983 ; Thibault, 1997). Les usages oraux, qu’il
s’agisse de lexique, de syntaxe ou de phonologie, ont été moins bien documentés. De
fait, on ne sait toujours pas quel crédit accorder aux stéréotypes populaires associés
aux variétés de FS. Les locuteurs du canton de Neuchâtel, censés parler un français plus
« pur », plus conforme à la norme, réalisent-ils de facto plus de ne de négation, d’accords
en genre du participe passé et moins de dislocations du sujet que les locuteurs des
autres cantons ? D’autre part, le FS a été décrit comme archaïsant. Mais qu’en est-il, de
nos jours, des régionalismes attestés dans le parler des générations précédentes ? Les
locuteurs actuels les utilisent-ils encore, et si oui, dans quelles conditions ? Quelles sont
en outre, à date récente, les incidences linguistiques liées à la mobilité des personnes et
à l’essor des nouvelles technologies de l’information et de la communication ? Et qu’en
est-il, dans le parler des Romands, des néologismes observés dans les autres régions de
la francophonie ? Se retrouvent-ils en Suisse, et si oui, chez quelles catégories de
locuteurs ?
Le manque de données documentant le français parlé en Suisse romande4 a longtemps
freiné la recherche relative à ces différents points ; c’est la raison pour laquelle nous
avons entrepris, à partir de 2011, de constituer une base de données de FS. Celle-ci a été
mise en ligne en décembre 2012 sous le nom d’OFROM (i. e. Oral de Français de Suisse
ROMande). Dans le présent article, nous présenterons d’abord les principes qui ont
guidé la création de cette base. En deuxième partie, nous illustrerons les potentialités
d’OFROM en examinant une série de faits relatifs au lexique et à la syntaxe5.
Corpus, 15 | 2016
202
2. Principes de constitution de la base
2.1 Enregistrements
Les enregistrements que la base contient actuellement sont pour les uns extraits
d’entretiens guidés à dominante monologique, dans lesquels l’interviewé (un locuteur
né en Suisse, et vivant en Suisse romande) était sollicité pour répondre à des questions
nécessitant des réponses plus ou moins longues posées par l’intervieweur (le
responsable de l’enquête) ; pour les autres, il s’agit d’interactions, impliquant
généralement deux personnes (nées en Suisse, et vivant en Suisse romande) qui parlent
à bâtons rompus. Les thèmes abordés concernent aussi bien le rapport à la langue, aux
métiers, aux voyages, aux passe-temps des locuteurs, leurs relations de voisinage, leurs
projets ou les situations incongrues auxquelles ils ont été confrontés dans leur vie. Ils
peuvent également être en rapport avec le système politique ou la situation
linguistique de la Suisse, voire porter sur les us et coutumes de la région où les
locuteurs ont passé la plus grande partie de leur vie, etc. En moyenne, les entretiens
enregistrés durent entre 30 et 40 minutes, mais seules une vingtaine de minutes sont
transcrites pour chacun des locuteurs de la base (en moyenne, 10 minutes par
conversation guidée, 10 minutes par discussion libre).
2.2 Locuteurs
Tous les locuteurs enregistrés sont originaires de Suisse. Ils sont en général enregistrés
à l’endroit où ils ont passé la plus grande partie de leur vie. En plus de l’information
géographique, cruciale dans OFROM (lieu de naissance, localité dans laquelle le locuteur
a passé la plus grande partie de sa vie, localité d’habitation actuelle, nombre d’années
passées dans la localité actuelle), nous récoltons pour chaque locuteur enregistré des
informations sociodémographiques classiques, telles que l’âge du locuteur au moment
de l’enquête, son sexe, sa langue maternelle, son métier et son niveau socio-éducatif6.
2.3 Transcriptions
2.3.1 Support et conventions
Les transcriptions associées aux fichiers sons ont été faites soit par les étudiants en
charge de l’enquête, soit par les collaborateurs scientifiques de la chaire de linguistique
française et du Centre de dialectologie et d’étude du français régional de l’Université de
Neuchâtel. Elles ont toutes été vérifiées, anonymisées et uniformisées par des étudiants
de master et des collaborateurs scientifiques avant leur mise en ligne. Les
enregistrements sont transcrits directement dans le logiciel Praat (Boersma &
Weeninck, 2015), en orthographe standard, sans « trucages » ni ponctuation : nos
conventions suivent en cela les recommandations du GARS (Blanche-Benveniste &
Jeanjean, 1986 ; Blanche-Benveniste, 1997), reprises dans la plupart des corpus de
français parlé transcrits existants (DELIC, 2004 ; Dister, Francard, Hambye & Simon,
2009 ; Baude & Dugua, ce volume ; Branca, Fleury, Lefeuvre & Pires, 2012).
Corpus, 15 | 2016
203
2.3.2 Anonymisation
La parole est une propriété (Baude, 2006). Les locuteurs enregistrés dans notre corpus
ont signé des autorisations stipulant qu’ils donnaient leur accord pour
l’enregistrement, la diffusion et l’analyse, à des fins linguistiques, de leur parole, à
condition que les données soient anonymisées. Dans OFROM, nous n’avons pas procédé
à une anonymisation du signal à proprement parler. Pour éviter de rendre publiques
certaines informations prononcées pouvant servir à l’identification des locuteurs, nous
avons simplement fait correspondre aux séquences sonores pouvant aider à
l’identification du locuteur des intervalles dédiés à l’intérieur de la couche de
transcription. Ces intervalles contiennent un symbole spécial (« # »), qui empêche, lors
de la recherche à l’aide du concordancier, que le contenu sonore associé à l’intervalle
incriminé puisse être entendu ou téléchargé. L’anonymat des locuteurs de notre corpus
est ainsi préservé.
2.3.3 Annotations
En janvier 2015, les transcriptions ont été enrichies d’un codage des catégories
morphosyntaxiques (Part-of-Speech) avec l’outil DisMo (Christodoulides, Avanzi &
Goldman, 2014), qui ajoute à la transcription orthographique six couches
supplémentaires d’annotation, comme on peut le voir sur la Figure 1 :
Figure 1. Annotation morphosyntaxique et discursive multi-niveau issue de l’étiquetageautomatique fourni par DisMo, pour la séquence « tu amènes ta vache à un match tout le mondereçoit trente francs pour le déplacement » [unifr11-cra]
La première couche (tok-min) contient (non alignés avec le son) tous les mots séparés
par un espace graphique. La seconde couche (pos-min) indique l’étiquette
morphosyntaxique associée à chaque token. La troisième tire (disfluency), parallèle aux
deux premières, indique les tokens disfluents. Les deux tires suivantes (tok-mwu et pos-
mwu) séparent par des intervalles (non-alignés sur le son) les unités poly-lexicales, et
leur catégorie morphosyntaxique. Ainsi, dans l’exemple de la Figure 1, la suite de
tokens « tout le monde » (soulignée) a été traitée comme trois unités lexicales dans la
tire tok-min, alors qu’elle n’en constitue qu’une seule dans la tire tok-mwu. Quant à la
Corpus, 15 | 2016
204
dernière tire (discourse), elle peut regrouper indépendamment des unités lexicales et
les catégoriser comme des marqueurs de discours. Les tires disfluency et discourse
étant en cours de développement, les étiquettes que l’on peut y trouver ne seront pas
présentées dans la section suivante. Les étiquettes utilisées proposées par DisMo se
différencient de la plupart des étiquettes utilisées dans les taggeurs classiques
(Debaisieux, Benzitoun & Deulofeu, ce volume) de par leur richesse et leur complexité.
La base de données OFROM n’est pas téléchargeable dans sa totalité : pour l’exploiter, il
faut obligatoirement passer par le concordancier disponible sur le site du corpus. Celui-
ci permet de chercher des chaînes de caractères et des mots, comme c’est le cas de la
plupart des concordanciers associés aux autres corpus de français parlé présentés dans
ce recueil. Il permet de surcroît, et c’est là son originalité, de procéder à des requêtes
plus complexes, pour chercher des chaînes de constructions en croisant des critères
lemmatiques et grammaticaux. Un tutoriel, téléchargeable sur le site web de la base, est
disponible pour les utilisateurs.
2.4 Statistiques
Pour cet article nous faisons référence à l’état de la base de mars 20157 qui comprenait
407 763 tokens transcrits (soit 65 heures de parole), produits par 189 locuteurs, qui se
répartissent de la façon suivante (cf. Figures 2 et 3) selon les cantons dans lesquels ils
vivent :
Figure 2. Nombre de mots par canton dans le corpus OFROM (mars 2015), où JU = Jura, BE =Berne, GE = Genève, FR = Fribourg, VD = Vaud, VS = Valais, NE = Neuchâtel et NR = non renseigné
Corpus, 15 | 2016
205
Figure 3. Nombre de locuteurs par canton dans le corpus OFROM (mars 2015), où JU = Jura, BE =Berne, GE = Genève, FR = Fribourg, VD = Vaud, VS = valais, NE = Neuchâtel et NR = non renseigné
3. Documenter la variation lexicale et syntaxique enSuisse romande
Cette partie de l’article est consacrée à la présentation de quelques recherches en
cours, relatives aux particularismes lexicaux (§ 3.1) et à la variation syntaxique (§ 3.2).
3.1 Variation lexicale
Quelles sont, au début du troisième millénaire, les particularités lexicales du FS ? Parmi
les régionalismes identifiés depuis longtemps par les spécialistes, lesquels sont toujours
en usage, lesquels donnent des signes de déclin, du moins en l’état actuel de la base
OFROM ? Qu’en est-il, par ailleurs, des néologismes repérés dans d’autres régions de la
francophonie ? Appartiennent-ils ou non au français parlé en Suisse, et si oui, quels
types de locuteurs sont concernés ? Est-il possible de mettre en évidence des
néologismes qui seraient spécifiquement helvétiques ? Autant de questions que la base
OFROM permet de documenter, ne serait-ce qu’à titre provisoire, car elle est appelée à
se développer dans les années à venir.
3.1.1 Variation régionale
En guise d’illustration, nous évoquerons succinctement ci-après quelques régionalismes
lexicaux dont OFROM permet de montrer le caractère bien ancré.
La lexie avoir meilleur temps de, avec le sens d’« avoir intérêt à ». – Cette expression passe
parfois pour un helvétisme ; elle est cependant utilisée, suivant la Base de données
lexicographique panfrancophone (désormais BDLP, Knecht & Kristol, 2000-2012), en
Franche-Comté et dans les deux Savoie, dans le Doubs et le Jura français, voire au-delà.
OFROM en livre trois occurrences à la 2e personne du singulier, dans la bouche de
locuteurs différents, tous relativement jeunes :
Corpus, 15 | 2016
206
(1) tu as meilleur temps de pas aller trop vite [unine08-ada, femme née en 1985](2) tu as tu as meilleur temps de pouvoir poser ton truc et pis que ça soit à ça du sol[unine12-asa, femme née en 1980](3) pis tu as meilleur temps d’apprendre sur une euh une manuelle je pense[unine15-003, homme né en 1996]
Le verbe venir au sens de « devenir ». – La BDLP suisse nous apprend que cette acception
est ancienne et attestée dans une large partie de la francophonie, y compris le Québec ;
l’ouest et le nord de la France font semble-t-il exception. Voici les exemples d’OFROM,
relevés cette fois dans le parler de locuteurs d’un certain âge :
(4) je me fais du souci je me dis qu’il faut vite nettoyer pendant que c’est sec parcequ’il suffit qu’il vienne plus froid [unine11-jsa ; emploi impersonnel, au sens de : « ilsuffit qu’il se mette à faire plus froid » ; homme né en 1932](5) un potier qui venait de plus en plus vieux et puis qui pensait à sa retraite[unine08-eba, femme, âge non renseigné]
La bribe contenue dans (6) est suggestive à ce titre :
(6) euh on s’est marié on a eu quatre enfants | _ | et comme on habitait on restait enSuisse | et qu’elle est de/ est venue pasteure aussi en Suisse | _ | à | # | euh on a décidéque nos enfants | _ | euh parleraient le norvégien comme langue de base [unine11-rpa, homme né en 1954] 8
Après avoir esquissé un de/ qui peut passer pour une ébauche de la forme standard
devenir, le locuteur de (6) se rabat finalement sur venir (il vaut la peine, dans le cas
présent tout particulièrement, de se reporter à l’enregistrement).
La lexie familière foutre loin, au sens de « jeter, mettre au rebut, congédier ». – Absente du
TLFi, cette expression est identifiée comme un régionalisme par la DBLP (s.v. loin). Elle
est attestée à plusieurs reprises dans nos enregistrements :
(7) et je sais pas où a passé ce bouquin | _ | j’aimerais bien savoir où il a passé | _ |moi je l’ai jamais eu ma grand-mère l’a eu puis on l’a jamais retrouvé | _ | je sais pasce que | et puis de qui les | _ | les filles ont fait | et compagnie elles ont tout foutu loince genre de truc | _ | je suis presque sûr elles en ont foutu loin plein | _ | ont foutu loinune partie des papiers | elles ont rien compris du tout de ce qu’elles avaient ont toutfoutu loin bah alors non on n’a pas trouvé [unifr11-dba, homme, âge non renseigné](8) dis donc Germaine tu es en train de foutre loin des bouquins qui sont euh[unifr11-dba, id.](9) mais je pense que je vais arrêter de taffer là-bas quoi je sais pas ils vont me foutreloin mec si je bosse que six heures [unifr11-maa, étudiant, âge non renseigné](10) mais le problème c’est que tout à coup/ des fois tu as les paquets ils viennentpas chercher les paquets puis ils les foutent loin [unine11-ffa, homme né en 1990]
La BDLP mentionne également foutre bas au sens de « démolir » ou « abattre », dont
OFROM livre une forme remotivée : foutre en bas.
(11) mais entre-temps ils ont foutu en bas toutes les archives [unine11-jsa, hommené en 1932]
L’emploi du verbe vouloir comme auxiliaire de futur. – En Suisse romande, comme dans les
deux Savoie et le grand Est de la France (BDLP), le verbe vouloir est parfois employé
comme auxiliaire pour marquer le futur périphrastique. Souvent considéré comme un
germanisme (Pierrehumbert, 1926 : 649), cet emploi est en réalité un archaïsme. La base
de données OFROM en fournit les attestions suivantes :
(12) tandis que maintenant tout est trié le fer euh | _ | alors euh ça donne beaucoupplus de commerce | _ | maintenant ben l’été je ne fais pas ça maintenant je veux recommencer une fois que j’ai fini au jardin | % | _ | commencer d’un petit peu trierpar-là | _ | ouais ouais ouais ouais [unifr11-dba, homme, âge non renseigné]
Corpus, 15 | 2016
207
(13) enfin on faut qu’on aille au marché de Saint Martin donc on veut aller aumarché de Saint-Martin [unine12-asa, femme née en 1980]
Cas divers. – Signalons encore, pêle-mêle, les attestations de lexèmes tels que pive
(« cône du sapin »), cf. (14)-(15) ; huitante (« quatre-vingts ») ; cf. (16)-(18) ; cheni
(« fouillis, pagaille »), cf. (19)-(20) ; souper (« repas du soir »), cf. (21)-(22) ; roillé « fou »,
cf. (23) :
(14) on faisait des batailles de pives [unine15-029, femme née en 1936](15) oh joli avec la pive […] alors ouais ouais ça c’est de la pive [unine15-027, femmenée en 1987](16) on doit être présent à plus de huitante pourcents des cours pour que le coursnous soit validé [unine08-oca, femme née en 1988](17) d’ailleurs moi j’ai huitante ans je fais tout | mes affaires je sais tout faire[unifr11-dla, femme née en 1931](18) et c’est une tour on est mangé euh on a été jusqu’au huitante-troisième étage[unine11-nfa, femme née en 1989](19) parce que c’est elles qui sont venues foutre le cheni [unine11-sda, femme née en1979](20) et y a le cheni habituel et tout [unine11-jma, femme née en 1954](21) ouais ou bien tu tu tu prends les restes du souper [unine12-asa, femme née en1980](22) parce qu’on devait aller au bois on devait aller allumer le feu on devait faireeuh | commencer le souper tout ça [unifr11-bga, femme née en 1931](23) y a un d/ un truc c’est un | _ | un chauffeur euh de à b/ de chez | # | # | | où | _ |qui devient complètement roillé après trente-cinq ans | qui conduit et tout ça il ditc’est affreux [unine15-024, homme né en 1928]
Le fait que, parmi ces occurrences, certaines ont été prononcées lors de
l’enregistrement de jeunes locuteurs démontre que ces régionalismes sont encore bien
vivants en Suisse romande. À l’inverse, la base OFROM contient des occurrences de
tournures lexicales marquées comme « vieillies » dans la BDLP. C’est notamment le cas
du potager (« cuisinière »), encore très répandu à la fin des années 60 (Voillat, 1971) :
(24) avec le l’évolution des matières et pis de de la technologie | _ | on a eu despotagers en | _ | à bois certainement mais | _ | déjà des potagers au dix-huitième siècle| _ | et pis on pouvait mettre d’autres casseroles dessus des tôles émaillées ou biende [unine08-ebc, femme, âge non renseigné](25) le bain c’était dans un y avait pas de salle de bains y avait | une bassine à lacuisine | c’étaient des grandes bassines en acier | _ | % | _ | ouais | _ | à la cuisine | _ |chauffer l’eau sur le potager un potager | _ | vous savez ce que c’est | maintenant ondit une cuisinière [unine11-gaa, femme née en 1935](26) l’hiver tu vois | _ | et pis y avait pas | _ | y avait des fourneaux à molasse y avaitpotager à bois y avait pas tu vois de | _ | lave-linge euh tout ça | _ | non y avait unefontaine dehors [unine12-jda, femme née en 1930]
Dans ces trois exemples, potager est utilisé dans le cadre d’un rappel de réalités
révolues ; dans (25), la locutrice prend même le soin d’en gloser le sens à l’intention de
son interlocuteur. C’est aussi le cas du mot torée (« repas que l’on prend en plein air
autour d’un feu », BDLP), dont la base ne livre qu’un seul exemple, dans la production
d’un locuteur neuchâtelois :
(27) bah le c’est s/ quand on est entre amis c’est vrai que on va faire une torée aubord du | _ | voilà [unine15-903, homme né en 1958]
Lorsque la base sera plus développée, elle permettra, on le voit, de rendre de précieux
services à la lexicographie différentielle, voire à la lexicologie en général.
Corpus, 15 | 2016
208
3.1.2 Néologismes
Passons au cas des néologismes, qui se prêtent dans OFROM à des observations tout
aussi instructives. Nous présenterons quatre exemples ; les trois derniers, comme on
verra, concernent l’expression de l’intensité.
Le mot genre utilisé en fonction d’opérateur d’approximation, d’illustration ou
d’exemplification. – Ces fonctions récemment acquises du lexème ont fait l’objet d’études
de la part de Rosier (2002) et de Dufaye (2012, à par.), qui les abordent en termes de
grammaticalisation. OFROM nous apprend que ces usages néologiques de genre sont très
présents en Suisse chez les locuteurs des jeunes générations, cf. :
(28) parce que je me rappelle que genre quand j’avais sept ou huit ans | _ | j’aicommencé le tennis et je jouais au tennis avec | _ | et à l’époque il devait faire genreeuh un mètre | _ | quarante [unine08-mba ; étudiant, âge non renseigné](29) c’est du brainstorming comme ils appellent ça | _ | genre c’est vraiment un trucmec le but c’est de les mettre pendant quatre jours ensemble [unifr11-maa,étudiant, âge non renseigné](30) je me suis dit je vais faire un petit truc au début tu sais je vais genre mêmecommencer genre limite par la fin tu sais [unifr11-maa, id.]
Le Corpus suisse de SMS en français9, auquel sont empruntés les exemples suivants,
permet de montrer que l’écrit familier est également concerné :
(31) vs avez discuté genre de quoi? [Corpus suisse de SMS, 20413, femme, 17 ans, sic](32) Ben genre j’avais rendez-vous le plus tot possible avec Luigi qui repart à Genèvepour lui installer Illustrator puis vers 15h pour finaliser un rapport [Corpus suissede SMS, 15112, homme, 21 ans, sic]
Dans le corpus de SMS, sur 18 occurrences de genre, 17 sont de ce… genre. Le Tableau 1
ci-dessous offre une vue synthétique du nombre d’occurrences de genre par catégorie
d’emploi (emplois nominaux classiques, emplois comme opérateurs d’approximation au
sens large, avec, entre deux, les cas indécis). Le premier chiffre est relatif au corpus
OFROM, le second au Corpus suisse de SMS en français. Les emplois néologiques de
genre fournis par la base OFROM sont nombreux. À l’évidence, ils méritent mieux que le
tri relativement grossier auquel nous les avons soumis. Nous nous proposons d’en
étudier la distribution syntaxique et la répartition sociolinguistique dans une étude
ultérieure (Béguelin, en prép.).
Tableau 1. Nombre d’occurrences du mot genre par catégorie d’emploi, dans OFROM d’une part,dans le Corpus suisse de SMS en français d’autre part
Type d’emploi
Nb. d’occ. dans
ExemplesOFROM
Corpus
SMS
genre = N 70 1
ce genre de trucs
un truc du genre
des discussions de ce genre-là
Cas ambigus (genre = N
apposé
ou opérateur
d’illustration)
14 4un papier genre papier d’emballage;
une petite ville forte genre Mont-Saint-Michel
Corpus, 15 | 2016
209
genre = marqueur
d’approximation,
d’illustration ou
d’exemplification
110 13
à genre 17 ans
genre à 20 ans
ils ont instauré des nouvelles lois | genre euh ils ont
pas le droit d’avoir de trop grosses cylindrées
Totaux 19410 18
Emplois intensifs de grave. – Zribi-Hertz (2015) a consacré une étude détaillée à
l’évolution sémantico-syntaxique récente, en français informel, de cet adjectif dont le
sens traditionnel est « sérieux, sévère », mais qui est utilisé désormais, dans les jeunes
générations, comme marqueur adverbial de haut degré, au sens de « très, beaucoup »,
ou comme adjectif à valeur évaluative, avec la valeur de « fou, incroyable ». L’exemple
suivant illustre successivement le second, puis le premier de ces emplois néologiques :
(33) Waw elle est grave cette zik je l’adore grave. [web < Zribi-Hertz 2015 : 65 ; « Cettemusique est incroyable, je l’adore à fond »]
OFROM ainsi que le Corpus suisse de SMS démontrent que le français de suisse romande
est également « grave atteint » par cette intrigante dérive fonctionnelle :
(34) En direct de Zurich, Carlo aux platines et CL au micro qui déchirent leur racegrave ! :) [SMS 13152, homme, 24 ans ; grave sert ici d’intensif de prédicat verbal](35) [contexte de la conversation : engager quelqu’un qui filme pendant trois jourscoûte cher] ouais non grave même quoi [OFROM, unifr11-maa ; étudiant, âge non renseigné ;grave = « énormément »](36) je me disais que c’était peut-etre lui qui m’écrivait d’ailleurs tu vois! Je suisgrave ! :) Bisous [SMS 21027, femme, 24 ans ; emploi en tant que « prédicat évaluatifgénéral à orientation variable — dépréciative ou appréciative » de Zribi-Hertz 2015 :93]
Emploi intensif de pire. – Cet usage est présent dans OFROM comme dans le Corpus suisse
de SMS :
(37) et en fait je suis pas tombé amoureux tout de suite mais enfin j’ai déjà vuqu’elle était pire cool [unine08-eta, femme, âge non renseigné](38) Trop pire forte la fille : 21 patients et pas de retard… La classe… ;-) [Corpussuisse de SMS, 13883](39) Hé vieux! On a pire cartoné!!! \o/ Hallucinant:-D [Corpus suisse de SMS, 21841]
Emploi intensif de monstre. – Bien attesté dans la base OFROM, cet emploi est absent, de
même que celui relevé de pire intensif, du corpus CFPP2000 (Lefeuvre & Brance-Rosoff,
ce volume). Dans OFROM, monstre apparaît en tant qu’épithète antéposée (40), mais
aussi comme intensifieur d’adjectif (42) ou de prédicat (43). Ces emplois concernent,
dans la base suisse, 11 occurrences sur 13 du lemme en question, contre 2 exemples
seulement de l’emploi nominal classique, style le monstre du Loch Ness. Cf. :
(40) ça fait des ça fait des monstres dégâts euh [unine08-mba ; 6 ex. de ce type dansla base, homme, âge non renseigné](41) ils sont monstre haut dans le euh dans l’organigramme quoi [unifr11-maa,homme, âge non renseigné ; 4 ex. de ce type dans la base](42) il a monstre poussé le gazon [unine11-ffa, homme né en 1990 ; seul exemple ad-verbal]
L’espace à disposition nous contraint à clore provisoirement cet inventaire. Les
exemples présentés ci-dessus n’avaient d’autre ambition que de montrer le potentiel de
la base OFROM (ainsi bien sûr que du Corpus suisse de SMS), en vue d’une meilleure
Corpus, 15 | 2016
210
connaissance non seulement des particularités lexicales du français en Suisse, mais
aussi des évolutions qui concernent la langue française en général.
3.2 La variation morphosyntaxique
Cette section est organisée en deux parties. La première est consacrée aux
régionalismes syntaxiques (§ 3.2.1), dans la seconde nous analysons dans le corpus la
fréquence de (non-)réalisation du ne de négation (§ 3.2.2).
3.2.1 Variation régionale
Sur le plan syntaxique, la mise à disposition de corpus oraux de plus en plus riches,
OFROM compris, aidera à déterminer la représentation géographique, très souvent
transfrontalière, de variantes telles que (43)-(50), qui passent à tort dans certains
travaux pour des spécificités du français parlé en Suisse. Ces variantes concernent
l’ordre des mots (comme dans (43)-(45)), le mode de réalisation de certaines valences
verbales (comme dans (46)-(48)), et l’usage de certaines tournures grammaticales
particulières (comme dans (49)-(50))11 :
(43) je ça regarde [Bürgi 1999 : 149](44) j’ai personne vu [Redard 1971 : 3](45) je lui le donne [Tuaillon 1983 : 234](46) aider à quelqu’un [Lüdi 1981 : 90] (47) demander après quelqu’un [Knecht & Rubattel 1984 :141](48) ça, j’y veux [Tuaillon 1983 : 230](49) le chien m’est venu contre [Voillat 1971 : 224](50) il a eu fumé [Walter 1981 : 28]
De ces tours, on ne sait que peu de choses. D’un point de vue diatopique, certains de ces
phénomènes s’étendent à l’ensemble du domaine francoprovençal (notamment
l’antéposition de personne), voire au-delà (l’usage du passé surcomposé en principale),
d’autres ne sont pas connus en dehors de certaines régions bien spécifiques
(l’antéposition de ça est généralement décrite comme un phénomène typiquement
vaudois, Bürgi, 1999 ; l’usage du pronom neutre y, bien connu dans les deux Savoie, en
Isère et dans le Rhône et en Bourgogne ne semble pas être employé en Suisse romande
ailleurs qu’à Genève, Tuaillon, 1983). De leur vivacité dans les conversations
contemporaines, on ne sait pour le moment que peu de choses. Jusqu’à présent, on l’a
dit, les spécificités lexicales et syntaxiques supposées du FS ont surtout été étudiées sur
la base de documents écrits, à partir d’exemples oraux recueillis au cours d’enquêtes
ponctuelles ou des jugements de quelques informateurs. À ce jour, aucune étude
systématique visant à vérifier la validité empirique de ces remarques sur un échantillon
d’informateurs plus large (qui permettrait de tenir compte non seulement de l’origine
géographique des informateurs, mais aussi de leur âge, de leur sexe et de leur statut
socio-économique), n’a jamais été conduite. Nous avons cherché à pallier cette lacune
en interrogeant la base de données OFROM. Cependant, la recherche des contextes
syntaxiques exemplifiés sous (43)-(50) n’a pas donné de résultats vraiment concluants.
Nous n’avons en effet trouvé qu’un seul emploi de personne dans un emploi de type
appositionnel relativement particulier, mais différent de (44), cf. (51). Il a été prononcé
par une locutrice âgée, qui parle encore le patois de la région de Fribourg :
(51) ils ont personne le même patois mais c’est assez près [unifr11-dla, femme née en1931]
Corpus, 15 | 2016
211
Nous avons trouvé une seule attestation du tour prodatif V contre (cf. (49) supra), avec le
sens de « arriver sur soi », prononcé par une locutrice âgée d’une vingtaine d’années,
originaire du canton de Fribourg :
(52) un coup de chaud qui nous arrivait contre [unine12-avb, femme née en 1991]
Le corpus contient un pronom y, faisant office d’objet direct renvoyant à un référent
propositionnel, prononcé par un locuteur vivant dans le canton de Genève :
(53) on peut le chauffer avec la lampe à souder alors euh ils y font [unine15-017,homme né en 1941]
En ce qui concerne le passé surcomposé, nous avons trouvé les sept attestations
suivantes (54)-(60), dont quatre s’insèrent dans des subordonnées à valeur temporelle,
ce qui confirme qu’il s’agit d’un contexte d’apparition privilégié pour ces formes
(Jolivet, 1984). Ici aussi, les locuteurs sont tous originaires de cantons différents :
(54) quand il a eu fini l’école un qui travaillait à l’UBS il lui a dit toi tu vas venir à la àl’UBS et tu peux travailler [unifr11-dla, femme née en 1931](55) et dès qu’on a eu tourné le dos ils ont remis le les petites midinettes euh qui setrémoussaient dans tous les sens donc c’est c’est encore ce côté que je trouve trèstrès hypocrite [unine09-lba, femme née en 1976](56) et puis quand j’ai eu fini ma euh ma formation de nurse [unine14-smc, femmenée en 1938](57) déjà avant de faire son diplôme ce qui fait que quand il a eu fini on est retournéà # qu’on connaissait bien [unine11-lva, femme née en 1933](58) j’ai eu été jouer au volley avec des copains au badminton [unine11-fdb, hommenée en 1987](59) j’ai eu été euh avec euh en en sortie avec euh des amis à Europa Park [id.](60) on s’est jamais chicané | mais on a eu été vingt minutes | trente minutes sur unmot [unine15-033, femme née en 1936]
Sur le plan de la variation régionale, les exemples que nous avons recensés demeurent
trop peu nombreux pour que l’on puisse parler de véritable variation dans l’espace, ou
pour que l’on puisse faire des hypothèses sur les facteurs sociodémographiques qui les
motivent. Quant aux formes non attestées, on ne se risquera pas non plus à tirer
argument de leur absence dans la base OFROM pour dire qu’elles ont disparu des
usages. On sait en effet que des tournures syntaxiques pourtant courantes dans les
conversations de tous les jours ne le sont pas forcément dans les corpus oraux (Bilger &
Cappeau, 2004 ; Cappeau & Gadet, 2007). C’est pourquoi d’autres méthodes doivent être
envisagées afin de documenter la vivacité et la répartition effectives de ces tours dans
les variétés de français de Suisse romande.
3.2.2 Note sur la (non-)réalisation du ne de négation
Cette section est consacrée à l’alternance ne/0 dans le marquage de la négation. Leur
nombre étant suffisant dans le corpus, nous testons également les effets des variables
sociodémographiques des locuteurs sur cette alternance (âge, niveau socio-éducatif et
origine cantonale).
Dans un premier temps, nous avons réalisé une estimation du pourcentage de double
négation dans le corpus en divisant le nombre d’occurrences des ne et n’ taggées
comme adverbes de négation par le nombre total d’occurrences des formes pas/
personne/rien/jamais/aucun/plus, taggées comme adverbes de négation12. Sur les
5 857 négations extraites du corpus, seulement 427, soit 7,3 %, contenaient le
morphème ne. Pour étudier la répartition sociale et géographique de ces formes dans
Corpus, 15 | 2016
212
l’espace, nous n’avons retenu que les formes pour lesquelles on disposait des
informations relatives à l’origine, l’âge et au statut social du locuteur. Nous avons exclu
les locuteurs pour qui le français n’est pas la langue maternelle, et avons regroupé ceux
du Jura et de Berne dans un seul et même groupe. Sur les 4 345 formes restantes, 234
formes (soit 5,3 %) contiennent un ne de négation. Pour tester l’impact de variables
sociodémographiques sur la présence ou l’absence de ne, nous avons effectué trois
modèles linéaires généralisés à mesures répétés (Ghisletta & Spini, 2004), avec la
présence de ne (VRAI/FAUX) comme variable dépendante et le locuteur comme variable
aléatoire13. Dans un premier modèle, le canton dans lequel le locuteur a passé la plus
grande partie de sa vie a été entré comme variable indépendante. Les résultats ont
permis de montrer que la variable diatopique avait un effet sur le choix du type de
négation (Wald χ² (5) = 16.592, p < 0.01). Les tests post-hoc ont cependant montré que
parmi les différences que l’on observe sur la figure 4, seuls les locuteurs de Genève
produisent moins de ne de négation que les locuteurs de Fribourg, du Jura et du Valais
(p < 0.05). Dans un second modèle, l’année de naissance du locuteur a été entrée comme
variable indépendante. Les résultats ont permis de montrer que cette variable avait un
effet sur le choix du type de négation (Wald χ² (1) = 10.340, p < 0.001). Comme on peut le
voir sur la figure 5 plus bas, plus le locuteur est jeune, plus il a tendance à ne pas
double-marquer ses négations.
Figure 4. Pourcentage de négations comportant le morphème ne, en fonction du canton dans lequelle locuteur a passé la plus grande partie de sa vie
Corpus, 15 | 2016
213
Figure 5. Probabilité que la négation contienne le morphème ne, en fonction de l’année denaissance du locuteur
Sur le plan distributionnel, les résultats que nous avons obtenus confirment ceux de
Fonseca-Greber (2007) et de Meisner (2013), qui observent des taux de réalisation très
bas du ne de négation dans les corpus de FS qu’elles étudient. Ces résultats sont assez
proches des taux calculés après l’analyse de productions de locuteurs vivant dans le
Nord de la France (moins de 10 % chez les locuteurs analysés par Hansen & Malderez,
2004 et Torreira, Adda-Decker & Ernestus, 2010), alors qu’avec plus de 50 % de
réalisation la présence de cette marque est encore bien vivace chez les locuteurs du
Midi (Diller, 1983) et de Belgique (Moreau, 1986). En ce qui concerne la variation inter-
cantonale, nous avons observé une propension plus grande à faire chuter le ne de
négation à Genève qu’ailleurs, mais nous n’avons pas trouvé un taux de maintien plus
haut dans les productions des Neuchâtelois, ce qui permet de répondre au moins
provisoirement, à la question posée en introduction sur le français des Neuchâtelois.
Dans notre analyse, les résultats relatifs à l’âge des locuteurs confirment ce qui avait
déjà été montré par d’autres que nous (cf. notamment Ashby, 1967, 1981 ; Coveney,
1998 ; Armstrong, 2002 et Hansen & Malderez, 2004). Nous avons en effet observé que
plus l’âge des locuteurs augmentait, plus le taux de maintien de ne augmentait14. Quant
à l’effet de niveau socio-éducatif, sans surprise celui-ci ne s’est pas révélé significatif, ce
qui confirme les observations de Meisner, Robert-Tissot & Stark (à par.). On conclura en
rappelant que ces résultats doivent être appréhendés avec précaution : nous n’avons
pas pris en compte les effets possibles des indices syntaxiques (position du ne par
rapport au verbe), sémantiques (portée de la négation) et prosodique (vitesse de parole,
nombre de syllabes dans le groupe accentuel hôte, etc.), or, on le sait, ceux-ci jouent un
rôle important dans la distribution de ne (Meisner, 2013).
Corpus, 15 | 2016
214
4. Conclusion
Dans cet article, nous avons présenté la base de données orales de français de Suisse
romande, OFROM. Nous avons dans un premier temps rappelé les hypothèses et les
principes fondamentaux qui ont guidé sa constitution, ainsi que les aspects relatifs à la
transcription et à l’annotation des données. La base, d’une taille approximative de
400 000 mots au moment où a été réalisée cette étude, en compte plus de 800 000 au
moment où elle paraît. C’est l’une des premières à avoir été entièrement annotée en
parties du discours, et à disposer d’un concordancier qui permet à n’importe quel
utilisateur de faire en ligne des recherches complexes. Même si elle ne permet pas
encore de tester solidement des hypothèses sur la répartition des particularismes
lexicaux et syntaxiques, elle permet déjà d’illustrer certaines tendances, de renouveler
les données d’ordinaire utilisées pour approcher la variation, et surtout de poser les
bases d’une description systématique du français parlé en Suisse romande à l’orée du
XXIe siècle. D’ici quelque temps, la base devrait être enrichie de nouvelles annotations,
notamment pour étudier la variation phonologique et son interface avec la syntaxe.
L’ajout de données de genres discursifs variés est également envisagé. La base devrait
ainsi progressivement devenir un corpus de référence, au sens classique du terme
(Habert, 2000).
Remerciements
La confection de la base OFROM n’aurait jamais été possible sans le soutien financier du
programme Campus virtuel suisse, de la Faculté des Lettres et Sciences humaines et du
Rectorat de l’Université de Neuchâtel, ainsi que du Fonds national suisse de la
recherche scientifique (subsides n° P300P1_147781 et n° P3P3P1_161040). Nous
remercions Pierre Ménétrey (http:// www.webox-it.com/), webmestre, pour le travail
de confection du site. Merci également à Sandra Schwab (universités de Genève et de
Zurich) pour ses conseils et pour la confection des scripts Praat qui ont permis la mise
en ligne des premières données sonores et des transcriptions associées. George
Christodoulides nous a en outre fourni le logiciel pour tagger la base de données et
créer des fichiers xml pour la charger. François Delafontaine (Université de Neuchâtel)
a réalisé un travail colossal de révision et de correction des transcriptions. Il a été
rejoint récemment par Maude Ehinger et Julie Rothenbühler (Université de Neuchâtel).
Christophe Benzitoun a nettoyé, dans le cadre du projet ANR ORFEO, certains des
fichiers présents dans la base. Qu’ils soient toutes et tous remerciés très sincèrement.
Enfin nous remercions de leur généreux engagement l’ensemble des collaborateurs
scientifiques, des étudiants et des locuteurs qui ont participé aux diverses campagnes
d’enquête.
Corpus, 15 | 2016
215
BIBLIOGRAPHIE
Andreassen H., Maître R. & Racine I. (2010). « La Suisse », in S. Detey, J. Durand, B. Laks & C. Lyche
(éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement. Paris/
Gap : Ophrys, 201-212.
Armstrong N. (2002). « Variable deletion of french ne : a cross-stylistic perspective », Language
Sciences 24 : 153-173.
Ashby W. (1976). « The loss of the negative morpheme ne in Parisian French », Lingua 39 : 119-137.
Ashby W. (1981). « The loss of the negative particle ne in French : a syntactic change in
progress », Language 57 (3) : 674-687.
Avanzi M. (2012). L’interface prosodie/syntaxe en français. Dislocations, incises et asyndètes. Bruxelles :
Peter Lang.
Avanzi M., Béguelin M.-J. & Diémoz F. (2012). « Présentation du corpus OFROM – corpus oral de
français de Suisse romande ». Manuscrit, Université de Neuchâtel.
Avanzi M., Schwab S., Dubosson P. & Goldman J.-P. (2012). « La prosodie de quelques variétés de
français parlées en Suisse romande », in A. C. Simon (éd.) La variation prosodique régionale en
français. Louvain-la-Neuve : De Boeck/ Duculot, 89-120.
Bardiaux A. & Boula de Mareüil P. (2012). Allongements vocaliques en français de Belgique :
approche perceptive et expérimentale. Actes des 29es JEP, non paginé.
Bayard C. & Jolivet R. (1984). « Des Vaudois devant la norme », Le français moderne 52 : 151-158.
Béguelin M.-J. (en prép.). « Les emplois de genre dans la base OFROM ». Manuscrit, Université de
Neuchâtel.
Blanche-Benveniste C. (1997). « La notion de variation syntaxique dans la langue parlée », Langue
Française 115 : 19-29.
Blanche-Benveniste C. & Jeanjean C. (1986). Le français parlé. Transcription et édition. Paris : Didier
Érudition.
Blasco-Dulbecco M. (1996). « Pour une approche syntaxique des dislocations », Journal of French
Language Studies 7 : 1-21.
Boersma P. & Weenink D. (2015). Praat, doing phonetics by computer, v. 5.4, http://
www.fon.hum.uva.nl/praat/.
Branca-Rosoff S., Fleury S., Lefeuvre F. & Pires M. (2009). « Discours sur la ville. Corpus de
français parlé parisien des années 2000 (CFPP2000) », http://cfpp2000.univ-paris3.fr/.
Bürgi A. (1999). « Le pronom ça en français vaudois », Vox Romanica 58 : 149-171.
Cappeau P. & Gadet F. (2007). « Où en sont les corpus sur les français parlés ? », Revue française de
linguistique appliquée 12 : 129-133.
Carton F., Rossi M., Autesserre D. & Léon P. (1983). Les accents des Français. Paris : Hachette.
Christodoulides G., Avanzi M. & Goldman J.-P. (2014). « DisMo : a morphosyntactic, disfluency and
multi-word unit annotator. An evaluation on a corpus of French spontaneous and read speech ».
Proceedings of the 9th International Conference on Language Resources and Evaluation, 3902-3907.
Corpus, 15 | 2016
216
Coveney A. (1998). « Awareness of linguistic constraints on variable ne omission », Journal of
French Language Studies 8 : 159-187.
DELIC (2004). « Présentation du Corpus de référence du français parlé », Recherches sur le français
parlé 18 : 11-42.
Deshaies D. (1991). « Contribution à l’analyse du français québécois : études des pronoms
personnels », Revue québécoise de linguistique théorique et appliquée 10/3 : 11-40.
Detey S., Durand J., Laks B. & Lyche C. (2010). Les variétés du français parlé dans l’espace francophone.
Ressources pour l’enseignement. Paris/Gap : Ophrys.
Detey S. & Le Gac D. (2008). « Didactique de l’oral et normes de prononciation : quid du français
“standard” dans une approche perceptive », Actes du 1er CMLF, 475-487.
Diller A.-M. (1983). « Subject NP structure and variable constraints : the case of french ne
deletion », in R. Fasold (éd.) Variation in the Form and the Use of Language. Washington : Georgetown
University Press, 167-174.
Dister A., Francard M., Hambye P. & Simon A. C. (2009). « Du corpus à la banque de données. Du
son, des textes et des métadonnées. L’évolution de la banque de données textuelles orales
VALIBEL (1989-2009) », Cahiers de l’Institut de linguistique de Louvain 33 : 113-129.
Dufaye L. (2012). « Genre : Trace d’un transfert de prise en charge », in M. Birkelund &
H. Nølke (éd.) La Linguistique énonciative, Aarhus, 49-63.
Dufaye L. (à par.). « Genre ou le scénario d’une grammaticalisation », Linx.
Durand J., Laks B. & Lyche C. (2002). « La phonologie du français contemporain : usages, variétés
et structure », in C. Pusch & W. Raible (éd.) Romance Corpus Linguistics - Corpora and Spoken
Language. Tübingen : Gunter Narr Verlag, 93-106.
Durand J., Laks B. & Lyche C. (éd.) (2009). Phonologie, variation et accents du français. Paris : Hermès.
Fonseca-Greber B. (2007). « The Emergence of emphatic ne in conversational Swiss French »,
Journal of French language Studies 17 : 249–275.
Francard M. (1997). « Le français en Wallonie », in D. Blampain, J.-M. Goosse, J.-M. Klinkenberg &
M. Wilmet (éd.) Le français en Belgique. Une langue, une communauté. Louvain-la-Neuve : Duculot,
229-237.
Gadet F. (1992). Le français populaire. Paris : PUF.
Gauchat L. (1902). « Nos patois romands », Bulletin du Glossaire 1 : 3-24.
Gauchat L., Jeanjaquet J. Tappolet E. (1925). Tableaux phonétiques des patois suisses romands. Relevés
comparatifs d’environ 500 mots dans 62 patois-types. Neuchâtel : Attinger.
Ghisletta P. & Spini D. (2004). « An introduction to generalized estimating equations and an
application to assess selectivity effects in a longitudinal study on very old individuals », Journal of
Educational and Behavioral Statistic 29/4 : 421-437.
Habert B. (2000). « Des corpus représentatifs : de quoi, pour quoi, comment ? », Cahiers de
l’Université de Perpignan 31 : 11-58.
Hadacek C. (1983). Le suisse romand tel qu’on le parle. Lexique romand-français. Lausanne : P.-M.
Favre.
Hambye P. & Simon A. C. (2009). « La prononciation du français en Belgique », in J. Durand,
B. Laks & C. Lyche (éd.) Phonologie, variation et accents du français. Paris : Hermès, 95-130.
Corpus, 15 | 2016
217
Hansen A. B. & Malderez, I. (2004). « Le ne de négation en région parisienne. Une étude en temps
réel », Langage et société 107 : 5-30.
Jolivet R. (1984). « L’acceptabilité des formes verbales surcomposées », Le Français moderne 52 :
159-176.
Knecht P. (1979). « Le français en Suisse romande : aspects linguistiques et sociolinguistiques », in
A. Valdman (éd.) Le français hors de France. Honoré Champion, 249-258.
Knecht P. (1985). « La Suisse romande », in R. Schläpfer (éd.) La Suisse aux quatre langues. Genève :
Éditions Zoé, 125-169.
Knecht P. (2000). « Le français en Suisse romande », in G. Antoine & B. Cerquiglini (éd.) Histoire de
la langue française 1945-2000. Paris : Éditions du CNRS, 719-727.
Knecht P. & Kristol A. (2000-2012). « Base de données lexicographique panfrancophone (la Suisse
romande) », www. bdlp.org.
Knecht P. & Rubattel C. (1984). « À propos de la dimension sociolinguistique du français en Suisse
romande », Le français moderne 52 : 138-150.
Kristol A. (1999). « Histoire linguistique de la Suisse romande : quelques jalons », Babylonia 3/99 :
8-13.
Kristol A. (2013). « Regards sur le paysage linguistique neuchâtelois (1734-1849) : le témoignage
sociolinguistique des signalements policiers », in A. Gendre et al. (éd.), Des mots rayonnants, des
mots de lumière : mélanges de littérature, d'histoire et de linguistique offerts au professeur Philippe Terrier.
Neuchâtel : Université de Neuchâtel, Faculté des Lettres et Sciences humaines ; Genève : Droz,
277-295.
Laberge S. (1977). Étude de la variation des pronoms sujets définis et indéfinis dans le français parlé à
Montréal. PhD Thesis, Université de Montréal.
L’Eplattenier C. (1998). A Perceptual Dialect Study of French in Switzerland. PhD Master, Lausanne.
Lüdi G. (1981). « Sémantique, syntaxe et forme casuelle. Remarques sur la construction aider à qn
en français romand », Vox Romanica 40 : 85-97.
Lüdi G. & Werlen I. (2005). « Le paysage linguistique en Suisse. Recensement fédéral de la
population 2000 », manuscrit, http://www.bfs.admin.ch/bfs/portal/fr/index/themen/01/22/
publ.html?publicationID=1738.
Lyche C. (2010). « Le français de référence : éléments de synthèse », in S. Detey, J. Durand, B. Laks
& C. Lyche (éd.) Les variétés du français parlé dans l’espace francophone : ressources pour l’enseignement.
Paris/Gap : Ophrys, 143-165.
Mahmoudian M. & Jolivet R. (1984). « L’accent vaudois », in Encyclopédie illustrée du Pays de Vaud,
Éditions 24 Heures, 294-307.
Matthey M. (2003). « Le français langue de contact en Suisse romande », Glottopol 2 : 92-100.
Meisner C. (2013). La variation pluridimensionnelle : une analyse de la négation en français. Thèse de
doctorat, Universität Zürich.
Meisner C., Robert-Tissot A. & Stark E. (à par.). « L’absence et la présence du ne de négation », in
M.-J. Béguelin, A. Berrendonner, C. Blanche-Benveniste, J. Deulofeu et D. Willems (éd.)
Encyclopédie grammaticale du français.
Métral J.-P. (1977). « Le vocalisme du français en Suisse romande. Considérations
phonologiques », Cahiers Ferdinand de Saussure 31 : 145-176.
Corpus, 15 | 2016
218
Moreau M.-L. (1986). « Les séquences préformées entre combinaisons et idiomatismes. Le cas de
la négation avec ou sans ne », Le français moderne 54 : 137-160.
Morin Y. (2000). « Le français de référence et les normes de prononciation », Cahiers de l’Institut
linguistique de Louvain 26 : 91-135.
Noailly M. (1990). L’adjectif épithète. Paris : PUF.
Pierrehumbert W. (1926). Dictionnaire historique du parler neuchâtelois et suisse romand. Neuchâtel :
Attinger.
Prikhodkine A. (2011). Dynamique normative du français en usage en Suisse romande. Paris :
L’Harmattan.
Pustka E. & Vordermayer M. (2006). « Le français parlé en Haute-Savoie et les corrélats
prosodiques d’un accent perçu comme “traînant” », Bulletin PFC 7 : 273-281.
Racine I. & Andreassen H. (2012). « A phonological study of a Swiss French variety : data from the
canton of Neuchâtel », in R. Gess, C. Lyche & T. Meisenburg (éd.) Phonological Variation in French :
Illustrations from Three Continents. Amsterdam : John Benjamins, 173-207.
Racine I., Schwab S. & Detey S. (2013). « Accent(s) suisse(s) ou standard(s) suisse(s) ? Approche
perceptive dans quatre régions de Suisse romande », in A. Falkert (éd.) La perception des accents du
français hors de France. Mons : CIPA, 41-59.
Redard, G. (1971). « Sur le français de Suisse romande », Revue Neuchâteloise 54, 2-6.
Rittaud-Hutinet C. (1978). « Le français régional de Besançon », Revue de linguistique romane 42 :
123-148.
Rosier L. (2002). « Genre : le nuancier de sa grammaticalisation », Travaux de linguistique 44 : 79-88.
Schläpfer R. (éd.) (1985). La Suisse aux quatre langues. Éditions Zoé.
Schoch M. (1980). « Résultats d’une enquête phonologique en Suisse romande », Bulletin de la
Section de linguistique de la Faculté des lettres de Lausanne 2 : 1-38.
Schüle E. (1971). « Documents de français régional actuel », Revue neuchâteloise 54 : 11-23.
Singy P. (1996). L’image du français en Suisse romande. Une enquête sociolinguistique en Pays de Vaud.
Paris : L’Harmattan.
Singy P. (2004). Identités de genre, identités de classe et insécurité linguistique. Berne : Peter Lang.
Terrier Ph. (1997). « 100 ans d’enseignement du français langue étrangère à l’Université de
Neuchâtel (1892-1992) », in G. Kahn (éd.) L’Apport des centres de français langue étrangère à la
didactique des langues. Paris : SIHFLES, 127-140.
Thibault A. (1997). Dictionnaire suisse romand. Carouge : Éditions Zoé.
Thibault A. (à par.). « Le français en Suisse romande », in U. Reutner (éd.) Manuel des francophonies.
Mouton de Gruyter.
Torreira F., Adda-Decker M. & Ernestus M. (2010). « The Nijmegen Corpus of Casual French »,
Speech Communication 52 : 201-212.
Tuaillon G. (1983). « Régionalismes grammaticaux », Recherches sur le français parlé 5 : 227-240.
Voillat F. (1971). « Aspects du français régional actuel ». Actes du colloque de dialectologie
francoprovençale organisé par le Glossaire des patois de la Suisse romande, Genève : Droz, 216-246.
Corpus, 15 | 2016
219
Walter H. (1981). « Le surcomposé dans les usages actuels du français », Actants, voix et aspects
verbaux. Université d’Angers, 24-44.
Walter H. (1986). « Un sondage lexical en marge de l’enquête phonologique sur les français
régionaux ». Actes du XVIIe Congrès de linguistique et de philologie romanes, Université d’Aix-en-
Provence, 261-268.
Warnant L. (1997). « Phonétique et phonologie [du français en Belgique] », in A. D. Blampain,
A. Goosse, J.-M. Klinkenberg & M. Wilmet (éd.) Le français en Belgique. Une langue, une communauté.
Louvain-la-Neuve : Duculot, 163-174.
Zribi-Hertz A. (2015). « De l’évolution des propriétés du mot grave en français européen
moderne », in G. Dostie & P. Hadermann (éd.) La dia-variation du français. Berne : Peter Lang, 63-98.
NOTES
1. Selon les dernières estimations de l’Office fédéral de la statistique, la Suisse a passé le cap des
8 millions d’habitants à la fin de l’année 2013.
2. Dans cet article, nous nous servons de l’abréviation « FS » pour renvoyer à l’ensemble des
productions de français écrites et parlées dans l’aire géopolitique que constitue la Suisse
romande, et non pour désigner une (illusoire) variété dont les frontières coïncideraient avec les
frontières politiques de la Suisse romande. Comme l’ont souligné de très nombreux auteurs avant
nous (Knecht 1979, 1985, 2000 ; Terrier, 1997 ; Andreassen, Maître & Racine, 2010), il n’y a en effet
que très peu de traits linguistiques qui soient propres au FS (cela ne concerne en fait que
quelques statalismes, comme bancomat « distributeur d’argent » ou natel « téléphone portable »,
voir sur ce point Thibault, 1997 et à paraître). Sur le plan lexical et syntaxique, certaines
particularités que l’on considère traditionnellement comme des romandismes se retrouvent en
France voisine (bobet « niais, idiot », Thibault, 1997 ; j’ai personne vu , Tuaillon, 1983), dans le
domaine francoprovençal (panosse, « serpillière », Walter 1986), dans la partie sud de la France
(l’usage du passé surcomposé dans les principales, Walter, 1981 ; les adjectifs déverbaux dits
« tronqués » (trempe pour « trempé », Tuaillon, 1983), voire en Belgique (septante pour « soixante-
dix », nonante pour « quatre-vingt-dix », boiler pour « chauffe-eau », Francard, 1997). Sur le plan
phonologique, l’accentuation des syllabes pénultièmes de groupe et la lenteur du débit, que l’on
décrit comme typiques de l’accent romand (Avanzi, Schwab, Dubosson & Goldman, 2012), sont
des traits qui caractérisent également le français parlé dans le Jura français (Rittaud-Hutinet,
1978 ; Carton, Rossi, Autesserre & Léon, 1983 : 42), en Haute-Savoie (Pustka & Vordermayer, 2006)
ou en Belgique (Warnant, 1997 ; Hambye & Simon, 2009 ; Bardiaux & Boula de Mareu il, 2012).
3. L’expression « français de référence » se substitue de plus en plus dans les travaux sur la
variation régionale à la notion de « français standard ». Pour une problématisation de ces
notions, nous renvoyons le lecteur à Morin, 2000 ; Detey & Le Gac, 2008, 2010 ; Lyche, 2010.
4. Jusqu’il y a peu, seule la base de données Phonologie du français contemporain (PFC, cf.
Durand, Laks & Lyche, 2002, 2009, ainsi que Racine, Andreassen & Durand, ce volume) hébergeait
également des enregistrements de locuteurs romands (originaires de Genève, de Neuchâtel et de
Nyon).
5. Nous laissons volontairement de côté dans cet article la variation phonologique, dont l’étude
nécessite des annotations et des outils d’investigation supplémentaires qui sont en cours de
développement.
6. Pour ce dernier point, nous nous sommes basés sur la catégorisation socio-éducative opérée
par Racine & Andreassen (2012) pour les locuteurs et locutrices du point d’enquête neuchâtelois
du corpus PFC. Nous différencions ainsi les personnes ayant atteint le niveau de l’école
Corpus, 15 | 2016
220
obligatoire avec, à l’issue, un apprentissage plutôt technique (maçons, ouvriers, coiffeurs, etc.,
Niveau I) de celles ayant atteint le niveau de l’école obligatoire avec apprentissage plutôt
administratif (employés de banque, employés administratifs, etc., Niveau II), celles avec une
maturité (équivalent français du baccalauréat, Niveau III), enfin celles ayant suivi des études
universitaires (Niveau IV). Nous sommes bien conscients que ces catégories sociolinguistiques ne
sont pas suffisantes (Cappeau & Gadet, 2007 ; Gadet & Guérin, ce volume), mais elles permettent
d’opérer au moins un premier tri. Soulignons enfin que ces renseignements ne sont pas tous
disponibles pour les enregistrements réalisés avant 2009.
7. Lors de la dernière mise à jour (avril 2016) la base comprenait 809 828 tokens transcrits (soit
83 heures de parole), pour un total de 269 locuteurs.
8. Dans les transcriptions, les barres verticales « | » indiquent une frontière d’intervalle dans
l’alignement Praat, le symbole « _ » une pause silencieuse, le symbole « # » un segment
anonymisé et le symbole « % » un segment inaudible (cf. Avanzi, Béguelin & Diémoz, 2012).
9. Corpus suisse de SMS, version 2013.04.04. Distribué par l’Université de Zurich, au nom de
sms4science. URL : http://www.sms4science. uzh.ch.
10. La recherche brute du lemme genre fournit, via le concordancier, 198 entrées. Pour calculer
le nombre d’occurrences de genre, nous avons été conduits à en retrancher 7 : 4 contenant une
erreur probable de transcription, plus 3 formes du N pluriel genres, non pertinentes en
l’occurrence. Nous avons dû en revanche rajouter 3 exemples qui, apparaissant en cooccurrence
avec un autre, n’avaient pas été décomptés par le concordancier.
11. Dans les productions des locuteurs du FS, les variantes régionales et standards coexistent : il
ne faudrait donc surtout pas croire que les Suisses romands parlent et écrivent un français
régional homogène et standardisé. Knecht a fait naguère à ce sujet, dans la préface du Dictionnaire
suisse romand (Thibaut, 1997), une mise en garde très utile.
12. Nous avons pris soin, lors de la recherche de ne, d’exclure les cas où le morphème était
précédé du pronom on, car lorsque ce morphème est suivie d’un mot à initiale vocalique, on ne
peut pas savoir si le ne a été prononcé ou pas (on (n’)en sait rien). Nous avons exclu également, lors
de la recherche de n’, les contextes où le morphème était suivi de importe Q, empêche Q et est-ce
pas. Pour la recherche des forclusifs pas/personne/rien/jamais/aucun/plus, nous avons exclu du
contexte antérieur (5 mots avant) les occurrences des morphèmes ne et n’.
13. Le test a été conduit sur un total de 129 locuteurs, avec pour chacun un nombre minimum de
2 observations et un nombre maximum de 110 observations (soit 33,6 observations en moyenne
par participant). Le fait de mettre le locuteur comme un facteur aléatoire permet de tenir compte
du fait que le nombre d’observations n’est équilibré ni d’un groupe à l’autre, ni d’un locuteur à
l’autre. Compte tenu du faible nombre d’occurrences contenant ne, il n’était pas possible de faire
un seul modèle et de tester les interactions entre les variables.
14. Il reste encore à voir si la différence d’âge entre l’enquêteur et l’enquêté ne joue pas aussi un
rôle. En d’autres termes, que font les personnes plus âgées, quand elles sont entre elles et dans un
contexte de communication familier, entre pairs ?
RÉSUMÉS
La base de données orales de français de Suisse romande (OFROM) contient des transcriptions
d’enregistrements auxquels ont participé des locuteurs nés et vivant en Suisse. Elle a été créée
par des linguistes soucieux de documenter les usages oraux du français en Suisse romande, et de
Corpus, 15 | 2016
221
combler ainsi le retard dans la description des usages oraux de la langue parlée dans cette partie
de la francophonie, notamment sur le plan du lexique, de la syntaxe et de la phonologie. La base
de données OFROM a été mise en ligne en décembre 2012 ; elle est encore jeune et d’ampleur
modeste (65 heures de parole pour près de 410 000 mots transcrits, au moment où nous écrivons),
mais il est prévu de l’enrichir et de la diversifier régulièrement au cours des années à venir. La
première partie de cet article présente les principes fondamentaux qui ont guidé la constitution
de la base (choix des locuteurs, des supports et conventions de transcription, annotations, etc.).
La seconde partie contient les résultats obtenus à l’issue d’études en cours ou de sondages
prospectifs, portant sur la variation lexicale et la variation syntaxique. Ils permettront d’illustrer
quelques-unes des potentialités qu’offrent la base et son moteur de recherche.
The Swiss French oral database of Switzerland (OFROM) hosts recordings and transcriptions of
productions of speakers born and living in Switzerland. It was created by linguists who wanted to
document the oral uses of French in Switzerland, and thereby bridge the gap in the description of
the description of the spoken aspects of the lexicon, syntax and phonology. The database OFROM
was opened in December 2012; it is still young and modest (65 hours of speech for nearly
410.000 transcribed words, at the time of writing), but it is planned to enrich and diversify
regularly over the coming years. The first part of this article presents the fundamental principles
that drove the basic constitution (choice of speakers, conventions of transcriptions, annotations,
etc.). The second part presents the results obtained in ongoing or prospective surveys on the
lexical specificities and syntactic variation. They illustrate some of the potential offered by the
database and its search engine.
INDEX
Mots-clés : corpus, Suisse romande, français parlé, OFROM, lexique, variation syntaxique,
régionalismes
Keywords : corpus, French speaking Switzerland, OFROM, lexicon, syntactic variation,
regionalisms
AUTEURS
MATHIEU AVANZI
Universités de Genève et de Zurich
MARIE-JOSÉ BÉGUELIN
Université de Neuchâtel
FEDERICA DIÉMOZ
Université de Neuchâtel
Corpus, 15 | 2016
222
La contribution des corpus oraux àla description de phénomènes degrammaticalisation. Que nousapprend le CFPB (Corpus de françaisparlé à Bruxelles) sur lespériphrases en aller + infinitif ?The contribution of oral corpora to the description of grammaticalization
phenomena: what do we learn from the Corpus de français parlé à Bruxelles
(CFPB) on aller + infinitive periphrases
Emmanuelle Labeau et Anne Dister
1. Introduction
1 Par un « renforcement expressif » (Meillet, 1912), ou un processus de « subjectivation »
(Hopper & Traugott, 1993), beaucoup de langues développent des tours périphrastiques
à partir de la forme itive (fr., aller) (Hagège, 1993), qui, de verbe « plein » de mouvement
(1), passe à un auxiliaire aspectuo-temporel (2)1.
(1) Le train va à / vient de Bruxelles.(2) Le train va partir / vient de partir
2 La majorité des études se sont concentrées sur la valeur de futur immédiat2, mais Bres
& Labeau (2012a) ont montré – dans une série d’articles récents – que les emplois
discursifs d’aller sont bien plus larges dans l’histoire du français. Ils relèvent huit
constructions différentes intégrant aller :
Corpus, 15 | 2016
223
Tableau 1. Tableau récapitulatif des emplois de aller (adapté de Bres & Labeau, 2012a)
Aux. + V.
inf. 1. Ultérieur
Mesdames et messieurs / attention à la fermeture des portes le train
va partir
2. Narratif Son tiers-mondisme va évoluer vers l’islam. Lors d’un voyage en Iran,
il va se convertir et devenir (/devient) un « intellectuel musulman ».
3. Illustratif
C’est pas un modèle de régularité il va me téléphoner trois fois par
jour et puis pendant une semaine plus rien / et quand je vais l’appeler
personne / aux abonnés absents (Conversation, 2009)
4.
Extraordinaire
… et cet imbécile il est allé se rappeler (/ s’est rappelé) ce que je lui avais
promis… (conversation)
5.
Modalisateurelle est un peu à l’ouest on va dire (conversation)
Aux. +
Prép. + V.
inf.
6. Extrême (…) tu n’es pas allé jusqu’à lui présenter des excuses j’espère / faut
arrêter un peu (conversation, 2009)
Aux. +
V. p.
présent
7. Duratif
Mais dans ton cher cœur d’or, me dis-tu, mon enfant / La fauve
passion va sonnant (/ sonne) l’olifant !… / Laisse-la trompetter à son
aise, la gueuse ! (Verlaine, Lassitude)
Aux. +
V. p.
passé
8. Passif
accessoire
Comme ce rôti s’en allait cuit ( était presque cuit) arrive un autre
homme à cheval. (Saint-Simon, cité par Gougenheim, p. 112)
3 Si les combinaisons incluant les participes sont aujourd’hui vieillies et même
archaïques, les structures impliquant l’infinitif relèvent du français contemporain,
voire du français avancé, puisque certains des emplois – comme l’extraordinaire – sont
rarement présentés dans les grammaires du français, d’autres – comme l’illustratif et
l’extrême – paraissent cantonnés à l’oral et semblent même – comme le modalisateur –
émergents. On peut donc s’interroger sur la place réelle de ces tournures sous-décrites
dans le vernaculaire contemporain. La présente étude se propose d’évaluer à la lumière
des données récoltées dans le Corpus de français parlé à Bruxelles (CFPB) : (i) la
fréquence des emplois du verbe aller et particulièrement des tournures en aller +
infinitif à valeur non temporelle ; (ii) la distribution de ces tournures en termes des
catégories proposées par Bres & Labeau (2012a) ; (iii) l’éventuelle émergence d’emplois
non encore recensés.
4 Nous commencerons par présenter les périphrases itives3 du français, leurs contextes
présumés d’emploi et leurs valeurs sémantiques. Après une brève présentation du
CFPB, nous y ferons le relevé des constructions basées sur aller dans les huit entrevues
intégralement transcrites et vérifiées au moment de la rédaction. Nous terminerons par
une réflexion sur l’apport des corpus oraux pour l’affinement de la description de
structures largement ignorées par les ouvrages descriptifs.
Corpus, 15 | 2016
224
2. Les périphrases itives du français
5 Dans cette section, nous nous concentrerons uniquement sur les 6 périphrases en aller +
infinitif. Nous avons exclu les structures 7 et 8, vu leur caractère littéraire et archaïque
qui rend leur présence improbable dans un corpus de données orales spontanées.
2.1 Emploi ultérieur
6 La valeur d’ultérieur est la seule des structures à avoir été abondamment discutée ; de
ce fait, nous ne nous y attarderons pas. Il suffira de rappeler que l’emploi a émergé
entre la fin du XIIIe et le XVe siècle4 et fonctionne aujourd’hui en concurrence avec le
futur simple (FS). Désigné par les appellations de futur proche ou futur périphrastique, sa
distribution avec le FS a fait l’objet de nombreuses études qui soulignent l’influence de
la proximité, la polarité positive ou négative…
7 En outre, la fréquence de cet emploi varie selon plusieurs facteurs. En diatopie, l’emploi
ultérieur semble avoir particulièrement prospéré dans les variétés d’Amérique du
Nord, où il est supposé éradiquer le futur simple dans l’oral spontané (voir, parmi
beaucoup d’autres, Poplack & Turpin, 1999 ; Blondeau, 2006). Cependant, cette
hégémonie est contrecarrée en diamésie, par exemple dans les textos où le FS présente
des avantages de concision (Labeau, 2014), et en diaphasie, certains genres favorisant
d’autres variables, comme le présent futural ou les énoncés averbaux dans les bulletins
météo (Labeau & Blondeau, sous presse).
2.2 Emploi narratif
8 Selon Bres & Labeau (2012c), dans l’emploi narratif, la périphrase en aller + inf. est
comprise comme suit :
– aspectuellement, elle s’est réalisée jusqu’à la borne terminale de son temps interne ;
– textuellement, elle introduit un nouveau point référentiel dans la diégèse, et contribue
à la progression du récit ;
– contextuellement, elle réfère à un évènement situé antérieurement au moment de la
narration, à savoir dans l’époque passée ;
– énonciativement, aller fonctionne anaphoriquement, et non déictiquement : le
mouvement de prospection a pour origine le procès précédent, et non le moment de
l’énonciation.
9 À l’heure actuelle, le tour a pénétré (presque) tous les genres qui ont affaire à la
textualité narrative, tant écrits qu’oraux, à l’exception de trois d’entre eux : le récit
littéraire de fiction, le récit oral conversationnel, le récit de blagues. Si ces observations
sont exactes, le CFPB, recueil de récits oraux conversationnels où les informateurs
partagent leurs propres expériences passées5, devrait donc décourager l’emploi
narratif.
2.3 Emploi illustratif
10 Dans ce tour, la périphrase sert au locuteur à illustrer par un fait précis un jugement, un
argument ou une définition. Elle peut commuter, suivant le contexte, avec le présent, le
futur et peut + V. infinitif. Bres & Labeau (2014) ont étudié ce tour mentionné
Corpus, 15 | 2016
225
auparavant par Damourette & Pichon (1911-1936), Larreya (2005) et Lansari (2008).
Pour les premiers :
[…] le verbe aller sert à indiquer que le phénomène verbal est sujet à se reproduire,d’une façon irrégulière et quelque peu déconcertante, comme par un caprice. Cetemploi d’aller est très fréquent dans le parler du vulgaire. (p. 116)
11 Pour Larreya (2005), cet emploi « caractéristique » ne se résume pas aux contextes
populaires et oraux : il émerge dans la presse écrite. En effet, Bres & Labeau (2014)
distribuent les occurrences de leur corpus en : conversation (9) ; interviews (3),
commentaires journalistiques (2) ; écriture journalistique (4), présentation
scientifique (2) ; résumé académique (2) ; exemples littéraires (2). Ils dressent un
portrait de la périphrase qui présente les caractéristiques suivantes : (i) structure
textuelle : apparition après un fait, un jugement, une définition ; (ii) structure
syntaxique soit corrélative présentant une alternative, une hypothèse, une opposition
ou une structure comparative, soit des possibilités multiples. L’emploi illustratif est
générique et s’accompagne de déterminants indéfinis ou définis génériques, exclut les
temporaux déictiques et favorise les références pronominales génériques.
12 L’emploi peut alterner avec le présent, le futur ou pouvoir + infinitif, mais avec des
nuances de sens :
Figure 1. Alternances d’emploi
13 Contrairement à l’emploi précédent, l’illustratif semble bien se prêter au contexte
interactionnel des entrevues du CFPB, et nous nous attendrions à en trouver des
occurrences.
2.4 Emploi extraordinaire
14 Damourette & Pichon ont proposé de nommer (allure) extraordinaire le tour dans lequel
l’auxiliarisation des verbes de mouvement aller (et venir) « confère au verbe dont
l’infinitif le suit un caractère dérangeant par rapport à l’ordre attendu des choses »
(1911-1936, V, § 1652). Du fait de la forte modalisation du procès qu’il réalise,
l’extraordinaire se rencontre typiquement dans les interactions verbales. En récit écrit,
il se retrouve plutôt dans les dialogues rapportés que dans le discours du narrateur
omniscient.
Ce tour, qui a traversé les siècles, semble se développer actuellement dans l’écritélectronique, notamment dans les blogs, les chats et les forums : très certainementpar la forte modalisation qu’il permet au locuteur de réaliser. Cette mêmemodalisation nous semble rendre compte de son exclusion des textes relevant de ceque Benveniste nomme le « plan d’énonciation de l’histoire » (1959/1966 : 238), àsavoir des textes produits en effacement (tendanciel) des marques de la subjectivitéet de l’interlocution. (Bres & Labeau, 2012b : 157)
Corpus, 15 | 2016
226
15 Phénomène typiquement oral, l’emploi extraordinaire devrait se rencontrer dans le
CFPB, pour autant toutefois que soient exprimées des opinions intenses.
2.5 Emploi modalisateur
16 Lansari (2010) avait identifié sur base d’un corpus d’écrits sur Internet trois
configurations pour l’emploi ‘modalisant’ de on va dire : (1) on va dire + complétive ; (2)
on va dire + adjectif / nom et (3) on va dire en position finale. Selon elle, c’est la troisième
configuration « que l’on retrouve le plus dans le véritable oral, à la radio ou à la
télévision » (p. 122). En outre, elle considère que l’emploi ne peut se réaliser qu’avec on
et remarque que « la première personne du singulier n’était pas possible dans les
contextes où apparait la locution » (p. 133). Labeau (2012) avait poursuivi l’intéressante
réflexion de Lansari (2010) en palliant certaines de ses faiblesses, à savoir : (1) l’absence
d’un corpus oral pour évaluer un emploi défini tel ; (2) la structure soi-disant figée de
l’expression et (3) la spécificité sémantique de on va dire par rapport à d’autres
expressions modalisantes. Sur base d’un corpus de 125 occurrences orales, Labeau
(2012) observe que la position finale n’est pas majoritaire (48,8 %) et que les
occurrences de on va dire peuvent se réduire à deux configurations disponibles en
antéposition ou en postposition : modalisations quantitative (épistémique) et
qualitative (dénominationelle) de Lansari – séparant les on va dire portant sur l’énoncé
entier et les on va dire portant sur un élément de la phrase. Quant au figement de la
construction – déjà douteux à partir du corpus limité de Lansari (2010) –, il n’est pas
confirmé, et une modalisation comparable s’effectue par le biais de constructions
proches (je vais dire et dans une moindre mesure j’allais dire). Finalement, Labeau (2012)
conclut à la grande adéquation de la séquence on va dire à l’expression de la
modalisation à cause de ses composantes :
En tant qu’auxiliaire, aller signifie un mouvement ascendant dans l’espace du direvers une borne ou un point du procès qui suit, qui représente le lieu où ne se situepas (réellement ou fictivement) l’énonciateur principal et / ou l’énonciataire.La périphrase en aller + infinitif convient donc très bien à l’effet modalisant danslequel l’énonciateur se distancie de son énoncé que ce soit épistémiquement oudénominationnellement. Cet effet de distanciation est maximisé par la combinaisonavec on – c’est un moyen terme entre le je et le tu – qui opacifie le point de vue àpartir duquel la modalisation s’effectue, et renforce l’idée d’approximationvéhiculée par la séquence.(p. 580-581)
2.6 Emploi extrême
17 L’emploi qualifié par Bres & Labeau (2012a) d’extrême a été relevé par Leeman (2005) qui
le définit comme suit :
Dans le cas de la périphrase verbale, l’infinitif dénote le terme extrême d’unparcours […] aller jusqu’à est l’écho de cet itinéraire menant au résultat obtenu […]et ce mouvement est susceptible d’être assorti d’un « effet de scandale » (modalitéappréciative) qui présente le résultat en question comme le terme d’uneprogression qui, selon le locuteur, n’aurait pas dû être atteint. (Leeman, 2005 : 372)
18 Emploi donc subjectif, cet emploi pourrait logiquement apparaitre en récit
conversationnel, pour peu que des sentiments intenses y soient exprimés.
Corpus, 15 | 2016
227
3. Présentation du corpus
19 Hormis l’ultérieur, les emplois présentés ci-dessus n’apparaissent dans la littérature
scientifique qu’à travers un nombre limité d’occurrences souvent littéraires, parfois
construites et rarement représentatives de l’usage contemporain. L’examen de données
conversationnelles est susceptible de nous offrir un aperçu plus réaliste de la véritable
prévalence des tournures en français contemporain. Dans la section suivante, nous
présentons brièvement le corpus sur lequel nous avons travaillé.
3.1 Le CFPB
20 Le Corpus de français parlé à Bruxelles (CFPB)6 se propose de collecter, transcrire et
mettre gratuitement en ligne des données conversationnelles recueillies dans les dix-
neuf communes constituant Bruxelles. Un questionnaire sociolinguistique, basé sur
celui du Corpus de français parlé parisien (CFPP2000)7 mais adapté aux réalités
bruxelloises, sous-tend la collecte des données. L’adoption d’un protocole semblable à
celui du projet parisien présente l’avantage de la comparabilité des données en
diatopie.
21 En outre, l’accent sur la perception qu’ont les informateurs de leur environnement
géographique et linguistique s’avère particulièrement pertinent dans le contexte
bruxellois et belge, où les questions linguistiques et territoriales constituent l’une des
pierres d’achoppement de la vie politique. En effet, la capitale belge se situe
historiquement en territoire flamand mais a subi au cours des siècles une influence
croissante de la langue française pour être aujourd’hui une capitale très
majoritairement francophone. Il serait donc raisonnable de postuler des marques de ce
substrat germanique sur la variété de français parlée à Bruxelles qui la différencierait
non seulement des pratiques parisiennes illustrées par le CFPP2000, mais aussi des
variétés wallonnes documentées par VALIBEL8.
22 Par ailleurs, Bruxelles a attiré et attire toujours – comme toute métropole – des vagues
d’immigration issues d’Europe méridionale, du Maghreb, de ses anciennes colonies et,
plus récemment, d’Europe de l’Est, immigrations qui participent à la diversité
linguistique de la capitale belge. Toutefois, Bruxelles se singularise par un second type
d’immigrés, généralement désignés par le terme d’ « expats », qu’attirent les
institutions internationales telles que l’Union Européenne ou l’OTAN. Ces immigrés
« en col blanc », issus d’Europe de l’Ouest, d’Amérique du Nord et d’autres pays riches,
comme le Japon, se distinguent des autres par de nombreuses caractéristiques : ils
occupent des fonctions requérant des qualifications élevées dans des emplois
généralement obtenus avant leur arrivée, leur séjour tend à demeurer à court / moyen
terme. Ces caractéristiques entrainent des conséquences linguistiques : les expats – à
moins d’installation à long terme suite à des mariages locaux, par exemple –
n’éprouvent qu’un besoin limité d’apprendre le français ou le néerlandais et tendent à
utiliser l’anglais comme lingua franca. L’anglais à Bruxelles bénéficie également du
bilinguisme français-néerlandais officialisé dans la troisième réforme de l’État de
1988-1989. La plus romane des langues germaniques s’avère un compromis neutre et
commode entre francophones et néerlandophones, et une solution économique pour
les campagnes publicitaires.
Corpus, 15 | 2016
228
23 Un dernier avantage majeur de notre corpus est de fournir un aperçu de la réalité
linguistique sous-documentée de Bruxelles. En effet, suite aux tensions linguistiques
qui caractérisent la vie politique belge, le volet ayant trait à l’usage des langues du
recensement a été interdit au début des années 60, et les derniers chiffres officiels
remontent à 1947. La distribution linguistique de Bruxelles ne peut donc être
qu’indirectement appréhendée, par exemple, par le réseau d’enseignement utilisé, qui
ne tient évidemment pas compte des langues de l’immigration et qui cache la tendance
de certaines familles à scolariser leur enfant dans l’autre langue pour améliorer ses
perspectives professionnelles. Par conséquent, d’autres mesures sont prises en compte,
comme l’utilisation des langues lors d’une hospitalisation ou de l’immatriculation d’un
véhicule. Depuis 2001, le ‘baromètre linguistique’ (voir Janssens 2014, pour la troisième
édition) dirigé par Rudi Janssens (VUB, Brio) donne un aperçu de l’emploi des langues à
Bruxelles sur base de questionnaires téléphoniques auprès d’un échantillon de 2 000
Bruxellois. Le baromètre des langues repose sur l’usage rapporté des langues, avec tous
les biais que cela implique. Le CFPB se propose donc d’offrir un pendant qualitatif – en
fournissant un aperçu de l’usage effectif du français – au baromètre des langues.
24 Le CFPB est en cours de constitution, et il comprend actuellement 34 enregistrements
de français parlé non planifié. Si certains enregistrements sont totalement transcrits et
révisés, d’autres ne le sont encore que partiellement. Afin de compléter notre banque
de données, nous privilégions les communes ainsi que les profils des locuteurs les
moins représentés actuellement.
3.2 Présentation quantitative du sous-corpus actuellement transcrit
25 Pour la recherche présentée ici, nous nous sommes basées sur 8 entrevues, totalement
transcrites et vérifiées au moment de la rédaction, et qui représentent une durée totale
de 551 minutes.
26 Les locuteurs ont des profils différents, tant en termes d’âge que de parcours socio-
professionnel ou encore de lieu de résidence. Le tableau ci-dessous synthétise les
informations concernant les locuteurs des enregistrements que nous avons
sélectionnés.
Tableau 2. Profil des locuteurs
Code Locuteur Âge sexe commune profession durée
CG 41 F Ixelles employée 55 min.
DVA 40 H Woluwe-Saint-Lambert architecte 53 min.
GJJ 85 H Marolles chanteur 73 min.
MVU 55 F Uccle institutrice 50 min.
BG 50 F Anderlecht avocate 80 min.
ER 50 H Anderlecht employé 66 min.
MVA 19 F Jette étudiante 99 min.
Corpus, 15 | 2016
229
QP 34 H Ganshoren professeur 75 min.
4. Analyse
27 Dans cette section, nous présentons dans un premier temps un relevé quantitatif des
périphrases itives distribuées selon les catégories présentées dans la section 2. Nous
ferons une analyse qualitative des relevés.
4.1 Analyse quantitative
28 Le tableau ci-dessous présente la distribution numérique des emplois de aller par
informateur
Tableau 3. Distribution des emplois de aller
Mouve-
mentUltérieur Narratif Illustratif
Extra-
ordinaire
Modali-
sateurExtrême Total
CG 26 11 0 7 1 29 0 49
1 53.06 22.45 0 14.29 2.04 8.16 0 100
DVA 14 17 0 2 0 1010 0 41
2 34.15 41.46 0 4.88 0 19.51 0 100
GJJ 21 0 0 1 0 0 0 22
7 95.45 0 0 4.55 0 0 0 100
MVU 4 6 0 12 0 0 0 22
8 18.18 27.27 0 54.54 0 0 0 100
BG 3 10 0 0 0 111 0 14
9 21.43 71.43 0 0 0 7.14 0 100
ER 6 2 0 1 0 4512 0 54
10 1.11 3.7 0 1.85 0 83.33 0 100
MVA 21 33 0 14 0 313 0 71
11 29.58 47.48 0 19.72 0 4.23 0 100
QP 22 3 0 5 0 0 0 30
12 73.33 10 0 16.67 0 0 0 100
Corpus, 15 | 2016
230
117 82 0 42 1 61 0 303
29 La valeur pleine de verbe de mouvement représente la proportion la plus large des
emplois (38,61 %). Parmi les périphrases itives, la valeur d’ultériorité est, sans surprise,
majoritaire (44,09 %), suivie de l’emploi modalisateur (32,8 %) et l’illustratif (22,58 %).
Comme le laissait présager l’étude de Bres et Labeau (2012a), l’emploi narratif
n’apparait pas, pas plus d’ailleurs que l’extrême. Quant à l’extraordinaire, on n’en
compte qu’une occurrence. La fréquence réduite de ces deux emplois, exprimant des
émotions intenses, n’est pas surprenante dans des entrevues du type étudié où des
informations objectives plutôt que des convictions personnelles sont élicitées.
30 On remarque toutefois une grande variation interpersonnelle, notamment dans
l’emploi modalisateur qui tourne au tic de langage chez l’informateur 10, ER.
31 Dans la section suivante, nous nous concentrerons sur une analyse qualitative des
emplois modalisateur et illustratif, compte tenu que nous en possédons plus
d’occurrences que dans les études précédentes.
4.2 Analyse qualitative
4.2.1 L’emploi modalisateur
32 Contrairement à ce qu’affirmait Lansari (2010), l’emploi modalisateur ne se limite pas à
on va dire, minoritaire (18,03 %) par rapport à je vais dire (81,97 %). La structure n’est pas
aussi figée que le prétendait Lansari, et la périphrase peut être séparée par un pronom
objet (3, 5, 6, 7) ou un adverbe (4, 5)14 :
(3) bah écoute là tu sais euh je vais pas te dire le mystère mais euh un jour là j’ai euje sais pas une illumination là (rires) je me suis dit je vais faire architecte et j’ai étédans une école j’ai même pas été voir les autres [CFPB-DVA](4) je vais dire m- m- c’est selon je vais dire on va toujours dire selon les lespossibilités financières des parents mais en règle générale ils s’habillent relax coolje vais dire non je vais dire comme un peu partout je vais dire [CFPB-ER](5) je dirais pour les profiteurs mais ça c’est parce que je suis libérale donc je vais t-plutôt dire [CFPB-MVA](6) et donc c’ je pense que c’est c’est c’est une bonne solution à la fois pour les lespersonnes qui vivent ici depuis plusieurs générations on va le dire comme ça[CFPB-MVA](7) donc et en fait ma barrière naturelle je vais te dire si on peut dire ça comme çac’est la place Meiser [CFPB-CG]
33 Le positionnement de la périphrase modalisatrice pouvait être, selon Lansari (2010), en
début de phrase (on va dire que), devant un nom ou un adjectif modalisé ou en fin de
phrase. Le corpus CFPB montre d’abord que je vais dire est majoritaire, mais surtout à
cause de l’informateur ER qui produit 45 des 61 occurrences (73,77 %), dont 44 en je vais
dire. La position initiale n’apparait qu’avec je vais dire (que) et dans 4/5 des cas sans le
que (8). Pareillement, la modalisation en fin d’énoncé est majoritairement en je vais dire.
Quant au rôle de modalisation du vocabulaire, il ne porte pas que sur les noms et les
adjectifs mais aussi sur les pronoms, les adverbes et même un verbe.
(8) écoute euh je vais dire euh platement j’y vais jamais moi [CFPB-DVA](9) oui je dis maintenant les jeunes ça parle je vais dire pour nous nous d’une autregénération enfin c’est très complipue com- compliqué à les comprendre que ça soitdes SMS qu’on reçoit euh ou des langages disons un langage bien à eux je crois avec
Corpus, 15 | 2016
231
des codes et c’est fait pour qu’on comprenne pas mais je vais dire pourquoi pas jecrois que nous de notre temps c’était plutôt le verlan par exemple maintenant euhc’est un mélange un peu tout je vais dire euh [CFPB-ER](10) et il y a il y a pas mal de choses qui sur le moment même euh je vais dire quim’impressionnent et puis et mais bon qui euh qui tombent vite dans peut-être c’estpeut-être pour ça que ça ça ne me marque pas euh de manière euh indéfinie [CFPB-DVA]
4.2.2 L’emploi illustratif
34 Selon Bres & Labeau (2014), l’emploi illustratif apparait dans une structure soit
corrélative présentant une alternative, une hypothèse, une opposition ou une structure
comparative, soit indiquant des possibilités multiples. On retrouve tous ces cas de
figure dans le corpus.
4.2.3 Alternative
35 En (11), en fonction de indique une variété de situation :
(11) c’est vrai que de nouveau en fonction des communes où on va se trouver dansBruxelles on va être euh plutôt en contact direct avec euh certains types depopulations de de cultures euh étrangères [CFPB-DVA]
4.2.4 Hypothèse
36 L’informatrice en (12) argumente sa position sur l’intégration des étrangers à Bruxelles
en offrant une anecdote hypothétique introduite par si :
(12) si je vais m’installer dans un pays qui a une culture je vais je vais pas essayerd’imposer ma culture d’abord je vais d’abord essayer de voir la culture du pays dem’imprégner de c- la culture du pays de la respecter et puis de voir si ma culturepeut coïncider avec celle du pays je donne un exemple ridicule mais un exemple simaintenant mes convictions à moi c’est d’être nudiste et que je vais pf aux Etats-Unis et j’arrive et puis bon je suis habillée parce que bon pour dans l’avion ça le faitpas trop d’être euh tout nu et j’arrive à l’aéroport machin je prends ma valise hop jesors de l’aéroport et j’arrive sur le territoire américain et puis je me mets toute nueje mets mes affaires dans la valise et puis je vais comme ça jusqu’à l’hôtel toute nuealors je vais me faire interpeller certainement sur le chemin de l’hôtel par euh euh(rires) par des personnes et certainement par la police et là on va me dire il fautvous rhabiller et je vais dire bé non moi ma culture c’est d’être tout nu c’est mac’est c’est ma culture c’est ma façon de penser moi je moi je trouve qu’on est mieuxtout nu en plus je peux bronzer partout en une fois et non je vais me faire arrêterça va pas je vais devoir me rhabiller ci ça et et je vais pas malgré tout essayer dem’imposer de dire non [CFPB-MVA]
4.2.5 Opposition
37 QP illustre les variations lexicales entre Bruxelles et Liège en marquant l’opposition par
l’emploi de pronoms personnels nous et eux :
(13) des différences à quel niveau ? au niveau du lexique au niveau de l’accent auniveau du euh oui bè l’ac- l’accent ça c’est certain et les expressions prenez lesexpressions euh bruxelloises qu’on n- ne comprend pas à Liège mais moi j’ai mafamille qui est une partie de ma famille qui est liégoise par ma maman eh bien il y ades mots qui ne sont pas du tout les mêmes chez le boulanger on demande unebrique c’est un pain carré une miche c’est un pistolet on va acheter euh nous on va
Corpus, 15 | 2016
232
acheter des bonbons et eux ils vont ils vont acheter des chiques une chique c’estun bonbon une chique pour nous c’est un chiclet [CFPB-QP]
4.2.6 Comparaison
38 L’informant âgé oppose les goûts cinématographiques de sa jeunesse avec ceux
d’aujourd’hui. La comparaison des deux époques est soulignée par la présence de
l’adverbe maintenant :
(14) les vieux cinémas il y avait tous les les les les films américains qui ontcommencé à sortir et quand on voit les films américains maintenant comment est-ce qu’on a pu Charlie Chaplin comment est-ce qu’on a pu aimer ça ? co- commentest-ce que Laurel et Hardy nous ont fait rire ? maintenant tu passes un Laurel etHardy à des jeunes ils vont dire “écoute euh ce ça c’est complètement euhcomplètement naze ce ce truc” mais nous ça nous faisait rire. [CFPB-GJJ]
39 L’emploi illustratif débouche même sur de longues séquences narratives anecdotiques,
particulièrement chez MVA, une informatrice très loquace.
5. Conclusion
40 La constitution du CFPB n’en est encore qu’à ses débuts. Toutefois, la prise en compte
de données limitées nous a déjà permis de (i) rassembler des occurrences authentiques
de faits linguistiques sous-représentés dans la recherche malgré leur fréquence dans
l’usage (voir les emplois modalisateur et illustratif de la périphrase itive), (ii) tester des
descriptions et hypothèses linguistiques (le soi-disant figement de l’emploi
modalisateur) et (iii) suggérer des élargissements aux descriptions existantes (p. ex. : la
parataxe en je vais dire). En outre, le CFPB pourra s’avérer un outil utile pour l’étude de
la variation diatopique, par exemple pour une comparaison de la concurrence FS-FP
avec les corpus d’Amérique du Nord ou le CFPP2000. Finalement, vu le contexte
politique de Bruxelles, le contenu du corpus est susceptible d’intéresser des chercheurs
en dehors des sciences du langage (sociologues, urbanistes, historiens…). Autant de
raisons de poursuivre le projet…
BIBLIOGRAPHIE
Blondeau H. (2006) « La trajectoire de l’emploi du futur chez une cohorte de Montréalais
francophones entre 1971 et 1975 », Revue de l’Université de Moncton 37 : 73-98.
Bres J. & Labeau E. (2012a). « De la grammaticalisation des formes itive (aller) et ventive (venir) :
valeur en langue, emplois en discours », in L. de Saussure & A. Rihs (éd.) Études de sémantique et
pragmatique françaises. Bern : Peter Lang, 143-166.
Bres J. & Labeau E. (2012b). « Allez donc sortir des sentiers battus ! La production de l’effet de
sens extraordinaire par aller et venir », Journal of French Language Studies 23/2 : 151-177.
Corpus, 15 | 2016
233
Bres J. & Labeau E. (2012c). « Un phénix linguistique ? Le tour narratif va + infinitif renaîtrait-il, en
français contemporain, de ses cendres médiévales ? », in C. Guillot, B. Combettes, A. Lavrentiev,
E. Oppermann-Marsaux & S. Prévost (éd.) Le Changement en français. Bern : Peter Lang, 1-14.
Bres J. & Labeau E. (2013). « The narrative construction va + infinitive in contemporary French : A
linguistic phoenix risen from its medieval ashes ? », Diachronica 30/3 : 295-322.
Bres J. & Labeau E. (2014). « About the illustrative use of the aller + infinitive periphrasis in
French », in E. Labeau & J. Bres (éd.) Current Evolutions of Romance Tenses. Bern : Peter Lang,
171-202.
Bybee J., Perkins R. & Pagliuca W. (1994). The Evolution of Grammar : Tense, Aspect, and Modality in
the Languages of the World. Chicago/London : The University of Chicago Press.
Damourette J. & Pichon E. (1911-1926/1970). Des mots à la pensée (tome 5). Paris : D’Artrey.
Fleury S. & Branca-Rosoff S. (2010). « Une expérience de collaboration entre linguiste et
spécialiste de TAL : L’exploitation du corpus CFPP2000 en vue d’un travail sur l’alternance futur
simple / futur périphrastique », Cahiers AFLS 16/1.
Hagège Cl. (1993). The Language Builders. Amsterdam/ Philadelphia : John Benjamins.
Hopper, P. J. & Traugott E. C. (1993). Grammaticalisation. Cambridge : CUP.
Janssens R. (2014). Le Multilinguisme urbain : Le Cas de Bruxelles. Bruxelles : Racine.
Labeau E. (2012). « Une façon d’indiquer la “non-coïncidence entre les mots et les choses, on va
dire…” », Congrès mondial de linguistique française – CMLF 12, 573-582.
Lansari L. (2008). « La périphrase aller + inf. en français contemporain : à la recherche d’un
invariant », in A. Lauze, G.-J. Barceló & A. Patard (éd.) De la langue au discours : l’un et le multiple
dans les outils grammaticaux. Montpellier : Praxiling, 225-238.
Lansari L. (2010). « On va dire : vers un emploi modalisant d’aller + infinitif », in E. Moline &
C. Vetters (éd.) Temps, aspect et modalité en français (Cahiers Chronos 21). Amsterdam / New York :
Rodopi, 119-139.
Larreya P. (2005). « Sur les emplois de la périphrase aller + infinitif », in H. Bat-Zeev Shyldkrot &
N. Le Querler (éd.) Les Périphrases verbales. Amsterdam/Philadelphia : John Benjamins, 337-360.
Leeman D. (2005). « Un nouvel auxiliaire : aller jusqu’à », in H. Bat-Zeev Shyldkrot & N. Le Querler
(éd.) Les Périphrases verbales. Amsterdam / Philadelphia : John Benjamins, 361-377.
Meillet A. (1912). « L’évolution des formes grammaticales », Scientia 12 : 384-400.
Poplack S. & Turpin D. (1999). « Does the future have a future in (Canadian) French ? » Probus 11 :
134-164.
NOTES
1. Les études typologiques corroborent ce mouvement de grammaticalisation du spatial au
temporel (Bybee Perkins & Pagliuca, 1994).
2. Voir par exemple l’exploitation du CFPP 2000 par Fleury & Branca-Rosoff (2010).
3. Nous reprenons cette appellation à Hagège (1993 : 103), qui réfère aux périphrases construites
sur aller par le terme d’itives (du latin ire, supin itum).
Corpus, 15 | 2016
234
4. L’effet de sens d’ultériorité développé sur aller est ancien : Gougenheim (1929) le date du XVe
siècle, mais Damourette & Pichon (1911-1936, V, §1643) suggèrent qu’il pourrait remonter à la fin
du XIIe ou au début du XIIIe.
5. It could be argued for instance that in interactive oral narration, the absence of va + inf. is
linked with the 1st person that would make the narrator adopt a retrospective view from the
deictic center (i.e. me-here.now) when retelling past events ; that retrospective narrative stance
is inconsistent with the prospective thrust carried by the periphrasis (Bres & Labeau, 2013 : 316).
6. La première phase du projet (2013-2015) bénéficie du soutien de la British Academy.
7. http://cfpp2000.univ-paris3.fr/
8. http://www.uclouvain.be/valibel
9. je vais dire (2).
10. on va dire (7) ; je vais dire (3).
11. on va dire.
12. on va dire (1) ; je vais dire (44).
13. on va dire (2) ; je vais dire (1).
14. Lansari (2010) avait évoqué un exemple négatif.
RÉSUMÉS
En considérant les occurrences orales de différents emplois de la périphrase en aller + infinitif
décrits par Bres et Labeau (2012a), cet article illustre la contribution positive des corpus oraux, et
particulièrement du nouveau Corpus de français parlé à Bruxelles (CFPB) – au rassemblement
d’occurrences authentiques de phénomènes linguistiques peu étudiés, au test de leurs
descriptions théoriques, mais aussi à l’enrichissement de celles-ci.
By studying oral tokens of different uses of the aller + infinitive periphrasis described in Bres &
Labeau (2012a), this article illustrates the positive contribution of oral corpora –and particularly
of the new Corpus de français parlé à Bruxelles– to the collection of authentic token of
understudied linguistic phenomena, to the testing of their theoretical descriptions as well as the
enrichment of those descriptions.
INDEX
Keywords : oral corpora, corpus of French as spoken in Brussels, aller + infinitive, illustrative
use, modal use
Mots-clés : corpus oraux, corpus de français parlé à Bruxelles, aller + infinitif, emploi illustratif,
emploi modalisateur
AUTEURS
EMMANUELLE LABEAU
Aston University
Corpus, 15 | 2016
235
ANNE DISTER
Université Saint-Louis – Bruxelles
Corpus, 15 | 2016
236
Comptes rendus
Corpus, 15 | 2016
237
Tommaso RASO et Heliana MELLO
(éd.), Spoken corpora and linguisticstudies. Amsterdam : John BenjaminsPublishing, 2014, 498 p.Florence Lefeuvre
1 Le livre édité par Tommaso Raso et Héliana Mello est une contribution fondamentale à
la recherche sur les corpus oraux. Il rassemble les contributions majeures données lors
d’un colloque international au Brésil, à Belo Horizonte, en février et mars 2012,
organisé par le « Gruppo di Studio sulla Comunicazione Parlata », qui est un groupe de
recherche de la Société de Linguistique Italienne. Les langues appréhendées sont
diverses : l’anglais, trois langues romanes (portugais brésilien, français et italien), cinq
langues germaniques du nord (danois, féroïen1, suédois, islandais et norvégien), une
langue non indoeuropéenne (le mohawk, langue amérindienne) et enfin des langues des
signes (américaine et brésilienne). Plusieurs chapitres de l’ouvrage mènent d’ailleurs
des études contrastives entre plusieurs langues.
2 Ces articles permettent de mettre en évidence les deux problèmes majeurs, selon les
auteurs, que soulève l’étude de l’oral spontané :
3 i) Qu’en est-il de l’unité d’analyse de référence pour les corpus oraux, sachant que
l’unité reconnue jusque-là, la phrase, ne fait pas l’unanimité et paraît même, pour
plusieurs auteurs, difficile voire impossible à appliquer aux corpus oraux ?
4 ii) Qu’en est-il de la relation entre la prosodie et sa codification ? On ne peut pas réduire
l’étude de l’oral aux seules transcriptions. La prosodie est un paramètre essentiel pour
étudier, à l’oral, les actes illocutoires et la structure informationnelle.
5 Les articles du volume tentent d’apporter leur contribution à ces deux
questionnements de fond. Ils s’articulent en quatre sections.
6 La première section rassemble trois chapitres qui évoquent les pratiques et les
conditions requises pour compiler des corpus oraux. Dans le premier chapitre, Heliana
Mello met en avant les questions que soulève la compilation d’un corpus d’oral
Corpus, 15 | 2016
238
spontané, à partir notamment du C-ORAL-BRASIL I (Raso & Mello 20122), qui est un
corpus d’oral spontané informel en portugais brésilien, confectionné d’après le corpus
C-ORAL-ROM (Cresti & Moneglia 20053).
7 Le second chapitre, écrit par Janne Bondi Johannessen, Øystein Alexander Vangsnes,
Joel Priestley et Kristin Hagen, traite des traitements syntaxiques de la variation
dialectale à l’oral spontané, en ce qui concerne cinq langues germaniques du nord de
l’Europe. Ce corpus comporte des enregistrements audio et vidéo et rassemble
2,8 millions de mots (conversations et interviews).
8 Dans le troisième chapitre, Ronice Müller de Quadros, Diane Lillo-Martin et Deborah
Chen-Pichler présentent un corpus d’acquisition de la langue des signes dans des
contextes linguistiques et environnementaux différents (variant les paramètres de
surdité concernant les enfants et leurs parents, ainsi que l’âge des enfants (deux
tranches, 1-4 ans et 4-7 ans)). Ce corpus basé sur la vidéo propose des transcriptions
alignées à partir du logiciel ELAN (Crasborn & Sloetjes 2008). Ces trois approches
montrent la nécessité d’établir un guide clair et explicite pour compiler de façon
rigoureuse les corpus.
9 La deuxième section, qui comprend trois chapitres, concerne les différentes couches
possibles d’annotation de corpus. Le chapitre 4, écrit par Eckhard Bick, évoque
l’annotation grammaticale de deux types de corpus, corpus oraux et corpus qui
présentent des airs de famille avec l’oralité (e-mails, chat, nouvelles à la télévision,
discussions parlementaires). Ces différents genres permettent de comparer les
marqueurs linguistiques de l’oralité. Les analyseurs syntaxiques ou parsers tels que
PALAVRAS et EngGram peuvent s’adapter à ces traits syntaxiques selon les genres. La
segmentation syntaxique, dans les corpus oraux, s’établit grâce à la prosodie. A
l’exception du corpus de chat, les performances sont tout à fait intéressantes et se
rapprochent de celles des corpus écrits.
10 Alessandro Panunzi et Maryualê M. Mittmann, dans le 5e chapitre de cet ouvrage,
présentent une base de données en ligne, riche de plusieurs couches d’annotation,
appelée DB-IPIC. Le cadre théorique est celui du « Language into Act Theory » (L-AcT)
ou « Théorie de la langue en acte » (cf. Cresti 20114) pour lequel il existe une interface
entre les unités informationnelles et les unités prosodiques. Les auteurs proposent une
étude comparative entre l’italien et le portugais du Brésil.
11 Dans le chapitre 6, Massimo Moneglia étudie les verbes d’action en italien et en anglais
dans un corpus d’oral spontané multilingue. Sont repérés des verbes à sens généraux
(mettere, to put), qui peuvent avoir une grande variabilité dans leur signification (placer,
relier, ajouter, situer) dans ce type de corpus.
12 La troisième section traite de la façon dont la prosodie donne des informations sur les
différents phénomènes qui interviennent dans l’activité de parole. Elle regroupe quatre
chapitres. Le chapitre 7, dont l’auteur est Philippe Martin, s’intéresse à l’intonation
dans la phrase, en français. Il montre que les nouveaux outils permettent à présent de
se confronter à des corpus de l’oral spontané. Dans le cadre de son modèle (« Dynamic
Cognitive Model »), la structure prosodique détache des groupes accentués (de 2 à 7
syllabes, qui porte seulement un accent) qui sont en étroite dépendance avec la
syntaxe, comme les parenthèses ou encore les dislocations sur la droite ou sur la
gauche.
Corpus, 15 | 2016
239
13 Dans le chapitre 8, Klaus Scherer rappelle tout d’abord le modèle qu’il a construit :
TEEP, the Tripartite Emotion Expression and Perception Model. Il montre ensuite que
les corpus d’oral spontané ne sont pas forcément appropriés pour l’étude des émotions,
généralement cachées. Ce sont en fait les corpus où sont représentées les émotions qui
se révèlent les plus intéressants pour ce type de recherche. L’auteur présente deux
recherches spécifiques, l’une portant sur les marqueurs vocaux de l’émotion selon deux
types d’approche (d’après une technique expérimentale psychologique et d’après la
représentation des émotions) et l’autre portant sur la compréhension de la
communication vocale de quatre émotions majeures (peur, colère, joie, tristesse) à
travers le comportement du locuteur.
14 Dans le chapitre 9, João Antônio de Moraes et Albert Rilliard décrivent, d’après un
corpus audio et vidéo du portugais brésilien, les types d’attitude sur la réalisation des
phrases. Les attitudes qui correspondent à des contenus propositionnels sont basées sur
des indices auditifs alors que les attitudes qui concernent les relations sociales sont
perçues davantage par des indices visuels.
15 Le chapitre 10, rédigé par Douglas Biber et Shelley Staples, étudie le lien entre la
prosodie et l’expression grammaticale des postures du locuteur, c’est-à-dire des
sentiments personnels, attitudes, jugements de valeur, ou opinions. Cette recherche
s’appuie sur le corpus de Hong Kong de conversation anglaise qui inclut des locuteurs
anglophones natifs et des locuteurs anglophones cantonais. Les auteurs examinent plus
précisément le rôle des adverbes : les plus ordinaires, perdant de leur valeur
sémantique, surviennent avec peu de proéminence prosodique, alors que les adverbes
moins ordinaires, gardant toute leur valeur sémantique, sont toujours marqués par une
proéminence prosodique. On peut se demander, avec les éditeurs de l’ouvrage, si la
position de ces adverbes dans la phrase n’est pas fondamentale, selon qu’ils se trouvent
en début de phrase (et de ce fait plus accentués) ou dans le cours de la phrase, plus
intégrés, et donc forcément moins accentués.
16 La quatrième section porte sur le rapport entre la syntaxe et la structure
informationnelle dans quatre chapitres. L’unité de la phrase est remise en question par
les auteurs. Dans le chapitre 11, Marianne Mithun étudie le mohawk, qui appartient à la
famille iroquoise, une langue parlée polysynthétique du nord-est de l’Amérique du
Nord. Elle propose, comme type d’unités, l’unité informationnelle, qui correspond à
une unité sémantique (une nouvelle idée) signalée par la prosodie. Même si la syntaxe
de cette langue diffère complètement de celle des langues européennes (et même
asiatiques), en revanche la structure informationnelle leur ressemble bien davantage :
les locuteurs tendent à présenter une nouvelle idée à un moment donné, au sein
d’unités informationnelles ; la structure prosodique correspond à la structure
informationnelle plutôt qu’à la structure syntaxique.
17 Dans le chapitre 12, les auteurs (Paola Pietrandrea, Sylvain Kahane, Anne Lacheret et
Frédéric Sabio) se situent dans le courant initié par les travaux de Claire Blanche-
Benveniste, et font part de leurs résultats d’après le projet de recherche Rhapsodie
(porteur du projet : Anne Lacheret). Les auteurs mettent à jour trois types de cohésion
différents : une cohésion syntaxique, une cohésion illocutoire, une cohésion prosodique
qui organisent le discours parlé selon des unités maximales indépendantes : les unités
maximales microsyntaxiques (appelées unités de rection), les unités maximales
macrosyntaxiques (appelées unités illocutoires) et les unités maximales prosodiques
(appelées périodes intonatives). Ces unités n’épousent pas forcément les mêmes
Corpus, 15 | 2016
240
frontières. Selon cette répartition, et contrairement à l’hypothèse de Cresti, la prosodie
ne présente pas forcément un niveau essentiel pour déterminer les unités
macrosyntaxiques. Cela dit, à 87 %, les unités illocutoires correspondent aux périodes
intonatives.
18 Dans le chapitre 13, Emanuela Cresti se place dans le cadre de la Théorie de la langue en
acte (theory of Language into Act), construite d’après la Théorie des actes de langage
d’Austin. L’énoncé est l’unité de référence. Le cœur de l’énoncé est une unité
d’information nommée Comment. Il correspond pragmatiquement à un acte de langage
et il est identifié par des indices prosodiques. Selon ce modèle, la syntaxe est
indépendante de la structure informationnelle et prosodique, dans la mesure où le
Comment ne correspond pas forcément à une phrase syntaxiquement bien formée.
D’après cet auteur, deux types d’énoncés sont largement majoritaires dans le discours
parlé quotidien : les énoncés averbaux (38 % dans le C-ORAL-ROM italien) et les énoncés
simples (42 % des 62 % restants sont composés du verbe être + attribut nominal). En
revanche, la subordination au sens strict, représentée par les subordonnées
complétives et les subordonnées relatives, est relativement peu fréquente.
19 C’est dans la même Théorie de la langue en acte que l’auteur du chapitre 14, Tommaso
Raso, examine les marqueurs de discours pris dans le corpus C-ORAL-BRASIL, en se
posant deux questions non encore résolues dans la littérature : comment identifier les
marqueurs de discours et comment identifier leurs fonctions spécifiques, puisqu’ils ne
prennent pas part dans le contenu propositionnel des énoncés ? Ce sont des unités
dialogiques, isolées par des indices prosodiques. Ces unités se distinguent clairement de
l’unité Comment en ce que celle-ci est interprétable seule, alors qu’elles ne peuvent
l’être qu’en fonction de l’énoncé auquel elles prennent part. Les marqueurs de discours
peuvent assurer des fonctions différentes, comme celles de la cohésion ou de
l’empathie parmi les locuteurs, fonctions induites à partir d’indices prosodiques.
20 Nous terminerons en soulignant qu’il s’agit d’un ouvrage majeur de la littérature sur les
corpus oraux, présentant les toutes dernières avancées sur la confection de corpus, sur
leurs enrichissements par diverses couches d’annotations, sur la prosodie et enfin sur
la syntaxe confrontée à la structure informationnelle. Un ouvrage que toutes les
bibliothèques devraient avoir.
NOTES
1. Des îles Féroé qui sont un pays constitutif du Royaume du Danemark.
2. Raso Tommaso et Mello Heliana (éd.), C-ORAL – Brasil I : Corpus de referência do português brasileiro
falado informal. Belo Horizonte : Editora UFMG, 2012.
3. Cresti Emanuela et Moneglia Massimo (éd.), C-ORAL-ROM, Integrated Reference Corpora for Spoken
Romance Languages (Studies in Corpus Linguistics 15). Amsterdam : John Benjamins, 2005, DOI :
10.1075/scl.15.
4. Cresti Emanuela, Moneglia Massimo, Tucci Ida, « Annotation de l’entretien d’Anita Musso selon
la Théorie de la langue en acte », Langue française n° 170, 2011, Lefeuvre et Moline éd., p. 95-110.
Corpus, 15 | 2016
241
AUTEUR
FLORENCE LEFEUVRE
Université de la Sorbonne Nouvelle
Clesthia EA7345
Corpus, 15 | 2016
242
Henry TYNE, Virginie ANDRÉ,Christophe BENZITOUN, Alex BOULTON
et Yan GREUB (éd.), French throughcorpora : ecological and data-drivenperspectives in French language studies.Newcastle upon Tyne UK :Cambridge Scholars Publishing, 2014, 343 p.Filip Verroens
1 Cet ouvrage vise à montrer comment la méthodologie de corpus fait fructifier plusieurs
domaines linguistiques. Il importe donc de démontrer les liens entre les outils, les
méthodes et les analyses. Comme le titre l’indique clairement, l’approche adoptée se
veut inductive (corpus-driven) et écologique. Autrement dit, le corpus y est utilisé
comme point de départ pour élaborer une théorie linguistique et les données sont
authentiques tant dans leur origine que dans leur traitement. Le volume se compose de
seize chapitres regroupés en quatre parties respectivement consacrées à la diachronie,
à la syntaxe, à la sociolinguistique et à l’apprentissage du français. Chaque partie
contient plusieurs contributions empiriques et est introduite par une contribution
générale où l’on établit la relation entre le domaine de recherche en question et la
méthodologie de corpus.
2 L’introduction à la première partie du volume (Bernard Combettes) résume les
avantages de l’emploi de corpus et caractérise les problèmes auxquels les études
diachroniques sont confrontées. Parmi les points positifs, l’auteur note comment les
corpus peuvent changer le regard du diachronicien et par conséquent la manière de
Corpus, 15 | 2016
243
traiter les données linguistiques historiques. Si auparavant les études étaient surtout de
nature synchronique, c.-à-d. une photographie instantanée d’un item grammatical dans
une période bien délimitée, elles portent de nos jours surtout sur le changement
linguistique proprement dit à travers plusieurs périodes. Il s’ensuit que la périodisation
traditionnellement reconnue et la question de la variation seront remises en cause.
Finalement, la possibilité de la lecture ‘verticale’ à l’aide de concordanciers permet de
mettre en lumière plusieurs paramètres contextuels qui restaient inaperçus
auparavant. Quant aux inconvénients, l’auteur observe d’abord que le mérite des
corpus dépend trop souvent du degré d’annotation. Pour l’instant, les seuls domaines
de recherche qui profitent des corpus sont ceux où les données sont facilement
repérables par l’ordinateur, p. ex. l’étude des expressions figées. L’attention accordée
aux expressions figées peut amener des conséquences théoriques importantes étant
donné que la notion de syntaxe est de plus en plus considérée en rapport avec des
constructions figées plutôt qu’avec des constructions libres. Ensuite, une certaine
prudence dans l’annotation automatique des textes historiques s’impose afin d’éviter
des anachronismes au niveau des catégories et des unités syntaxiques. Enfin, il y a la
question largement discutée de la représentativité qui, due à l’absence de certains
genres et registres, semble plus problématique qu’en synchronie vu l’inventaire donné
et clos des textes disponibles. Une première étude (Paul Isambert) montre comment le
peu de données historiques semble à première vue contredire l’hypothèse que
l’adverbe de manière autrement se grammaticalise vers un connecteur d’hypothèse
négative. Or, une analyse synchronique détaillée permet ensuite de reconstruire la
grammaticalisation et de montrer que l’évolution a eu lieu à travers la construction
incluant l’adverbe. La position syntaxique qu’occupe cette construction convient bien à
une réanalyse et ouvre ainsi la voie au connecteur. Une deuxième étude (Richard
Ingham) porte sur la naissance des constructions discursives elliptiques en anglais
(p. ex. Haven’t you heard Peter ? - Yes, I have). Contrairement à d’autres qui expliquent
cette construction par l’influence du substrat celtique, l’hypothèse avancée ici est
qu’elle résulte du contact avec l’anglo-normand. Les arguments en faveur sont, primo,
que les questions et réponses elliptiques en anglo-normand préexistent à l’anglais, qui
est d’ailleurs la seule langue germanique qui en dispose. Secundo, elles apparaissent
dans le même genre (les farces) et registre (le dialogue informel). Tertio, le parallélisme
structurel révèle une réduplication grammaticale et le prestige de l’anglo-normand en
Angleterre a favorisé sa distribution. Le décalage entre le moment de contact présumé
et la première apparition dans les textes est expliqué par l’usage de la construction
dans un registre oral informel précédant le registre écrit. Cette étude montre entre
autres que la linguistique diachronique nécessite un corpus de dialogues en français
pré-moderne. Une troisième étude (Inka Wissner) pose la question de savoir ce que les
corpus textuels peuvent contribuer à l’étude des expressions diatopiquement marquées
en français moderne, en l’occurrence la collocation tomber en amour. Cette expression a
le statut de marqueur diatopique, puisqu’elle est généralement considérée comme un
calque de l’anglais (to fall in love) usité en français québécois. Or, une analyse
lexicographique exhaustive et une analyse sur corpus montrent que cette expression
apparaît déjà au XIIIe siècle en France ce qui rend l’hypothèse d’un calque moins
probable. Sans que l’auteur ne le dise explicitement, on suppose alors que tomber en
amour est un des archaïsmes qui a subsisté dans le Nouveau Monde. Enfin, l’auteur
regrette qu’il n’y ait toujours pas de corpus global pour toute la francophonie pourvu
entre autres d’annotations diatopiques.
Corpus, 15 | 2016
244
3 La deuxième partie contient trois chapitres axés sur l’emploi de corpus en syntaxe.
Dans l’introduction, Christophe Benzitoun souligne la révolution que l’emploi massif
des corpus a déclenchée dans ce domaine. En revanche, le recours à des corpus arborés
(treebanks) pour analyser les données n’est pas encore très fréquent en français. Il est
vrai que leur emploi n’est ni neutre, à cause des choix théoriques adoptés, ni parfait, à
cause d’éventuelles erreurs d’annotation et que l’exemple le plus connu, le French
Treebank, se limite au corpus journalistique du Monde. Ces facteurs expliqueraient
pourquoi certains préfèrent travailler à partir des données brutes. L’ampleur et la
qualité de l’analyse syntaxique changent aussi. D’une part, en se basant sur des corpus
pour définir une grammaire, on préfère donner des tendances descriptives plutôt que
des règles absolues, ce qui amène une certaine fragmentation dans la description.
D’autre part, la collaboration récente entre la linguistique de corpus et la linguistique
expérimentale peut aboutir à des interprétations plus raffinées des données de corpus,
notamment sur le plan des jugements de grammaticalité. L’avenir est à l’éclectisme,
mais la diversité des corpus et des méthodes utilisés requiert une certaine prudence. La
première étude syntaxique (Juliette Thuilier, Anne Abeillé et Benoît Crabbé) concerne
les préférences d’ordre des compléments postverbaux en français. Plusieurs études ont
déjà montré que la longueur de l’objet, le statut discursif et le sens verbal jouent un
rôle. La conclusion générale de la présente analyse est que 70,4 % des données
préfèrent l’ordre NP-PP, mais la longueur de l’objet et la sémantique du verbe sont
susceptibles d’inverser cet ordre. De plus, une analyse multifactorielle montre que ces
deux facteurs et le corpus sont significatifs, contrairement aux facteurs [±pronominal],
[±défini] ou [±animé] du NP ou du PP. Une deuxième étude (Nathalie Rigaud et José
Delofeu) porte sur l’ellipse modale et diffère de l’étude précédente par son caractère
inductif. On y montre que le fragment de surface est dans 75 % des cas une construction
idiomatique (p. ex. comme il faut) associée à une interprétation indépendante du
contexte. Dans les autres cas, le fragment occupe une position VP sans contenu lexical
et sans besoin de structure syntaxique. Habituellement, la reconstruction du VP se fait
grâce à un antécédent (trigger) explicite dans une phrase adjacente. Or, l’antécédent, un
verbe, est parfois assez éloigné et l’interprétation ne se fait pas toujours par un recours
à l’élément explicite, mais par inférence sémantique de l’ensemble du contexte. Par
conséquent, on présume que l’antécédent et le fragment ne forment pas pour autant
une unité syntaxique.
4 Les cinq chapitres de la troisième partie portent sur des études sociolinguistiques.
L’introduction (Virginie André et Henry Tyne) rappelle d’abord que dans la longue
tradition en dialectologie française, les méthodes utilisées ont été, et continuent d’être,
celles de l’interview et du protocole, bref celles orientées par la recherche même
(researcher-driven). Récemment, une approche écologique (speaker-driven) partant plutôt
des données de la situation communicative authentique s’instaure. Cependant, en
attendant de grands corpus pourvus de métadonnées sociolinguistiques, on se retourne
encore fréquemment à de petits corpus locaux. Une seconde observation concerne
l’influence de la masse de données disponible. Cette quantité peut dévier le focus du
domaine de recherche qui est plutôt la manière dont la langue est utilisée et non la
langue utilisée. Enfin, on constate une grande variation dans les théories et méthodes
utilisées, ce que les études suivantes démontrent. La première étude (Emmanuelle
Guerin et Roberto Paternostro) examine les caractéristiques de la langue des jeunes
(LDJ) et de ses locuteurs dans le corpus Multicultural Paris French (MPF). Il s’avère que les
traits de LDJ, à savoir l’emploi du /r/ arabisé, l’affrication de plosives et la structure de
Corpus, 15 | 2016
245
la prosodie finale ne se retrouvent pas que chez les jeunes immigrés de la banlieue
défavorisée. Une analyse du discours rapporté établit une relation entre les stratégies
discursives et prosodiques utilisées en LDJ et la proximité communicative. Plutôt qu’à
une langue, LDJ réfère à une situation communicative qui manifeste une grande
complicité entre les interlocuteurs. Une deuxième contribution (Heike Baldauf-
Quilliatre, Sylvie Bruxelles, Sabine Diao-Klaeger, Emilie Jouin-Cardon, Sandra Teston-
Bonnard et Véronique Traverso) traite de l’élément oh là là dans le Corpus de LAngue
Parlée en Interaction (CLAPI). L’analyse du corpus montre que cette particule assume des
fonctions évaluative et affective dans l’interaction. Mais, elle apparaît aussi comme
élément autonome où elle sert à attirer l’attention de l’interlocuteur. Ce n’est que grâce
à une analyse multimodale que le rôle de oh là là comme moyen de dramatisation
devient très apparent. Une troisième étude (Kate Beeching) décrit les caractéristiques
du marqueur discursif postposé quoi dans des corpus parallèles afin de vérifier si les
différentes traductions sont susceptibles de dévoiler un changement sémantique
diachronique. Trois corpus oraux (1968-2002) montrent d’abord que la fréquence de
quoi postposé a nettement augmenté. Les corpus parallèles d’INTERSECT et d’OPUS à
eux seuls ne sont pas en mesure de vérifier si cette hausse entraîne un enrichissement
pragmatique. Cependant, ensemble avec une analyse historique et un inventaire de
traductions équivalentes, on arrive à la conclusion que quoi postposé tend à perdre sa
force emphatique d’interjection (fonction subjective) en faveur de sens plus larges
(réflexif, interpersonnel et approximatif) à fonction intersubjective. Dans la quatrième
contribution, Fabienne Baider et Evelyne Jacquey vont à la recherche de préjugés
sexuels dans le discours socialiste de 2012 (Aubry versus Hollande). Une analyse du
corpus journalistique montre la perception des deux candidats : les données soulignent
le dynamisme d’Aubry et la faible personnalité de Hollande. Bien que ce soit Hollande
qui l’emporte dans le second tour, il n’y a aucune indication dans les données qui aurait
pu annoncer sa victoire. Aubry, comme Royal en 2007, sont estimées compétentes,
mais, bien que le discours ne manifeste pas de stéréotypes sexuels, elles semblent
exposées à une discrimination négative.
5 Les quatre chapitres de la dernière partie se concentrent sur l’application de corpus
dans un contexte d’apprentissage. Dans l’introduction (Alex Boulton et Henry Tyne), les
notions d’écologie et d’apprentissage sont mises en rapport. L’input ne devient intake
qu’à condition qu’il y ait une relation pertinente entre l’apprenant et son
environnement linguistique (affordance). Une manière de créer cette relation est en
travaillant sur des corpus. Une première étude (Tom Cobb) décrit ce que
l’implémentation de DDL (data-driven learning, approche inductive basée sur des
données de corpus) en français requiert. L’avantage d’une telle approche est que
l’apprenant s’aperçoit plus vite de certaines infos en L2 (p. ex. collocations fréquentes)
lorsque les données sont explicitées par le logiciel. Lextutor est un exemple d’un outil
qui s’inscrit dans la DDL permettant à l’apprenant d’entraîner sur corpus ses
compétences et connaissances en L2. Cependant, le nombre d’outils français en DDL est
encore très limité faute de corpus plus larges et d’une adaptation pédagogique. Une
seconde étude (Elodie Vialleton et Tim Lewis) examine dans quelle mesure
l’accroissement de nouveaux corpus oraux a influencé l’authenticité dans le matériel
éducatif pour des débutants adultes. Cependant, il s’avère que la plupart des dialogues
sont enregistrés en studio. De plus, il y a une nette différence entre les dialogues en
interaction naturelle et ceux du manuel au niveau de l’hésitation, des tours de parole et
de l’articulation. Les propriétés de la parole authentique ne se retrouvent pas (assez)
Corpus, 15 | 2016
246
dans les manuels. Par conséquent, les apprenants sont privés de la complexité de la
parole authentique ainsi que de stratégies pour l’acquérir. Une troisième étude (Maud
Dubois, Alain Kamber et Carine Skupien Dekens) présente une analyse de l’accord de
l’adjectif en L2 (niveau B1). Le corpus comprend des textes narratifs, argumentatifs et
des résumés rédigés par des locuteurs de six langues distinctes. Le nombre d’erreurs est
différent d’après la L1 mais connaît une répartition homogène sur l‘ensemble des
adjectifs attributifs et prédicatifs. L’accord est surtout problématique dans la position
post-nominale de l’adjectif attributif et lorsqu’il s’agit d’un adjectif au pluriel.
Beaucoup d’erreurs s’expliquent par une prononciation incorrecte. C’est pourquoi le
lien représentation phonétique - code écrit est crucial et mérite plus d’attention en
classe de langue.
6 Il est vrai que French through corpora plaît pour plus d’une raison. Primo, à cause de
l’organisation générale du livre. L’ouvrage ne manque pas d’articles forts et prévoit
chaque fois une introduction dans laquelle des représentants éminents du domaine de
recherche en question proposent des réflexions courtes mais pertinentes et où ils
établissent le lien entre le domaine et la méthodologie de corpus, ce qui rend le livre
très accessible à des chercheurs d’autres disciplines. Secundo, de l’approche
pronominale en syntaxe à l’analyse du discours (CDA, Critical Discourse Analysis), sa force
se situe incontestablement dans la richesse des disciplines linguistiques et des cadres
théoriques présentés. Compte tenu de cette diversité et du choix de publier en anglais
le livre est susceptible d’intéresser un grand public. La publication en anglais est un
signal international important et montre la progression dans le domaine de la
linguistique de corpus en français. Bien que plusieurs projets soient en cours, on peut
en effet (e.a. p. 134 et 287) regretter le retard d’un grand corpus de référence, équilibré
au niveau du genre. Mais, comme cet ouvrage et des bases de données (cf. Clarin, UGent
Corpus Finder) l’indiquent, pendant longtemps il n’a pas manqué de corpus, mais plutôt
d’études entièrement basées sur corpus. C’est précisément au niveau méthodologique
que nous aurions voulu que ce volume soit plus ambitieux. Le sous-titre annonce une
approche inductive, qui est l’approche généralement liée à la linguistique de corpus
(Tognini-Bonelli 2001 ; Teubert & Krishnamurthy 2007), impliquant un traitement
quantitatif et statistique (Biber & Reppen 2015 : 50-51). Or, nous constatons qu’un tiers
des articles n’est pas quantitatif, certaines études (Thuilier et al. et Beeching) sont
déductives (corpus based) et seulement deux études (Thuilier et al. et Vialleton & Lewis)
utilisent des techniques statistiques. Si l’on fait un effort pour analyser les fréquences
des phénomènes qu’on étudie, on devrait aussi vérifier si les différences observées dans
la fréquence sont également statistiquement significatives. Renoncer à une telle
analyse n’est pas seulement une chance ratée, mais cela augmente aussi le risque de
trouver une explication linguistique pour des résultats de corpus qui, en fait, sont dus
au hasard. Est-ce que nous devons en conclure que les auteurs n’ont pas atteint leurs
objectifs ? Non, si le contenu ne répond pas entièrement aux attentes créées par le
sous-titre, les auteurs ne se limitent pas à souligner l’importance de l’utilisation de
corpus. L’aspect innovateur de French through corpora consiste, d’une part, en une
discussion sommaire mais critique de l’état de la question méthodologique dans
plusieurs domaines de recherche. D’autre part, il contient plusieurs études de cas
empiriques intéressants sur le plan descriptif, méthodologique et théorique. Ceci dit, ce
travail se présente comme un véritable complément à des guides d’introduction à la
linguistique de corpus. Nous le recommandons non seulement aux linguistes actifs dans
une des disciplines discutées dans le livre, mais certainement aussi aux didacticiens.
Corpus, 15 | 2016
247
BIBLIOGRAPHIE
Biber D. & Reppen R. (2015). The Cambridge handbook of English corpus linguistics. Cambridge :
Cambridge University Press.
Teubert W. & Krishnamurthy R. (éd.) (2007). Corpus Linguistics. Critical Concepts in Linguistics. Vol. 1.
London : Routledge.
Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam : John Benjamins.
AUTEUR
FILIP VERROENS
Université de Gand
Corpus, 15 | 2016
248
Cécile ALDUY et Stéphane WAHNICH, Marine Le Pen prise aux mots.Décryptage du nouveau discoursfrontiste. Paris : Seuil, 2015, 311 p.Camille Bouzereau
1 Marine Le Pen prise aux mots s’ouvre sur le « mot de trop » susceptible de représenter
« l’abîme » séparant le discours de Jean-Marie Le Pen et celui de Marine Le Pen. Prenant
comme postulat de départ qu’il y a une stratégie de dédiabolisation dans le discours de
Marine Le Pen, Cécile Alduy1 et Stéphane Wahnich 2 se posent la question si cette
stratégie change pour autant le contenu idéologique. La question ainsi posée sous-tend
une réponse négative : L’abîme entre les deux discours est-il si grand ? Si le discours de
Jean-Marie Le Pen n’est pas ambigu, celui de la seconde présidente du parti demande
un décodage – et il s’agit bien de l’enjeu de l’ouvrage. Les deux auteurs proposent alors
une étude lexicale comparative des discours des deux leaders successifs du Front
national. Motivés par les scores nationaux croissants du parti ainsi que par le manque
d’études concernant le discours de la présidente du parti3, ils se donnent pour double
objectif de décrypter la logique interne du discours de Marine Le Pen, ainsi que celui de
comprendre la réception de son discours dans la société française actuelle.
2 Cécile Alduy et Stéphane Wahnich ont fait comme premier choix de borner leur corpus
à partir de l’élection de Marine Le Pen à la tête du parti (janvier 2011) jusqu’à novembre
2013. Concernant le discours de Jean-Marie Le Pen, les auteurs retiennent les dates
1987-2010. Leur second choix repose sur la nature des discours retenus : leur corpus est
fondé sur « les interventions publiques, destinées à être diffusées […] au public »
(p. 273). Enfin, en raison des multiples apparitions médiatiques de Marine Le Pen (plus
de 2 000 fois entre janvier 2011 et janvier 2014), les auteurs ont fait comme dernier
choix de ne retenir que les interventions « qui dépassaient 800 mots, ou environ cinq
minutes de parole » (id.). C’est à travers un corpus de 500 textes que Cécile Alduy et
Stéphane Wahnich se lancent donc dans une analyse comparative des discours des deux
présidents du parti.
Corpus, 15 | 2016
249
3 Leur étude lexicale se fait au moyen d’outils statistiques et rhétoriques. La lexicométrie
est une méthode assistée par ordinateur visant à prendre la mesure du discours en
conjuguant quantitatif et qualitatif. En effet, les logiciels tels Termino, Hyperbase et
Voyant-tools leur ont permis d’acquérir de solides bases statistiques (fréquences
lexicales, concordances et réseaux sémantiques). C’est ensuite par le biais de la
rhétorique, de la sémiotique et de la sociologie qu’ils choisissent d’analyser leurs
résultats.
4 Dès lors, l’ouvrage se décompose en trois parties dont les deux premières visent à
répondre à la question : que dit réellement Marine Le Pen ? La troisième partie cherche
à comprendre les causes d’une aussi grande réception de ce discours.
5 Première partie – Les mots
6 La première partie fait l’œuvre d’une collaboration entre les deux auteurs. L’enjeu est
d’analyser les mots que Marine Le Pen choisit pour mettre en discours le réel. Les
résultats statistiques sont nombreux et révèlent une recherche précise et pertinente de
la part des auteurs. Les analyses, quant à elles, confirment l’hypothèse de départ. Les
enjeux du discours visent à normaliser la parole frontiste sans en perdre la radicalité
ainsi qu’à faire du parti l’instrument puissant pour briser l’enfermement thématique.
Marine Le Pen modernise en effet son discours en apportant un nouveau champ
sémantique (par exemple il y a dans son discours une surexploitation du lexique
économique par rapport au discours du père). L’analyse de Stéphane Wahnich sur la
démocratisation souligne l’importance du sens donné aux mots : selon lui cette
démocratisation est surtout « cosmétique » (p. 51). Néanmoins, si le discours tend vers
la démocratisation, la locutrice du Front national n’en oublie pas pour autant la
rhétorique de l’extrême droite traditionnelle, à l’œuvre dans les discours de Jean-Marie
Le Pen. Et c’est ce que montre Stéphane Wahnich notamment par la répétition des
termes « Français », « nation », « peuple » qui créent un discours nationaliste. On
appréciera par ailleurs les comparaisons graphiques de Cécile Alduy concernant le
double discours de Marine Le Pen qui « ne sert pas les mêmes propos aux militants des
congrès et meetings du 1er mai et aux médias grand public » (p. 83). Dans une dernière
sous-partie, Cécile Alduy décrypte derrière les mots, le sens effectif et derrière le sens,
l’idéologie sous-jacente.
7 Deuxième partie – Mythologies
8 L’enjeu est ici de décrypter les signifiants profonds de ces discours, au niveau des
mythes, des figures de style, et du système anthropologique. Cécile Alduy examine
l’imaginaire lepéniste dans une perspective diachronique (puisqu’elle observe les
continuités et les évolutions qu’il y a entre les discours des deux leaders politiques).
Elle note que le mondialisme, formé à partir du suffixe « isme » est décrit comme
« monstre idéologique » afin de se présenter comme la solution unique (p. 149). Par
ailleurs, père et fille utilisent le « leitmotive d’avoir “prévu” tel ou tel aspect de la
situation contemporaine » (p. 160). L’auteure s’attache également aux répétitions
essentielles dans les discours des deux locuteurs qui permettent de « marteler […] les
mêmes idées, les mêmes exemples, exprimés dans les mêmes formules, preuves de la
cohérence et de la permanence d’une vision du monde imperméable aux événements »
(p. 178). Elle note bien sûr la convocation de l’Histoire à l’œuvre dans les deux corpus et
inscrit en parallèle les deux corpus dans un « corpus classique d’extrême droite »
(p. 182) en ce qu’ils refusent le changement – on regrettera ici une comparaison précise
avec un corpus d’extrême droite. Enfin, Cécile Alduy conclut sur le paradoxe du
Corpus, 15 | 2016
250
discours mariniste : d’une part, Marine Le Pen manie « une novlangue technocratique
pour des discussions de politique économique parfois absconses » (p. 184) et d’autre
part, elle se nourrit « d’un récit mythologique et hyperbolique dans la lignée de celui de
son père » (id.).
9 Troisième partie – Les conditions d’une réception favorable
10 Dans cette dernière partie, Stéphane Wahnich essaye de comprendre les motivations
des électeurs votant Front national. Selon lui, Marine Le Pen a récupéré l’électorat de
son père, puis l’a fait évoluer et prospérer (p. 187). Refusant un lien de causalité trop
simpliste entre la situation socio-économique et la montée du Front national (p. 188), il
préfère expliquer cette progression par les cinq causes suivantes : la logique
géographique (soit par l’opposition des centres-villes aux périphéries urbaines et par la
logique régionale qui montre une « réaction préventive des électeurs à l’égard de ce
que les médias leur rapportent » (p. 194)), l’impuissance des politiques d’autres partis
(impossibilité de formuler un discours d’explication, nombreux dérapages), le
changement sociétal amené par la mondialisation, l’accueil des médias (le Front
national offre une « garantie d’une belle audience » (p. 228)), et enfin la force de
l’idéologie du discours de Marine Le Pen qui propose un schéma explicatif du monde.
11 Conclusion – Le double discours de Marine Le Pen
12 En conclusion, Cécile Alduy récapitule et répond de façon nuancée à l’interrogation de
départ « Que dit Marine Le Pen ? ». La locutrice du Front national dit la même chose
que Jean-Marie Le Pen « mais souvent autrement […] car elle ajoute de nouvelles
thématiques » (p. 245). Néanmoins, elle s’éloigne de ce qu’il dit « car elle passe sous
silence certaines obsessions paternelles (l’antisémitisme, le racisme biologique) » (id.).
Par ailleurs, à la question concernant la réception du discours de Marine Le Pen,
l’auteure répond que la locutrice conjugue « mots » et « maux » (p. 256) pour donner une
forme aux peurs des citoyens. L’ouvrage se termine par une demande adressée aux
autres partis politiques reposant sur la nécessité d’une redéfinition de certains
concepts (p. 271).
13 Les recherches statistiques, nombreuses et pertinentes, permettent de répondre
quasiment entièrement aux questions posées. Néanmoins, les analyses auraient gagné à
être étoffées par une argumentation plus détaillée. Les auteurs le disent eux-mêmes,
l’ouvrage a été réalisé à partir d’une situation d’urgence (p. 23). Ils pourraient ainsi
développer leur première partie, en ne s’attachant pas uniquement au lexique, mais en
étudiant par exemple les stratégies discursives en général. Cet ouvrage destiné à un
large public provoquera, toutefois, l’envie de poursuivre leur démarche. L’analyse du
discours pourra en effet prendre exemple pour étudier les faits de langue
caractéristiques du discours du Front national.
NOTES
1. Professeure de littérature française à l’Université de Stanford.
2. Professeur-associé de communication politique et publique à l’Université de Paris-Est-Créteil.
Corpus, 15 | 2016
251
3. Il y a en revanche un ouvrage sur le discours de Jean-Marie Le Pen : Le Pen, les mots, analyse d’un
discours d’extrême droite, M. Souchard, S. Wahnich, I. Cuminal et V. Wathier (éd.), Paris, Le Monde
Éditions, 1997.
AUTEUR
CAMILLE BOUZEREAU
BCL, UMR 7320
Corpus, 15 | 2016
252