Corpus 5421

Corpus
22 | 2021
Du recueil à l’outillage des corpus oraux : comment
accéder à la variation ?
Édition électronique
URL : https://journals.openedition.org/corpus/5421
DOI : 10.4000/corpus.5421
ISSN : 1765-3126
Éditeur
Bases ; corpus et langage - UMR 6039
Référence électronique
Corpus, 22 | 2021, « Du recueil à l’outillage des corpus oraux : comment accéder à la variation ? » [En
ligne], mis en ligne le 15 janvier 2021, consulté le 19 mars 2022. URL : https://
journals.openedition.org/corpus/5421 ; DOI : https://doi.org/10.4000/corpus.5421
Ce document a été généré automatiquement le 19 mars 2022.
© Tous droits réservés

1
SOMMAIRE
Introduction
Céline Dugua et Layal Kanaan-Caillol
Le corpus comme portail pour l’étude de la variation (socio)linguistique

Shana Poplack
A new milestone for the study of variation in Montréal French: The Hochelaga-Maisonneuve
sociolinguistic survey
Hélène Blondeau, Mireille Tremblay, Anne Bertrand et Elizabeth Michel
Variation sociolinguistique et réseau social : constitution et traitement d’un corpus de

données orales massives
Aurélie Nardy, Hélène Bouchet, Isabelle Rousset, Loïc Liégeois, Laurence Buson, Céline Dugua et Jean-Pierre Chevrot
Corpus ESLO-Enfants : de sa création aux premiers résultats

Jennifer Ganaye
Vers un outillage informatique optimisé pour corpus langagiers oraux en vue d’une
exploitation textométrique : le cas des interrogatives partielles dans ESLO
Flora Badin, Loïc Liégeois, Gabriel Thiberge et Christophe Parisse
Du recueil à l’exploitation des corpus de parole « pathologique » : comment accéder à la

variation physiopathologique ?
Alain Ghio, Gilles Pouchoulin, François Viallet, Antoine Giovanni, Virginie Woisard, Lise Crevier-Buchman, Fabrice Hirsch,
Camille Fauth et Corinne Fredouille
Réduction des segments en français spontané :apports des grands corpus et du traitement
automatique de la parole
Yaru Wu et Martine Adda-Decker
De la protection des données à la protection de la personne :Réflexions sur l’impact des

nouvelles réglementations sur la collecte des corpus
Muriel Lalain, Gilles Pouchoulin, Béatrice Priego-Valverde et Serge Pinto
Varia
Des discours authentiques singuliers aux scénarios de formation pour les médecins : quelle
méthode d’exploitation pragmatique du corpus DECLICS2016 ?
Emmanuèle Auriac-Slusarczyk et Aline Delsart
Conceptualisation en lexicométrie des anglicismes.Le corollaire empirique d’un choix

méthodologique
Cécile Planchon
Envisager la production de sens à travers la cooccurrence : la représentation médiatique de

l’éleveur dans le contexte du retour du loup
Marie Chandelier
La phraséologie du roman contemporain dans les corpus et les applications de la

PhraseoBase
Sascha Diwersy, Laetitia Gonon, Vannina Goossens, Olivier Kraif, Iva Novakova, Julie Sorba et Ilaria Vidotto
Corpus, 22 | 2021
2
Introduction
Céline Dugua et Layal Kanaan-Caillol
1 Depuis les années soixante-dix et le corpus de Montréal (Sankoff et al., 1976), les corpus
oraux et multimodaux ont été au cœur des transformations technologiques,
méthodologiques et théoriques de la linguistique sur corpus numériques, reconfigurant
les attentes en matière de conservation des documents sonores. Les outils et
instruments de transcription, d’annotation, de traitement du signal, de textométrie, de
visualisation, et plus généralement tous les outils du TAL et du traitement de données,
les plateformes de conservation et de diffusion de corpus, les initiatives visant
l’interopérabilité des données sont apparus comme indissociables des analyses et des
opérations de constitution et d’exploitation de corpus.
2 Enfin, à l’heure du web de données, les questions posées par l’archivage et par la
réutilisation de corpus, tout comme les projets de sciences contributives dépassent le
domaine de la linguistique bien que celle-ci soit concernée en premier lieu. Ces
transformations, qui nécessitent une réflexion sur la normalisation et le formatage,
questionnent la place qui doit être faite à des données hétérogènes pour l’étude de la
variation.
3 C’est autour de ces problématiques des corpus oraux qu’avec des collègues du LLL-
UMR7270, nous avons organisé en novembre 2018, le colloque anniversaire des 50 ans
des Enquêtes Sociolinguistiques à Orléans (ESLO). Intitulé « 50 ans de linguistique sur
corpus oraux : apports à l’étude de la variation », ce colloque a accueilli une large
communauté de linguistes, de sociolinguistes, de Talistes présentant leurs travaux sur
des corpus francophones (France, Québec) et italien, japonais, anglo-américain, créole
haïtien. Au-delà de cet évènement, nous avons souhaité, dans ce numéro de Corpus,
élargir le panorama en rassemblant des travaux qui problématisent ce qu’impliquent la
prise en compte et l’étude des variations sur les outils utilisés à chaque étape de la
chaine de traitement d’un corpus, en commençant par la constitution des données.
Cette chaine de traitement a été formalisée pour ESLO par Baude (2006) et Baude et
Dugua (2011, 2016) qui soulignent par ailleurs les liens constants et multidirectionnels
entre les différentes phases du process. Avec une approche sociolinguistique
variationniste, ESLO s’est proposé de constituer un corpus prototypique qui puisse
Corpus, 22 | 2021
3
mettre en évidence les conséquences que la prise en compte de la variation a sur

l’ensemble des étapes de la chaine.
4 La question centrale posée dans ce numéro est justement cette prise en compte de la
variation, ou plutôt de toutes les variations, y compris celles inhérentes aux tâches de
transcription ou de catalogage, dans le recueil et la constitution de corpus ainsi que
dans les outils de traitement et d’analyse. Les huit articles sélectionnés recensent les
contraintes et les solutions envisagées pour répondre à cet objectif, et l’un d’eux est
consacré à la question cruciale de l’impact des nouvelles réglementations sur la collecte
des données.
5 Nous distinguons quatre thématiques dans ces contributions : la constitution de corpus,
les métadonnées, l’outillage et les objets variables. Le volet éthique et juridique
constituera un cinquième point.
1. Constitution de corpus
6 Dans la chaine de traitement, chaque étape est conditionnée par les précédentes et
anticipe les suivantes, en intégrant la variation, comme l’article de Sh. Poplack qui
ouvre ce numéro en apporte la démonstration. L’auteure présente différents corpus du
Labo (Laboratoire de linguistique de l’Université d’Ottawa) en mettant l’accent sur
plusieurs phases, de la collecte, à la conservation en passant par la transcription,
l’annotation, l’analyse.
7 L’étape de la collecte détermine l’ensemble du processus et conditionne la phase
d’exploitation. De ce fait, la constitution de corpus, notamment dans sa collecte répond,
ou en tout cas est guidée, par des questions liées à l’objet/aux objets d’étude. C’est dans
ce sens que Sh. Poplack affirme :
Conscients que le matériel linguistique à la disposition du linguiste décide en
grande partie de ce qui peut faire l’objet d’étude, nous amorçons notre démarche
par le recueil de données, ce qui soulève l’inévitable question : quoi recueillir et
auprès de qui ? Les corpus du Labo sont d’abord et avant tout conçus comme des
archives de réponses potentielles à des problèmes de recherche précis. (Poplack, ce
numéro).
8 « Quoi recueillir et auprès de qui ? ». Plusieurs articles de ce numéro reprennent cette
question en fonction des visées linguistiques propres à chaque projet. Il en résulte une
large palette de choix méthodologiques autour d’un enjeu central : appréhender la
variation.
9 Saisir la variation dès l’étape de la collecte commence par la définition des
caractéristiques attendues des participants :
• corpus stratifié pour Blondeau et al., comparable avec la première enquête sociolinguistique
sur le français de Montréal (1971) pour observer le changement en temps réel afin de
vérifier l’hypothèse selon laquelle la variation linguistique et sociale synchronique est à la
base de la variation diachronique (Labov, 1994).
• enfants issus de familles de milieux socio-économiques contrastés, « à l’image de ce que peut
être la population d’une ville » pour J. Ganaye qui se propose de « questionner l’influence
des milieux socio-économiques sur l’usage du langage » dans le cadre de l’étude de la liaison.
• élèves et adultes dans une école maternelle mixte pour A. Nardy et al. en vue d’une étude de
la variation et des réseaux sociaux sur des données massives.
Corpus, 22 | 2021
4
10 Saisir la variation c’est aussi recueillir des données authentiques, spontanées ; recueillir
le vernaculaire. Cela implique, pour le chercheur, de créer des situations de collecte
favorables et de résoudre le Paradoxe de l’observateur (Labov, 1972). L’ entrevue
sociolinguistique (Labov, 1984) constitue un des dispositifs le plus souvent adopté.
11 Le recueil des données du corpus Hochelaga-Maisonneuve (Blondeau et al.) s’est fait
dans le cadre d’entretiens en face-à-face au domicile des participants, menés pour
certains par les chercheurs du projet et pour d’autres par des étudiants. Un guide
d’entretien a servi de support tout en gardant l’objectif d’un échange fluide et spontané
autour de sujets tels que les souvenirs d’enfance, les événements biographiques, la vie
de quartier et des questions liées à l’usage du français à Montréal et au Québec.
12 Pour certains corpus du Labo (Sh. Poplack), les chercheurs ont formé des membres des
communautés ciblées afin de leur confier la réalisation des entretiens.
13 J. Ganaye pour sa part a fait le choix de l’absence du chercheur. Pour étudier
l’acquisition du langage chez les enfants – à travers l’étude de la liaison – en prenant en
compte l’impact de l’input (l’environnement langagier) sur l’output (productions
enfantines) dans différents environnements, le corpus a été réalisé par saisie « [de]
situations naturelles variées formant le quotidien des enfants ». Avec un kit
d’enregistrement et un mode opératoire confiés aux parents, l’absence du chercheur
vise à « réduire l’effet du « paradoxe de l’observateur » et [à] accéder aux situations les
plus écologiques possibles », telles que les repas, les moments de jeux, les devoirs, etc.
14 A des fins de recueil de données massives et longitudinales pour l’étude des
dynamiques langagières des élèves en lien avec les réseaux sociaux, et ce dans une
école maternelle socialement mixte, A. Nardy et al., quant à eux, ont recours à un
dispositif de collecte embarqué, très spécifique : « Environ 200 individus (enfants et
adultes) sont équipés une semaine par mois pendant 3 ans de capteurs qui enregistrent
en continu à la fois leurs interactions verbales et leurs contacts sociaux. »
15 En somme, ces quatre exemples illustrent la variété des protocoles de collecte, depuis
des démarches classiques et largement répandues qui font leur preuve, jusqu’à des
procédures spécifiques, déterminées par l’objet de recherche et les relations entre les
locuteurs.
2. Métadonnées
16 Dans la constitution d’un corpus variationniste, les métadonnées revêtent une
importance particulière. La nomenclature et le recueil des métadonnées doivent être
pensés en amont de la collecte, comme le mentionnent H. Blondeau et al. et J. Ganaye.
Sur des échantillons différents et avec des objectifs d’analyse spécifiques, les types de
métadonnées ne seront pas identiques. J. Ganaye (ESLO-Enfants) privilégie des
informations concernant les familles (types d’activités pratiquées, rapport à la culture,
CSP, etc.) et les résultats à des tests de langage que les enfants ont passés. Dans le cadre
du corpus FRAN-HOMA (Blondeau et al.) les auteures insistent sur l’importance de la
stratification et des variables nécessaires à son organisation.
17 Abordant les corpus de parole pathologique en français, avec l’objectif de les
rassembler en base de données, A. Ghio et al. soulignent la nécessité du lien entre les
données sonores, les données transcrites et les métadonnées – notamment les
caractéristiques cliniques des locuteurs. Cet enjeu se retrouve dans ESLO et dans FRAN-
Corpus, 22 | 2021
5
HOMA pour les métadonnées sociodémographiques et la description des situations de

collecte. L’accès à des métadonnées (riches) permettra de travailler sur des données
situées et d’éclairer le travail sur des variables linguistiques. Dans ces deux corpus, qui
intègrent la dimension microdiachronique, ces informations sur les locuteurs
participent à la construction d’une comparabilité entre des données recueillies à des
périodes différentes, et permettent de mieux comprendre les dynamiques de
changement linguistique en temps réel et en temps apparent.
18 A. Ghio et al. soulignent que de nombreux obstacles ont été levés concernant les
métadonnées mais que « le maillon faible reste la normalisation et la structuration des
données sur les locuteurs et leurs productions langagières ». Le cas de la parole
pathologique interroge sur la finesse des informations cliniques des participants et sur
les aspects juridiques qui protègent ces données, comme cela est évoqué par M. Lalain
et al.
19 Le lien entre données et métadonnées est également au centre de l’article de Fl. Badin
et al. qui mettent en place une méthodologie de traitement à partir d’une collection du
corpus ESLO dans lequel les métadonnées sont structurées en respectant le Dublin-Core
avec des champs sociolinguistiques plus riches. Le travail réalisé par ces auteurs
permet, en conservant toute la richesse des métadonnées du locuteur, d’interroger
l’ensemble du corpus ESLO dans TXM, en conservant un accès permanent aux
métadonnées.
3. Outillage, de la collecte à l’analyse et à la mise à

disposition
20 Aujourd’hui, la question de l’outillage est présente à chaque étape de la constitution du
corpus. Dans le recueil de parole au sein de la famille et autour des enfants, J. Ganaye a
privilégié des captations doubles audio et vidéo qui se devaient d’être simples à utiliser
car le matériel était installé par les participants eux-mêmes.
21 Avec des collectes dans toute une école maternelle, sur plusieurs années, croisant
données langagières et données de réseaux, A. Nardy et al. ont mis en place un dispositif
d’enregistrement audio embarqué original qui intègre dans un boitier de petite taille
porté par les participants (adultes et enfants) à la fois un micro, un dispositif
d’horodatage et une capacité de stockage. Une chaine de traitement outillée est ensuite
nécessaire pour traiter la masse de données recueillies. Au niveau des signaux, un
traitement automatique permet de déterminer par la voix quel enfant portait le boitier
(dans une classe de maternelle, c’est une information difficile à obtenir) et d’en faire un
pré-traitement automatique qui facilitera la transcription, notamment en bornant les
phases de prise de parole et de silence.
22 Les articles de ce numéro font référence à différents outils de transcription et
d’annotation (Transcriber, Elan, Praat, Clan) qui, comme le soulignent H. Blondeau et al.
« provide greater flexibility and precision in the analysis of the dynamics of
sociolinguistic variation. ». Par ailleurs, plusieurs pré-traitements de la transcription
pour l’annotation sont présentés notamment pour le repérage des variables
linguistiques (Wu et Adda-Decker, Nardy et al.) et pour l’annotation morpho-syntaxique
(Badin et al.).
Corpus, 22 | 2021
6
23 Un pré-traitement des transcriptions pour faciliter l’alignement au signal est exposé

par A. Nardy et al. ; le caractère chronophage de la segmentation avait été mis en
évidence par Baude et Dugua (2011). Dans la méthode utilisée par A. Nardy et al., les
segments sont pré-indiqués et le transcripteur n’a plus qu’à ajuster les frontières, si
nécessaire. Les auteurs signalent également un ensemble de scripts qui fournissent
autant d’outils aux transcripteurs pour gagner en temps et en qualité, en particulier
pour la vérification des annotations phonologiques et l’anonymisation.
24 Y. Wu et M. Adda-Decker ont fondé leur étude sur le corpus Nijmegen Corpus of Casual
French (NCCFr) (Torreira et Ernestus, 2010) en appliquant une méthode d’alignement
forcé entre les transcriptions existantes et le signal de parole. L’originalité de leur
approche réside dans la recherche de phénomènes de variation phonétique à partir
d’écarts entre la prononciation prédite à partir des mots orthographiques et celle
obtenue en tenant compte du signal de parole à partir du système de reconnaissance
automatique de la parole du LIMSI (Gauvain et al., 2005).
25 L’outil TXM utilisé par Fl. Badin et al. est un « outil de textométrie puissant, capable de
gérer une annotation morphosyntaxique ainsi que la richesse des métadonnées du
corpus » (Badin et al. ce numéro). Les auteurs exposent la chaine de traitement mise en
place pour créer une version TXM du corpus ESLO qui permette une visualisation du
corpus explicite (prenant en compte la question des unités de segmentation), une
partition en sous-corpus en conservant l’accès aux métadonnées et une interrogation à
la fois sur les occurrences, les lemmes et les catégories morphosyntaxiques. Les
évolutions récentes de TXM, au départ conçu pour les corpus écrits, permettent au
chercheur d’accéder au son à tout moment et constitue une boucle prometteuse pour
l’analyse du corpus ESLO : des annotations depuis les transcriptions, la possibilité de
partitionner un corpus, en ayant toujours accès 1) aux métadonnées des
enregistrements et des locuteurs et 2) aux enregistrements.
26 Si la masse des données traitées dans les grands corpus oraux nécessite le recours aux
outils, il faut se garder de la distance qu’ils introduisent entre le chercheur et ses
données. Nous adhérons, en ce sens, au point de vue de Sh. Poplack (ce numéro) :
Le repérage manuel oblige aussi l’analyste à se (re)familiariser continuellement
avec les données analysées, données que le degré de détail de l’annotation rend
proportionnellement beaucoup plus abstraites. Ce faisant, nous souscrivons à un
autre principe fondamental du paradigme variationniste, à savoir que la variation
linguistique doit être étudiée dans le contexte où elle se produit.
4. Objets variables et Dia-Variations

27 Bien que la thématique de ce numéro repose de manière centrale sur les aspects
méthodologiques de la constitution de corpus « du recueil à l’outillage », plusieurs
articles ont illustré la manière dont les choix et les dispositifs méthodologiques
donnent accès à la variation à travers la présentation d’études sur des objets variables.
Ils mettent en lumière la relation consubstantielle entre données et métadonnées dès
lors qu’il s’agit de saisir la variation.
28 Avec une visée microdiachronique, la constitution de nouveaux corpus répond au
besoin de créer des fenêtres temporelles permettant l’observation du changement à la
manière de l’enquête ESLO2 du corpus ESLO.
Corpus, 22 | 2021
7
29 C’est le cas aussi du corpus FRAN-HOMA, présenté par H. Blondeau et al., construit en
rapport avec le corpus de Montréal de 1971 pour observer le changement à 40 ans
d’intervalle. Pour H. Blondeau et al., un des objectifs majeurs est de questionner les
modèles théoriques, notamment celui du temps apparent « afin de vérifier ses
prédictions sur les observations en temps réel » (Blondeau et al., ce numéro). Les
auteures soulignent que le nouveau corpus, fort des avancées technologiques
mobilisées tout au long de la chaine de traitement, rend possibles de nouvelles
recherches sur la variation. Elles en donnent une illustration en présentant les résultats
de l’étude de deux variables sociolinguistiques – la variation dans l’emploi des
marqueurs discursifs à travers l’étude de fait-que dans ses variantes phonologiques /
fɛk/ et /fak/ et la contraction de la préposition dans – dans une perspective
diastratique et/ou diachronique.
30 Dans un autre champ, celui de l’acquisition du langage, en choisissant d’enregistrer
différentes situations du quotidien d’enfants avec leurs parents et en contrastant les
catégories socio-culturo-professionnelles des familles, J. Ganaye intègre la variation
diastratique et diaphasique dont elle croise les paramètres avec l’observation du
développement langagier. Il s’agit pour elle de comprendre la façon dont le langage –
tout particulièrement un phénomène variable : la liaison – se construit dans la
diversité des environnements et des situations auxquels se trouve confronté un enfant.
31 En intégrant approches micro-diachronique, diastratique et diaphasique, Fl. Badin et al.,
illustrent l’intérêt de leur méthodologie à partir de l’étude de l’emploi des
interrogatives partielles. Ils relèvent un changement en faveur des interrogatives
partielles in situ (ex. Tu pars quand ? vs. Quand tu pars/Quand pars-tu ?) à travers un jeu de
requêtes guidé par les résultats successifs combinant angle diastratique et angle
diaphasique.
32 Les objets variables peuvent également être saisis en termes de variation interne. Y. Wu
et M. Adda-Decker s’intéressent aux prononciations, à travers l’étude des phénomènes
de réduction en parole continue. Avec un outillage calibré et des dictionnaires de
prononciation en référence pour les réalisations canoniques, les auteures saisissent des
variations paradigmatiques et syntagmatiques et identifient les segments les plus
accessibles à la réduction en intégrant les caractéristiques intrinsèques des sons et les
effets phonotactiques.
5. Volet éthique et juridique

33 Nous terminerons cette introduction par un aspect qui revêt une importance
particulière dans la constitution, le traitement, la diffusion des corpus oraux : celui du
cadre éthique et juridique.
34 La recherche des bonnes pratiques est au centre des préoccupations des linguistiques
de corpus (Baude et al., 2006). Le recueil du consentement éclairé des locuteurs ou
l’anonymisation des données (le remplacement des noms des locuteurs par des codes,
l’anonymisation dans les transcriptions et dans les enregistrements), qui font partie des
pratiques depuis plusieurs décennies sont abordées à plusieurs reprises dans ce
numéro.
35 C’est en termes de « considérations d’ordre déontologiques » que Sh. Poplack présente
le recueil du consentement éclairé, qu’il se fasse avant ou après la collecte, et les
Corpus, 22 | 2021
8
différents mécanismes « [assurant] la confidentialité des données » : l’anonymisation

de l’identité des participants, la sécurisation des données et leur consultation. La
section « Formulaire de consentement, aspects juridiques et éthiques » de l’article de
J. Ganaye précise le contenu du formulaire de consentement proposé aux familles
participantes. A. Nardy et al. évoquent les procédures de validation par différentes
instances (COERLE de l’INRIA, CNIL). Enfin, A. Ghio et al. soulignent que le volet
juridique ne concerne pas uniquement la constitution de corpus mais aussi la
récupération de corpus.
36 L’article de M. Lalain et al. a un statut particulier par rapport à la thématique du fait
qu’il aborde essentiellement les questions éthiques et juridiques. Il sera d’une grande
aide pour les chercheurs qui travaillent sur corpus puisqu’il permet de préciser les
contours du RGPD et de la loi Jardé, les difficultés et les solutions répondant à leurs
injonctions. Il offre des pistes sur la façon dont nous, chercheurs, pouvons et devons
nous l’approprier afin de travailler conformément au cadre légal et réglementaire. Les
auteurs concluent leur article en montrant que ces nouvelles réglementations peuvent
être vues de manière positive puisqu’elles amènent le chercheur et la recherche en
général à mieux protéger les personnes.
Conclusion
37 À travers les observations synthétiques autour des cinq axes que nous avons privilégiés,
nous voyons se dessiner la cohérence de travaux issus de champs différents avec des
objectifs scientifiques hétérogènes. L’aperçu donné dans cette introduction est une
invitation à la découverte des articles.
38 La constitution de corpus est une entreprise d’une grande envergure qui nécessite des
moyens humains, techniques et financiers conséquents et les réponses en termes de
financements ne sont souvent pas à la hauteur des enjeux liés d’une part à la
patrimonialisation et d’autre part à l’étude des dynamiques langagières.
39 Nous rejoignons Sh. Poplack lorsqu’elle écrit :
Dans le climat disciplinaire actuel, la recherche empirique que permettent les
corpus est souvent dénigrée ou considérée comme théoriquement peu intéressante.
En dehors du domaine de la sociolinguistique variationniste, les chercheurs sont
rarement (sinon jamais) crédités pour les efforts titanesques déployés pour
recueillir, transcrire, organiser et partager les vastes quantités de données de
parole spontanée qui constituent bon nombre de corpus. (Poplack, ce numéro)
40 Ce que nous souhaitons retenir en conclusion et qui, en réalité, est démontré dans
chacun des articles, ne serait-ce qu’en filigrane, est le fait que la recherche linguistique
commence dès le premier maillon de la chaine de traitement. La constitution de corpus
se fait nécessairement à la lumière des questions scientifiques et chacun des choix, à
chacune des étapes, est sous-tendu par un ancrage théorique qui guide l’ensemble des
opérations et des analyses subséquentes.
Corpus, 22 | 2021
9
BIBLIOGRAPHIE
Baude O. (2006). Corpus oraux : guide des bonnes pratiques. CNRS-Editions et Presses universitaires
d’Orléans.
Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf,
linguiste ? ». Corpus 10 : 99-118.
Baude O. & Dugua C. (2016). « Les ESLO, du portrait sonore au paysage digital ». Corpus, « Corpus
de français parlé et français parlé des corpus » 15 : 29-56.
Bergounioux G., Jacobson M. & Pietrandrea P. (2017). « L’annotation des corpus oraux », in Ayres-
Benett W. & Carruthers J. (éd.) Manual of Romance Sociolinguistics. Berlin, De Gruyter : 27-58.
Habert B., Nazarenko A. & Salem A. (1997). Les linguistiques de corpus. Paris : Armand Colin.
Labov W. (1972). Language in the Inner City : Studies in the Black English Vernacular. Philadelphie :
University of Pennsylvania Press.
Labov W. (1984). « Field methods of the project on linguistic change and variation », in Baugh J. &
Sherzer J. (éd.), Language in Use. Englewood Cliffs : Prentice Hall, 28-54.
Labov W. (1994). Principles of Linguistic Change. Volume I : Internal Factors. Oxford and Malden :
Blackwell.
Ochs E. (1979). « Transcription as theory », in E. Ochs & B. Schieffelin (éd.) Developmental

pragmatics. New York : Academic Press, 43-72.
Sankoff D., Sankoff G., Laberge S. & Topham M. (1976). « Méthodes d’échantillonnage et
utilisation de l’ordinateur dans l’étude de la variation grammaticale », Cahiers de linguistique 6 :
85-125.
AUTEURS
CÉLINE DUGUA
Laboratoire Ligérien de Linguistique (LLL-UMR7270), Université d’Orléans
LAYAL KANAAN-CAILLOL
Laboratoire Ligérien de Linguistique (LLL-UMR7270), Université d’Orléans
Corpus, 22 | 2021
10
Le corpus comme portail pour

l’étude de la variation
(socio)linguistique*
Shana Poplack
1. Introduction
1 Cet article détaille les principes et pratiques de gestion de données en vigueur au
Laboratoire de sociolinguistique de l’Université d’Ottawa (le Labo ; http://
www.sociolinguistique.uottawa.ca/laboratoire.html), centre où sont stockées des
centaines d’heures d’enregistrements de parler spontané. Le Labo, que je dirige depuis
sa fondation en 1982, a pour mandat de promouvoir l’étude de la langue courante et, en
particulier, de la variation et du changement linguistiques, notamment dans les
contextes minoritaires et bilingues. La réalisation de ce mandat implique l’étude
systématique de corpus oraux construits selon des principes scientifiques, en se
fondant sur la théorie et les méthodes de la sociolinguistique variationniste. Un grand
souci de scientificité, en particulier la capacité de répliquer et de valider nos résultats
empiriques, sous-tend tous nos travaux.
2 Le Labo abrite 19 grands corpus de parler spontané en diverses langues, dont huit
compilations de discours bilingue comportant des emprunts et des alternances de codes
entre différents couples de langues1, tous construits par notre équipe. Parmi ces corpus
figurent de volumineuses banques de données du français parlé au Canada sur une
période d’un siècle et demi (323 locuteurs ; plus de 4 000 000 mots), de l’anglais parlé
dans des communautés de la diaspora afro-américaine (124 locuteurs ; 223 heures) et de
l’anglais parlé au Québec avant et après l’adoption de la Charte de la langue française
qui en a fait une langue minoritaire (164 locuteurs ; 2 500 000 mots). On y trouve aussi
les Archives de sociolinguistique, composées de plus de 700 entrevues recueillies dans la
région de la capitale fédérale entre 1982 et 2018 par des générations d’étudiants dans le
cadre du cours de Dialectologie urbaine. Le Labo renferme également trois importants
corpus écrits reflétant l’oral (Ottawa Repository of Early African American Correspondence
Corpus, 22 | 2021
11
(537 lettres personnelles rédigées entre 1790 et 1865 par des Afro-Américains semi-
lettrés ; Van Herk et Poplack, 2003) ; Ottawa Grammar Resource on Early Variability in
English (98 grammaires publiées entre 1577 et 1930 ; Poplack et al., 2002) ; Recueil
historique des grammaires du français (163 grammaires publiées entre 1530 et 1999 ;
Poplack et al., 2015)).
3 Une grande partie de ce travail a été amorcée au début des années 1980, bien avant que
la construction de corpus et la gestion de données ne deviennent des sujets d’actualité
en dehors des cercles de la sociolinguistique variationniste. De ce fait, certaines des
méthodes décrites ici paraîtront plutôt archaïques comparées aux normes actuelles.
Néanmoins, 40 ans plus tard, ces ressources ont conservé leur intérêt et leur utilité,
comme en témoignent les nombreux articles, livres, thèses, dissertations, conférences,
ateliers et autres travaux produits par notre équipe et par nos collaborateurs et
collègues2. Cela s’explique par le fait que tous ces corpus ont été bien préservés et
restent exploitables, consultables, et dans la mesure où les contraintes déontologiques
le permettent, partageables. Les sections suivantes décrivent comment nous avons
abordé les tensions omniprésentes entre l’idéal et le réalisable pour parvenir à un tel
résultat.
2. Constitution de corpus
2.1. Le corpus au profit d’une question de recherche
4 Conscients que le matériel linguistique à la disposition du linguiste décide en grande

partie de ce qui peut faire l’objet d’étude, nous amorçons notre démarche par le recueil
de données, ce qui soulève l’inévitable question : quoi recueillir et auprès de qui ? Les
corpus du Labo sont d’abord et avant tout conçus comme des archives de réponses
potentielles à des problèmes de recherche précis. Fidèles au mandat de la
sociolinguistique d’étudier les enjeux linguistiques qui revêtent une importance
particulière pour la société, nous privilégions ceux qui émergent du discours public,
surtout lorsqu’ils présentent un intérêt linguistique théorique.
5 Un exemple notable est le Corpus du français parlé à Ottawa-Hull (OH ; Poplack, 1989),
pierre angulaire d’un projet toujours en cours qui vise à déterminer dans quelle mesure
le statut minoritaire a une incidence sur la perméabilité à l’influence d’une langue
majoritaire. La nature, l’étendue et même l’existence des changements provoqués par
le contact des langues ont longtemps suscité la controverse en linguistique (p. ex. Heine
et Kuteva, 2005 ; Poplack et Levey, 2011 ; Thomason, 2001 ; Winford, 2003). C’est aussi
une préoccupation bien ancrée chez les francophones du Canada, qui redoutent que
l’omniprésence de l’anglais détruise l’intégrité structurelle du français. De telles
craintes, jusqu’à tout récemment peu validées de façon empirique, ont dicté notre
méthodologie : le corpus OH (120 locuteurs ; 3 500 000 mots) est stratifié en fonction du
statut majoritaire ou minoritaire du français ainsi que de l’intensité du contact au
niveau local. À l’intérieur de ce cadre, le choix des locuteurs s’est fait de façon aléatoire,
ajoutant une rare représentativité à l’échantillon. Un autre corpus (Le français en
contexte : milieux scolaire et social ; Poplack, 2015) a été conçu à l’origine pour mettre à
l’épreuve la perception populaire que les jeunes francophones ne parlent pas un
« bon » français parce que leurs enseignants ne le maîtrisent pas eux-mêmes. Il met en
jeu 166 lycéens et 24 enseignants de français. Nous avons recueilli plus d’un million de
Corpus, 22 | 2021
12
mots dans la même région ciblée 25 ans plus tôt par le corpus OH, conférant ainsi une
dimension de temps réel à l’analyse. Les Récits du français québécois d’autrefois (Poplack
et St-Amand, 2009) est un corpus constitué d’enregistrements sonores réalisés auprès
de Québécois de milieux ruraux par des folkloristes dans les années 1940 et 1950. Nous
avons ciblé 37 locuteurs nés entre 1846 et 1895 (524 000 mots). En conjonction avec le
corpus OH, il nous permet d’étendre la portée temporelle de l’étude du changement à
un siècle et demi en temps apparent (et à plus de 60 ans en temps réel), une durée
virtuellement inégalée pour l’étude de l’oral. Les Récits constituent également un repère
temporel antérieur au contact intense avec l’anglais, élément crucial à toute étude du
changement dû au contact (Poplack et Levey, 2011).
6 Cette approche comparative et diachronique sous-tend également la constitution des
corpus de l’anglais vernaculaire afro-américain (AVAA) des XVIII e et XIX e siècles3, nés
du débat sur le précurseur de l’AVAA (créole ou dialecte d’anglais). Ces données
permettent de répondre aux préoccupations des locuteurs natifs concernant la
« qualité » de leur langue, tout en respectant l’impératif de se reporter à un stade
antérieur pour étudier les origines. Les corpus d’AVAA misent sur les enregistrements
sonores synchroniques du parler de descendants des premiers colons de trois isolats de
la diaspora afro-américaine établis entre 1783 et 1824. En raison de leur isolement
depuis, ces parlers reflètent un stade antérieur de la langue, fournissant ainsi la chance
inouïe de reconstruire l’ancêtre de l’AVAA contemporain. Nous y parvenons en
comparant le fonctionnement de certaines structures grammaticales entre isolats et
par rapport à des variétés-repères pertinentes (Poplack, 2000 ; Poplack et Tagliamonte,
2001).
7 Pour une liste complète des collections du Labo, consulter http://
www.sociolinguistique.uottawa.ca/recherche.html et les références afférentes. Il s’agit
pour la plupart de corpus « non conventionnels » (Beal et al., 2007 ; Poplack, 2007), dans
la mesure où ils ont été conçus en vue d’aborder un enjeu particulier, en plus de
documenter le parler d’une communauté définie en termes extralinguistiques, comme
il est plus souvent le cas en (socio)linguistique. Grâce aux méthodes de collecte de
données détaillées ci-dessous, ces banques de données se prêtent aisément à l’étude,
tant synchronique que diachronique, de n’importe quel élément linguistique, du
moment qu’il se produise à l’oral et puisse être saisi à partir d’un enregistrement
sonore. De plus, en vertu des critères qui sous-tendent leur constitution, ces corpus
offrent la rare possibilité d’interpréter le comportement de chaque trait linguistique
étudié en fonction d’une question de recherche plus large, un avantage inestimable des
corpus construits selon de tels principes.
2.2. Les données ciblées
8 En tant que sociolinguistes, notre préoccupation principale est l’étude de la parole

spontanée, et en particulier de la variabilité qui la caractérise. Cette variabilité
implique généralement une alternance entre des formes ratifiées et leurs contreparties
non standard, qui sont souvent stigmatisées, sinon franchement condamnées. Ces
dernières sont emblématiques du vernaculaire, considéré comme la forme la plus
régulière et systématique de la langue (Labov, 1966/2006). Il n’est pas si facile de
recueillir des témoins du vernaculaire au cours du processus formel de collecte de
données. Il faut d’abord et avant tout créer une situation dans laquelle son utilisation
est jugée appropriée par le locuteur. La tâche est relativement simple quand il s’agit de
Corpus, 22 | 2021
13
l’étude de réseaux sociaux modestes, qui impliquent souvent l’observation à long terme
et la familiarisation connexe avec leurs membres ; elle se révèle nettement plus
complexe lorsque l’analyste cherche également à constituer un échantillon
statistiquement représentatif et quantitativement suffisant. Nos corpus principaux sont
composés de plus de 100 participants, pour la plupart sans lien les uns avec les autres 4.
Ce que de telles études à grande échelle gagnent en extension, elles le perdent souvent
en profondeur. Le parler qui en résulte ne s’éloigne que rarement des pôles plus
formels du continuum stylistique, où les traits linguistiques d’intérêt sont rares ou
simplement absents ; c’est là un obstacle de taille à l’étude du vernaculaire.
9 En réponse à ce problème, nous avons adopté les méthodes d’inspiration
ethnographique développées par Labov et ses collaborateurs pour résoudre le Paradoxe
de l’observateur (Labov, 1972). Celles-ci invitent à une conversation qui se rapproche
davantage du parler de tous les jours que du registre généralement réservé aux
entretiens en face-à-face. L’outil méthodologique privilégié est l’entrevue
sociolinguistique (Labov, 1984). Antithèse du protocole d’entrevue conventionnel, il s’agit
d’un guide pour encourager le participant à s’exprimer de façon informelle en
proposant une vaste gamme de sujets de conversation eux-mêmes de nature informelle.
Pour réduire l’effet du contexte de l’entrevue, notamment du rapport de pouvoir entre
l’intervieweur et le locuteur, on encourage ce dernier à contrôler l’inclusion et
l’exclusion des sujets de conversation, en minimisant les interventions de la part de
l’intervieweur. Les seules exceptions concernent la collecte de métadonnées
(section 3.1), qui se fait vers la fin de chaque séance d’enregistrement.
10 Ces efforts, décrits en détail ailleurs (p. ex. Poplack, 1989 ; Poplack et al., 2006), ont
donné lieu à une mine d’enregistrements du discours spontané, dont la durée varie de
une à cinq heures par participant et qui comprennent des récits d’expériences
personnelles, des discussions en groupe et d’autres modes de conversation hautement
informels. On y trouve bon nombre des variantes vernaculaires si convoitées, en plus
du discours soigné, plus facilement accessible. Dans la mesure du possible, nous
comptons sur des membres de la communauté ciblée pour s’acquitter du travail sur le
terrain. Ceux-ci reçoivent à cette fin une formation en vue d’administrer l’entrevue
sociolinguistique, qui se trouve grandement enrichie par leur expertise personnelle sur
les mœurs de la communauté.
11 L’African Nova Scotian English Corpus (Poplack et Tagliamonte, 1991) témoigne sans doute
de notre plus grande réussite dans ce genre d’entreprise. Il s’agit d’une vaste
compilation de discours recueillis par des membres de collectivités très soudées qui
sont diglossiques en anglais canadien standard et en AVAA. Si ce n’était du statut local
– et de la grande compétence – de ces travailleurs de terrain, la plupart des traits
grammaticaux vernaculaires que nous avons étudiés en détail depuis (par exemple,
l’élision de la copule (Walker, 2000), le marqueur de négation ain’t (Howe et Walker,
2000) ou le manque d’accord verbal (McOrmond-Arenja, 2020 ; Poplack et Tagliamonte,
1989)), ne seraient tout simplement pas apparus pendant les séances d’enregistrement.
En effet, là où coexistent l’insécurité linguistique et un certain degré de diglossie, les
formes « mal vues » sont généralement évitées avec les interlocuteurs externes à la
communauté. D’où l’impératif de créer des conditions appropriées pour la collecte de
données. Les corpus du Labo recensent d’autres exemples de ces phénomènes
langagiers convoités mais fugaces, notamment l’alternance de code multimot (Poplack,
Corpus, 22 | 2021
14
1985) et le registre vernaculaire du français canadien parfois (péjorativement) appelé

joual.
3. Traitement des données

3.1. L’importance des métadonnées
12 Comme le locuteur est à la fois source principale de variabilité inhérente à la langue et

agent clé du changement, nous tentons, dans la mesure du possible, d’intégrer ses
caractéristiques pertinentes à nos analyses linguistiques. Cette section décrit les
métadonnées développées au Labo afin de faciliter cette initiative. Tout d’abord, après
chaque séance d’enregistrement, les intervieweurs remplissent un rapport d’entrevue
dans lequel ils fournissent des renseignements démographiques, sociologiques et
linguistiques au sujet du participant et de son entourage immédiat. À ce moment-là,
l’interaction est anonymisée par l’attribution d’un pseudonyme et d’un numéro
d’identification temporaires qui sont soigneusement associés à chaque enregistrement,
à chaque formulaire de rapport d’entrevue et à tout autre document y afférant 5. Ces
identifiants sont ensuite transcrits sur la liste maîtresse de métadonnées rattachée au
corpus et mise à jour au fil de l’acquisition des données. Une fois la construction du
corpus terminée, chaque participant se voit attribuer un pseudonyme et un numéro
d’identification permanents, qui le rattachent systématiquement à l’ensemble de ses
données.
13 On obtient ainsi un inventaire détaillé de caractéristiques potentiellement pertinentes.
L’importance relative de ces caractéristiques fluctue d’une variable à l’autre et d’une
communauté à l’autre : une variable peut être surtout conditionnée socialement tandis
qu’une autre sert de marqueur stylistique et qu’une troisième affiche un profil qui varie
selon la communauté. Les caractéristiques sociodémographiques classiques (l’âge, le
sexe, le quartier de résidence, le niveau d’éducation ou le statut socioéconomique
approximatif) sont toujours prises en considération, mais nous tenons également
compte des enjeux locaux là où il est possible de cerner leur rôle de façon objective.
Ainsi, l’attitude des locuteurs à l’égard d’une langue majoritaire peut s’avérer
explicative dans l’analyse de la variabilité dans un contexte minoritaire (Poplack et al.,
2006) ; la maîtrise rapportée de la L2 ou la propension à alterner les codes ou à
emprunter des mots pourraient être significatives dans les communautés bilingues
(Poplack, 1989 ; 2018). Ces facteurs sont opérationnalisés par l’entremise d’un codage
qui s’intègre facilement aux analyses statistiques afin d’évaluer leur contribution
relative aux choix de variantes que font les locuteurs.
14 Un dernier type de métadonnées est fourni par l’« article de corpus » décrivant la
raison d’être du projet global, ainsi que des détails méthodologiques pertinents
concernant le type de communauté, les modalités de collecte de données, les critères de
sélection de l’échantillon, la description des locuteurs et des données, les protocoles de
transcription, etc. (Poplack, 1989 ; Poplack et St-Amand, 2009 ; Poplack et al., 2006).
Puisque les données comme les résultats ne peuvent être pleinement interprétés que
dans le contexte des normes de la communauté au sein de laquelle ils ont été recueillis,
les usagers éventuels sont tenus de confirmer qu’ils ont lu ces publications avant de
recevoir l’autorisation d’accéder aux corpus.
Corpus, 22 | 2021
15
3.2. Représentation fidèle du parler variable
15 Avant de décrire les protocoles de transcription appliqués aux corpus du Labo, il faut
rappeler qu’une grande partie des données a été recueillie des décennies avant
l’avènement des outils d’annotation disponibles aujourd’hui (p. ex. Beal et al., 2007 ;
Baude et Dugua, 2016 ; Eshkol-Taravella et al., 2012). En comparaison, la solution que
nous avons adoptée – la transcription manuelle en orthographe standard – peut
paraître plutôt simpliste. Pourtant, même si des méthodes plus sophistiquées ont gagné
en popularité au fil des ans, nous nous en sommes largement tenus à nos protocoles
originaux, même pour les corpus subséquents, ayant constaté par expérience qu’ils
répondent bien à nos besoins. Notre conception de l’annotation comme portail vers
l’analyse, plutôt que comme fin en soi, a dicté ce choix.
16 Tout d’abord, une fois que nous avons personnellement constaté le formidable
investissement de temps et de fonds requis pour monter ex nihilo un grand corpus basé
sur des principes raisonnés, nous avons décidé de répartir nos ressources limitées de
façon à faire prévaloir l’analyse linguistique des données plutôt que leur gestion, sans
toutefois sacrifier celle-ci à l’excès. Cet état de fait a motivé notre décision d’expédier la
transcription et de multiplier les étapes de correction (entre trois et six, manuelles et
automatisées, selon les corpus).
17 Parvenir à une représentation à la fois fidèle et cohérente s’avère particulièrement
ardu dans le cas du parler spontané, qui est caractérisé par la variabilité inhérente,
impliquant souvent de nombreuses formes non standard – parfois, comme dans notre
cas, dans plus d’une langue. Mais la valeur d’un système d’annotation est
proportionnelle à sa capacité de servir les objectifs de l’étude. Nous avons mentionné
plus haut que les corpus du Labo permettent d’étudier une grande variété de
phénomènes linguistiques. Certains de ces phénomènes sont connus au départ, mais la
plupart émergent au fur et à mesure que le projet évolue. Devant l’impossibilité de
prévoir leur émergence, nous avons conclu qu’il serait déraisonnable, voire impossible,
de tenter de les représenter tous à l’étape de la transcription. À titre d’exemple, comme
nos recherches portent principalement sur l’analyse de la variabilité
morphosyntaxique, nous avons choisi d’ignorer la multitude de variantes phonétiques
présentes dans les enregistrements et de ne conserver que la variation
morphosyntaxique pertinente, évitant ainsi de multiplier inutilement les entrées et
d’entraver le repérage.
18 Le choix du protocole de transcription s’est fait en fonction de notre objectif premier :
construire une concordance informatisée qui permet un rappel maximal des données,
ce qui suppose un haut degré de cohérence de la transcription. Voilà pourquoi nous
avons adopté une solution orthographique, décrite en détail dans Poplack (1989). Notre
stratégie générale consiste à rendre les variantes résultant de processus phonétiques
ou phonologiques en orthographe standard, peu importe leur réalisation réelle (p. ex.
<ing> tant pour la variante vélaire [ɪŋ] que pour l’alvéolaire [ɪn] (dans l’exemple en (1)),
mais à rendre les variantes morphophonologiques et morphosyntaxiques telles qu’elles
ont été produites (p. ex. <trunk> ou <trunks> en (2) selon si le morphème pluriel [s] est
élidé ou non).
(1) And I said, “If things don’t change around here, I’m getting out of here.” (QEC.
037.630)6
(2) That man had two trunks. Two trunk full of gold and silver and everything. Two
trunk, big trunks. Full of gold and silver. (ANSE.NP.030.1323)
Corpus, 22 | 2021
16
19 Nos modalités de transcription correspondent grosso modo aux conventions

orthographiques de la langue correspondante, sauf là où elles contreviennent à nos
critères d’accessibilité.
20 La transcription exige un effort décisionnel continu, surtout lorsque les protocoles
adoptés combinent l’annotation et un minimum d’analyse, comme dans notre cas. Ce
processus a été grandement facilité par le fait que nos équipes de transcription étaient
composées de linguistes de formation.
3.3. Correction
21 La transcription a pour but de refléter fidèlement ce qui a été dit, y compris toute
manifestation de la variabilité morphosyntaxique y afférant. Comme le confirmeront
ceux qui ont déjà travaillé avec des données de parler spontané, c’est sans doute l’étape
la plus laborieuse de la construction de corpus. En raison de notre stratégie de saisir les
données rapidement et de nos exigences de repérabilité, l’élaboration d’un système de
correction efficace s’imposait. Le nôtre comprenait plusieurs étapes dont des tours
manuels (à partir de la réécoute des enregistrements audio) et des tours semi-
automatisés (basées sur listes de mots et de concordances). L’échange de documents
entre correcteurs a renforcé la fiabilité des transcriptions. Un suivi sur tableur a permis
d’assurer l’exécution de toutes les phases de correction sans duplication d’efforts. Il en
résulte un ensemble de corpus à peu près exempts d’erreurs qui peuvent être utilisés
en toute confiance pour étudier maintes phénomènes morphosyntaxiques et lexicaux
sans recours aux enregistrements audio d’origine. De plus, un protocole de
transcription d’une telle simplicité peut aisément s’adapter à d’autres outils (p. ex. les
concordanciers (section 4.1) ou les logiciels d’alignement forcé (Mielke, 2013)).
4. Analyse de la variation linguistique

4.1. Repérage
22 Les généralisations que font les variationnistes concernant le langage découlent

typiquement d’analyses quantitatives à grande échelle du comportement linguistique
réel. Selon la taille du corpus et la fréquence du phénomène linguistique ciblé, nos
recherches peuvent porter sur quelques centaines d’occurrences (p. ex. les propositions
relatives en anglais (N = 814) ; Lealess et Smith, 2011) ou sur des dizaines de milliers
d’entre elles (p. ex. l’expression de la négation en français (N = 85 447) ; Poplack, 2015).
Il est donc essentiel d’automatiser le traitement des données. Comme nous l’avons
expliqué à la section 3.2, l’étiquetage de nos corpus se limite à identifier la langue et le
locuteur. Pour repérer les données d’intérêt, nous comptons sur les concordanciers.
Peu de concordanciers disponibles répondent à l’ensemble de nos besoins, notamment
à la nécessité d’associer chaque mot au locuteur qui l’a produit, tout en excluant de
l’analyse les données d’individus ne faisant pas partie de l’échantillon. Il faut aussi
éviter que les éléments accessoires (p. ex. les métadonnées, les indications
extralinguistiques comme « (rires) ») soient comptés dans les calculs appliqués aux
phénomènes linguistiques. Notre outil de prédilection est Concorder X (Edwards, 2006),
un concordancier développé au Labo pour répondre à nos exigences. Ici aussi, le format
simple du corpus annoté permet d’adapter les données selon les exigences du logiciel
Corpus, 22 | 2021
17
sans grandes modifications. Concorder X est un outil polyvalent qui crée efficacement
des listes de mots et des concordances selon différents paramètres (p. ex. par ordre
alphabétique ou selon la fréquence) tant pour un seul locuteur que pour le corpus
entier ou un sous-ensemble de celui-ci. Ces fonctionnalités réduisent considérablement
le temps requis pour repérer et extraire les données recherchées. La concordance
affiche chaque élément lexical sous forme de mot-clé entre les contextes linguistiques
le précédant et le suivant, en plus d’identifier le locuteur et l’adresse du mot dans la
transcription. En cliquant sur le mot-clé, l’utilisateur accède à l’emplacement du mot
dans le corpus et à son contexte d’origine en entier.
23 Les analyses variationnistes ont souvent pour but de déterminer pourquoi une variante
d’une variable est choisie plutôt qu’une autre dans un contexte variable (point où les
variantes alternent sans changer de valeur référentielle) préalablement défini. L’entrée
pour chaque occurrence dans la concordance contient généralement suffisamment
d’informations pour permettre à l’analyste d’en capter les facteurs potentiellement
explicatifs (p. ex. la polarité de l’énoncé, la personne grammaticale, le positionnement
dans la phrase, etc.). À noter cependant que l’extraction à partir d’un repère lexical
risque de relever un surplus d’occurrences qui débordent du contexte variable. Ainsi,
en cherchant « que » pour localiser les contextes du subjonctif, on finira avec
l’ensemble des propositions subordonnées ; la recherche de « si » fera apparaître non
seulement les protases hypothétiques, mais aussi les propositions comparatives. Les cas
non pertinents doivent être identifiés et éliminés manuellement. Le repérage des
occurrences est également compliqué par le fait que de nombreux mots grammaticaux
(p. ex. « que ») sont souvent carrément supprimés à l’oral, tout comme le sont les
sujets, les copules et les prépositions, pour ne nommer que ceux-là. Certaines de ces
formes élidées constituent des variantes de la variable à l’étude, et doivent donc être
considérées parallèlement à leurs homologues explicites. Le repérage doit donc
s’effectuer en combinant la recherche automatisée (pour les formes ayant des
représentations lexicales) et l’extraction manuelle (pour les éléments nuls et les
variables syntaxiques comme les stratégies de formation de propositions relatives et la
variation dans l’ordre des mots). L’extraction manuelle est sans contredit extrêmement
exigeante, surtout dans le cas de grands corpus, mais elle présente l’avantage de
permettre aux chercheurs de relever l’ensemble des variantes d’une variable donnée,
condition sine qua non de l’analyse variationniste. Cet ensemble peut comprendre des
variantes qui n’ont pas été reconnues ou identifiées au départ, comme le choix du
conditionnel ou de l’imparfait dans les contextes qui demandent théoriquement le
subjonctif, ou l’absorption de la préposition dans les propositions relatives françaises.
Le repérage manuel oblige aussi l’analyste à se (re)familiariser continuellement avec les
données analysées, données que le degré de détail de l’annotation rend
proportionnellement beaucoup plus abstraites. Ce faisant, nous souscrivons à un autre
principe fondamental du paradigme variationniste, à savoir que la variation
linguistique doit être étudiée dans le contexte où elle se produit.
4.2. Codification
24 Quelle que soit la méthode utilisée pour les repérer, les occurrences extraites sont
ensuite codées en fonction d’une série de facteurs (eux-mêmes des matérialisations
d’hypothèses sur ce qui motive le choix des variantes) en vue de l’analyse statistique. Le
codage des données commence par la transcription des occurrences pertinentes
Corpus, 22 | 2021
18
directement dans des tableurs Excel. Excel offre de nombreuses fonctionnalités

(filtrage, tri, tabulation, masquage des colonnes, comptage, etc.) qui facilitent le codage
et améliorent sa fiabilité. Les séquences de codes résultantes sont alors soumises à
l’analyse statistique afin de déterminer leur signification, leur importance relative et la
direction de leurs effets. Les résultats constituent la base de nos analyses.
4.3. Au-delà du portail
25 L’utilité d’un corpus se mesure en grande partie par la polyvalence de ses applications.
Les corpus du Labo relèvent le défi ; ils se prêtent à l’étude d’une grande variété de
questions théoriques, dont beaucoup ont déjà fait l’objet de nos recherches, par
exemple, le comportement des différentes manifestations du contact linguistique
(emprunt lexical, alternance de codes, convergence grammaticale) (Poplack, 2008 ;
2018 ; Poplack et Levey, 2011), les modalités du changement linguistique (au long de la
vie (Poplack et Lealess, 2009), provoqué par le contact (Leroux et Jarmasz, 2006 ;
Poplack et al., 2012)), la résistance des isolats linguistiques (Adams, 2005 ; Petrik, 2005 ;
Poplack et Tagliamonte, 2010 ; Yoshizumi, 2006), le rôle des médias (Poplack et Dion,
2007), la grammaticalisation (en anglais (Poplack et Tagliamonte, 1996 ; 2000), en
français (Poplack, 2011) et dans les langues romanes (Poplack et al., 2018)), le maintien
des langues ancestrales (Budzhak-Jones et Poplack, 1997), la tension entre la langue
prescrite et la langue parlée (Poplack, 2015 ; Poplack et al., 2015 ; Poplack et al., 2002) et
les origines de l’AVAA (Poplack, 2000 ; Poplack et Tagliamonte, 2001), pour ne nommer
que celles-ci. Les variables linguistiques exploitées pour éclairer ces questions
comprennent des phénomènes aussi disparates que l’élision de la copule (Walker, 2000),
l’alternance des cas (Sankoff et al., 1990), les structures interrogatives (Elsig, 2009 ; Van
Herk, 2000), la variation dans l’ordre des mots (Toth, 2014), l’échouage de la préposition
(Poplack et al., 2019), les stratégies de formation des propositions relatives (Lealess et
Smith, 2011 ; Tottie et Harvie, 2000), l’alternance des auxiliaires (Willis, 2000),
l’expression variable de la référence au présent (Walker, 2001), au passé (Leroux, 2005 ;
Tagliamonte, 1991 ; Van Herk, 2002) et au futur (Poplack et Dion, 2009 ; Poplack et
Tagliamonte, 2000 ; Torres Cacoullos et Walker, 2009), la variation modale (Poplack,
2001 ; Poplack et al., 2013 ; St-Amand, 2002), l’assignation du genre (Klapka, 2002), le
marquage du pluriel (Tagliamonte et al., 1997) et bien d’autres encore.
5. Consultation et préservation des données

5.2. Considérations d’ordre déontologiques
26 Toutes les données archivées au Labo ont été recueillies, traitées et entreposées
conformément aux attentes déontologiques des organismes subventionnaires
concernés et du Comité d’éthique de la recherche de l’Université. La seule dérogation
concerne l’obtention du consentement éclairé avant d’entreprendre la collecte de
données. Comme on pourrait s’y attendre, amorcer une interaction en présentant les
détails linguistiques du projet et en demandant au participant de lire, discuter et signer
les formulaires de consentement va à l’encontre de la création d’une atmosphère
favorable au parler informel, et encore moins au vernaculaire. Nous expliquons plutôt
le but de l’entrevue d’abord en termes généraux, sans manquer de signaler notre
intérêt pour la langue, puis nous obtenons le consentement éclairé en faisant remplir le
Corpus, 22 | 2021
19
formulaire de décharge immédiatement après la séance d’enregistrement. Nous l’avons

déjà mentionné, plusieurs mécanismes assurent la confidentialité des données.
L’identité des participants est anonymisée au moyen de pseudonymes et de numéros de
locuteur ; les données fournies, tant enregistrées que transcrites, sont conservées dans
des lieux sécurisés sous la surveillance de la coordonnatrice de recherche du Labo. En
raison de la nature personnelle d’une grande partie des données ainsi que des
différentes exigences déontologiques auxquelles elles sont assujetties, la consultation
des données brutes se fait sur place, sous certaines conditions que l’utilisateur s’engage
à respecter, notamment :
a. Aucune information permettant d’identifier les locuteurs ne pourra figurer dans un article,
publié ou non, ou dans une communication qui utilise les données du corpus.
b. Le contenu des corpus ne servira pas à poser un jugement sur les opinions, la personnalité
ou la langue du locuteur.
c. Les propos tirés des corpus seront cités verbatim et uniquement dans le but d’illustrer un
point linguistique, et le contenu de toute citation devra satisfaire aux conditions (a) et (b) ci-
dessus.
27 De telles précautions sont tout particulièrement importantes lorsque la variété

linguistique en question est non standard ou socialement stigmatisée, comme c’est le
cas pour une grande partie des données conservées au Labo.
5.2. Identification de la provenance des énoncés cités
28 L’identification de la provenance des données linguistiques n’est pas encore pratique

courante. L’utilisateur des corpus du Labo doit s’engager à citer non seulement le
corpus d’où les données sont extraites, mais aussi le locuteur qui les a produites. Tout
énoncé reproduit dans une publication ou une présentation doit être attribué à sa
source en spécifiant le nom du corpus, le numéro du locuteur et l’adresse de l’extrait 7.
Ces exigences rendent hommage à la contribution indispensable des participants, tout
en facilitant la vérification des données et des affirmations connexes. Ceci augmente
ainsi la reproductibilité et l’intégrité de toute étude qui s’appuie sur les données visées.
Épilogue
29 Dans le climat disciplinaire actuel, la recherche empirique que permettent les corpus
est souvent dénigrée ou considérée comme théoriquement peu intéressante. En dehors
du domaine de la sociolinguistique variationniste, les chercheurs sont rarement (sinon
jamais) crédités pour les efforts titanesques déployés pour recueillir, transcrire,
organiser et partager les vastes quantités de données de parole spontanée qui
constituent bon nombre de corpus. Au contraire, ils sont souvent fustigés pour les
distributions bizarres, les cases vides et les quantités parfois sous-optimales de
variantes rares qui caractérisent la parole spontanée. Il arrive souvent que des revues
de linguistique de pointe, considérées comme porte-parole du domaine, rejettent ou
demandent une révision en profondeur des travaux quantitatifs rapportant des
distributions éparses ou disproportionnées, même lorsque l’analyste a
systématiquement parcouru de vastes corpus pour en extraire toutes les occurrences
pertinentes. Les linguistes habitués à une analyse minutieuse de la langue parlée
entendent que ces répartitions inégales des données constituent la règle plutôt que
Corpus, 22 | 2021
20
l’exception. La méconnaissance généralisée du parler et le penchant croissant à le

remplacer par des analogues plus accessibles (p. ex. le « langage » internet), dont on ne
connaît pas vraiment la provenance, ont contribué à masquer ces caractéristiques
fondamentales. Il est à espérer que les pratiques décrites dans cet article, pour la
plupart au fondement même de la méthodologie de la sociolinguistique variationniste
depuis sa création il y a plus d’un demi-siècle, contribuent à contrebalancer ce
déséquilibre.
BIBLIOGRAPHIE
Adams J. (2005). Concord Variation, Convergence, and Quebec English : ‘There’s Lots of Things to
Consider’. Université d’Ottawa. Mémoire de maîtrise.
Bailey G., Maynor N. & Cukor-Avila P. (1991). The Emergence of Black English : Texts and Commentary.
Amsterdam/Philadelphia : John Benjamins.
Barysevich A. (2012). Variation et changement lexicaux en situation de contact de langues. University of

Western Ontario. Thèse doctorale.
Baude O. & Dugua C. (2016). « Les ESLO, du portrait sonore au paysage digital », Corpus 15 : 29-56.
Beal J., Corrigan K. & Moisl H. (2007). Creating and Digitizing Language Corpora : Synchronic Databases.
Houndmills : Palgrave-Macmillan UK.
Budzhak-Jones S. & Poplack S. (1997). « Two generations, two strategies : The fate of bare English-
origin nouns in Ukrainian », Journal of Sociolinguistics 1(2) : 225-258.
Edwards J. (2006). Concorder X : Program and Documentation. Ottawa : Laboratoire de

sociolinguistique de l’Université d’Ottawa.
Elsig M. (2009). Grammatical Variation Across Space and Time : The French Interrogative System.
Amsterdam/Philadelphia : John Benjamins Publishing.
Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). « Un grand corpus
oral ‘disponible’ : le corpus d’Orléans 1968-2012 », Ressources linguistiques libres, TAL 52(3) : 17-46.
Heine B. & Kuteva T. (2005). Language Contact and Grammatical Change. Cambridge University Press.
Howe D. & Walker J.A. (2000). « Negation and the creole-origins hypothesis : Evidence from early
African American English », dans Poplack S. (éd.), The English History of African American English.
Oxford & Malden : Blackwell Publishers, 109-140.
Kastronic L. (2016). A Comparative Variationist Approach to Morphosyntactic Variation in Contemporary

Hexagonal and Quebec French. Université d’Ottawa. Thèse doctorale.
Klapka L. (2002). Étude comparative : l’accord du genre en français québécois au XIXe et au XXe siècles.
Université d’Ottawa. Mémoire de maîtrise.
Labov W. (1966/2006). The Social Stratification of English in New York City. 2 e édition. Cambridge :
Cambridge University Press.
Labov W. (1972). Sociolinguistic Patterns. Philadelphia : University of Pennsylvania Press.
Corpus, 22 | 2021
21
Labov W. (1984). « Field methods of the project on linguistic change and variation », dans
Baugh J. & Sherzer J. (éd.), Language in Use. Englewood Cliffs : Prentice Hall, 28-54.
Lealess A.V. (2014). « J’ai tout le temps eu de misère » : A Variationist Study of Adverb Placement in
Quebec French. Université d’Ottawa. Thèse doctorale.
Lealess A.V. & Smith C. (2011). « Assessing contact-induced language change : The use of subject
relative markers in Quebec English », Cahiers linguistiques d’Ottawa 36 : 20-38.
Leroux M. (2005). « Past but not gone : The past temporal reference system in Quebec French »,
Penn Working Papers in Linguistics (Selected Papers from NWAV 33) 11(2) : 119-131.
Leroux M. & Jarmasz L.G. (2006). « A study about nothing : Null subjects as a diagnostic of
convergence between English and French », Penn Working Papers in Linguistics (Selected Papers from
NWAV 34) 12(2) : 1-14.
Levey S., Groulx K. & Roy J. (2013). « A variationist perspective on discourse-pragmatic change in
a contact setting », Language Variation and Change 25(2) : 225-251.
McOrmond-Arenja S. (2020). ‘It Don’t Be Like That No More’ : Meanings and Function of Invariant Be in
Early Black English. Université d’Ottawa. Mémoire de maîtrise.
Mielke J. (2013). « Ultrasound and corpus study of a change from below : Vowel rhoticity in
Canadian French », University of Pennsylvania Working Papers in Linguistics 19(2) : article 16.
Petrik K. (2005). Deontic Modality in Quebec English : ‘Everything You Need to Know’. Université
d’Ottawa. Mémoire de maîtrise.
Poplack S. (1985). « Contrasting patterns of code-switching in two communities », dans

Warkentyne H. J. (éd.), Methods V : Papers from the V International Conference on Methods in
Dialectology. Victoria, C.-B. : University of Victoria, 363-385.
Poplack S. (1989). « The care and handling of a mega-corpus », dans Fasold R. & Schiffrin D. (éd.),
Language Change and Variation. Amsterdam : Benjamins, 411-451.
Poplack S. (éd.) (2000). The English History of African American English. Oxford : Blackwell
Publishers.
Poplack S. (2007). « Foreword », dans Beal J., Corrigan K. & Moisl H. (éd.), Creating and Digitizing
Language Corpora. Houndmills : Palgrave-Macmillan UK, ix-xiii.
Poplack S. (2008). « Quebec English », Anglistik International Journal of English Studies 19(2) (Special
issue : Focus on Canadian English) : 189-200.
Poplack S. (2011). « Grammaticalization and linguistic variation », dans Heine B. &

Narrog H. (éd.), Handbook of Grammaticalization. Oxford : Oxford University Press, 209-224.
Poplack S. (2015). « Norme prescriptive, norme communautaire et variation diaphasique », dans

Kragh K. & Lindschouw J. (éd.), Les variations diasystématiques dans les langues romanes et leurs
interdépendances, Série TraLiRo. Strasbourg : Société de linguistique romane, 293-319.
Poplack S. (2018). Borrowing : Loanwords in the Speech Community and in the Grammar. Oxford :
Oxford University Press.
Poplack S. & Dion N. (2007). « Linguistic mythbusting : The role of the media in diffusing
change », Colloque « NWAV 36 », University of Pennsylvania, 11-14 octobre 2007, Philadelphie.
Poplack S. & Dion N. (2009). « Prescription vs. praxis : The evolution of future temporal reference
in French », Language 85(3) : 557-587.
Corpus, 22 | 2021
22
Poplack S., Dion N. & Zentz L. (2019). « L’anglicisme syntaxique : produit inévitable du contact des
langues ? », Circula : revue d’idéologies linguistiques 9 : 78-105.
Poplack S., Jarmasz L.G., Dion N. & Rosen N. (2015). « Searching for ‘Standard French’ : The
construction and mining of the Recueil historique des grammaires du français », Journal of Historical
Sociolinguistics 1(1) : 13-56.
Poplack S. & Lealess A.V. (2009). « Language change over the lifespan revisited : Further insights
from the ‘Up’ series », Colloque « NWAV 38 », Université d’Ottawa, 22-25 octobre 2009, Ottawa.
Poplack S., Lealess, A.V. & Dion N. (2013). « The evolving grammar of the French subjunctive »,
Probus 25(1) : 139-193.
Poplack S. & Levey S. (2011). « Variabilité et changement dans les grammaires en contact », dans
Martineau F. & Nadasdi T. (éd.), Le français en contact : hommages à Raymond Mougeon,
collection « Les Voies du français ». Québec : Presses de l’Université Laval, 247-280.
Poplack S., Robillard S., Dion N. & Paolillo J.C. (2020). « Revisiting phonetic integration in
bilingual borrowing », Language 96(1) : 126-159.
Poplack S. & Sankoff D. (1987). « The Philadelphia story in the Spanish Caribbean », American
Speech 62(4) : 291-314.
Poplack S. & St-Amand A. (2009). « Les Récits du français québécois d’autrefois : reflet du parler
vernaculaire du XIXe siècle », Revue canadienne de linguistique 54(3) : 511-546.
Poplack S. & Tagliamonte S. (1989). « There’s no tense like the present : Verbal -s inflection in
Early Black English », Language Variation and Change 1(1) : 47-84.
Poplack S. & Tagliamonte S. (1991). « African American English in the diaspora : Evidence from
old-line Nova Scotians », Language Variation and Change 3(3) : 301-339.
Poplack S. & Tagliamonte S. (1996). « Nothing in context : Variation, grammaticization and past
time marking in Nigerian Pidgin English », dans Baker P. & Syea A. (éd.), Changing Meanings,
Changing Functions. Papers Relating to Grammaticalization in Contact Languages. Westminster, UK :
University Press, 71-94.
Poplack S. & Tagliamonte S. (2000). « The grammaticization of going to in (African American)

English », Language Variation and Change 11(3) : 315-342.
Poplack S. & Tagliamonte S. (2001). African American English in the Diaspora. Oxford : Basil
Blackwell.
Poplack S. & Tagliamonte S. (2010). « African Nova Scotian English in an enclave », dans Gold E. &
McAlpine J. (éd.), Canadian English : A Linguistic Reader. Kingston : Strathy Language Unit, Queen’s
University, 146-154.
Poplack S., Torres Cacoullos R., Dion N., de Andrade Berlinck R., Digesto S., LaCasse D. & Steuck J.
(2018). « Trajectories of change in Romance sociolinguistics », dans Ayres-Bennett W. &
Carruthers J. (éd.), Manual of Romance Sociolinguistics. Berlin/Boston : de Gruyter, 217-252.
Poplack S., Van Herk G. & Harvie D. (2002). « ‘Deformed in the dialects’ : An alternative history of
non-standard English », dans Trudgill P. & Watts D. (éd.), Alternative Histories of English, 87-110.
London : Routledge.
Poplack S., Walker J.A. & Malcolmson R. (2006). « An English ‘like no other’ ? : Language contact
and change in Quebec », Revue Canadienne de linguistique 51(2/3) : 185-213.
Corpus, 22 | 2021
23
Poplack S., Zentz L. & Dion N. (2012). « Phrase-final prepositions in Quebec French : An empirical
study of contact, code-switching and resistance to convergence », Bilingualism : Language and
Cognition 15(2) : 203-225.
Sankoff D., Poplack S. & Vanniarajan S. (1990). « The case of the nonce loan in Tamil », Language
Variation and Change 2(1) : 71-101.
St-Amand A. (2002). Le subjonctif suivant une expression non-verbale. Université d’Ottawa. Mémoire
de maîtrise.
Tagliamonte S. (1991). A Matter of Time : Past Temporal Reference Verbal Structures in Samaná English
and the Ex-Slave Recordings. Université d’Ottawa. Thèse doctorale.
Tagliamonte S., Poplack S. & Eze E. (1997). « Plural marking patterns in Nigerian Pidgin English »,
Journal of Pidgin and Creole Languages 12(1) : 103-129.
Thomason S. (2001). Language Contact : An Introduction. Edinburgh : Edinburgh University Press.
Torres Cacoullos R. & Walker J.A. (2009). « The present of the English future : Grammatical
variation and collocations in discourse », Language 85(2) : 321-54.
Toth C. (2014). Deciphering the Dative Alternation : Assessing Aspects Often Overlooked. Université
d’Ottawa. Mémoire de maîtrise.
Tottie G. & Harvie D. (2000). « It’s all relative : Relativization strategies in early African American
English », dans Poplack S. (éd.), The English History of African American English. Oxford : Blackwell
Publishers, 198-230.
Van Herk G. (2000). « The question question : Auxiliary inversion in early African American
English », dans Poplack S. (éd.), The English History of African American English. Oxford : Blackwell
Publishers, 175-197.
Van Herk G. (2002). Message from the Past : Past Temporal Reference in Early African American Letters.
Université d’Ottawa. Thèse doctorale.
Van Herk G. & Poplack S. (2003). « Rewriting the past : Bare verbs in the Ottawa Repository of Early
African American Correspondence », Journal of Pidgin and Creole Languages 18(2) : 231-266.
Walker J.A. (2000). Present Accounted For : Prosody and Aspect in Early African American English.
Université d’Ottawa. Thèse doctorale.
Walker J.A. (2001). « Using the past to explain the present : Tense and temporal reference in Early
African American English », Language Variation and Change 13(1) : 1-35.
Willis L. (2000). ‘Être ou ne plus être’ : Auxiliary Alternation in Ottawa-Hull French. Université
d’Ottawa. Thèse de maîtrise.
Winford D. (2003). An Introduction to Contact Linguistics. Malden, MA : Blackwell.
Yoshizumi Y. (2006). ‘She’s Got an English Thing There’ : The Variation of the Stative Possessives in
Quebec City English. Université d’Ottawa. Mémoire de maîtrise.
NOTES
*. Les travaux dont il est question ici ont été généreusement subventionnés par le Conseil de
recherches en sciences humaines du Canada par l’entremise de son programme des Chaires de
recherche du Canada et de nombreuses subventions de recherche, ainsi que par la Fondation
Killam, la Fondation Pierre Elliott Trudeau, le ministère de la Recherche et de l’innovation de
Corpus, 22 | 2021
24
l’Ontario, la Fondation canadienne pour l’innovation et les Fonds ontariens pour l’innovation.
C’est Bill Labov qui m’a initiée au concept de « corpus ». Le respect des données et des locuteurs
qui les fournissent a toujours été au cœur de sa démarche. Les connaissances que j’ai acquises
dans son célèbre cours LING 560 à l’Université de Pennsylvanie sous-tendent toutes les pratiques
de collecte et de traitement des données du Laboratoire de sociolinguistique de l’Université
d’Ottawa, ainsi que les cours de Dialectologie urbaine que nous donnons depuis lors. Mes efforts
dans ce domaine ont été immensément secondés, puis surpassés, par des générations d’étudiants
et associés brillants, engagés, enthousiastes et, surtout, extrêmement bien organisés ! Ils ont
grandement contribué à traduire les enseignements de Labov en méthodes chaque fois plus
performantes et efficaces. Si je peux me vanter du fait que nous parvenons à reproduire une
analyse des décennies plus tard, c’est entièrement grâce à eux. Je remercie Véronique Lessard et
Nathalie Dion pour leur aide précieuse avec la formulation française de cet article.
1. Anglais/igbo, anglais/tamoul, anglais/ukrainien, anglais/finnois, français/wolof, français/
fongbe, français/arabe tunisien, français/vietnamien/anglais.
2. (Pour n’en nommer que quelques-uns des plus récents, voir Barysevich (2012), Kastronic
(2016), Lealess (2014), Levey et al. (2013), McOrmond-Arenja (2020), Poplack (2018), Poplack et al.
(2019), Poplack et al. (2015, 2018, 2020) et Toth (2014)). Pour des références à d’autres publications
qui utilisent les corpus du Labo, consulter http://www.sociolinguistique.uottawa.ca/
publications.html.
3. Il s’agit de trois sous-corpus : Samaná English Corpus (21 locuteurs, 22 heures
d’enregistrements ; Poplack et Sankoff, 1987), African Nova-Scotian English Corpus (79 locuteurs,
181 heures d’enregistrements ; Poplack et Tagliamonte, 1991), Ex-Slave Recordings (11 locuteurs;
Bailey et al., 1991 ; Poplack et Tagliamonte, 1989).
4. Corpus du français parlé à Ottawa-Hull (120 locuteurs ; Poplack, 1989) ; Le français en contexte :
milieux scolaire et social (166 locuteurs ; Poplack, 2015) ; Quebec English Corpus (183 locuteurs ;
Poplack et al., 2006).
5. Les noms réels sont conservés dans un endroit sécurisé et confidentiel pendant la construction
du corpus, et sont détruits une fois l’anonymisation terminée.
6. Les codes entre parenthèses renvoient au nom du corpus, au numéro du locuteur et à l’adresse
de l’extrait dans le Quebec English Corpus (Poplack et al., 2006) en (1) et dans le African Nova Scotian
English Corpus (Poplack et Tagliamonte, 1991) en (2). Les exemples sont cités verbatim à partir des
enregistrements.
7. Les extraits en (1) et (2) fournissent des exemples de tels renvois.
RÉSUMÉS
Cet article détaille les principes et pratiques de gestion de données en vigueur au Laboratoire de
sociolinguistique de l’Université d’Ottawa (le Labo ; http://www.sociolinguistique.uottawa.ca/
laboratoire.html), centre qui abrite 19 importants corpus correspondant à des centaines d’heures
d’enregistrement de parler spontané. Notre propos s’inscrit dans le cadre de la sociolinguistique
variationniste et fournit un aperçu des méthodes éprouvées en matière de constitution de
corpus, qui comprend notamment la collecte, la transcription, l’annotation, le repérage, le
codage, et l’analyse des données. Nous abordons également la préservation et le cycle de vie des
données, et jetons un coup d’œil aux considérations déontologiques qui caractérisent la collecte
Corpus, 22 | 2021
25
et l’analyse du vernaculaire. Nous concluons par un survol des nombreuses applications

linguistiques possibles des données de parler spontané bien gérées.
This article details the data management principles and practices developed by the University of
Ottawa Sociolinguistics Lab (http://www.sociolinguistics.uottawa.ca/thelab.html), home to 19
major corpora representing hundreds of hours and millions of words of recorded everyday
speech. Couched within the variationist framework for linguistic analysis, it provides a practical
overview of tried-and-true methods for corpus construction, including data collection,
transcription, annotation, and citation, as well as data retrieval, coding, and analysis. It also
features observations on data preservation and data lifecycle, and discusses ethical
considerations involved in collecting and analyzing vernacular speech. It concludes with a
summary of the wide variety of linguistic applications to which properly managed spontaneous
speech data can be put.
INDEX
Keywords : Data management, Data collection, Corpus construction, Data transcription, Speech
data, Variationist sociolinguistics
Mots-clés : Gestion de données, Collecte de données, Constitution de corpus, Transcription de
données, Données de production orale, Sociolinguistique variationniste
AUTEUR
SHANA POPLACK
Université d’Ottawa
Corpus, 22 | 2021
26
A new milestone for the study of

variation in Montréal French: The
Hochelaga-Maisonneuve
sociolinguistic survey
Hélène Blondeau, Mireille Tremblay, Anne Bertrand and Elizabeth Michel
AUTHOR'S NOTE
This research was supported by SSHRC research grants #435-2019-0640 40 ans de
changement linguistique à Montréal et à Welland: le rôle de l’individu et de la communauté
(M. Tremblay) and #412-2011-1005 Le français à la mesure d’un continent (F. Martineau).
We would like to thank our colleagues, France Martineau, Yves Frenette, and Paul-
André Linteau, as well as Raymond Mougeon for their contribution to this research
endeavor, our research assistants (Guillaume Beauchamp, Geneviève Gauthier, Philippe
Morneau), the participants at the conference 50 ans de linguistique sur corpus oraux (U. of
Orléans), NWAV48 2019 (U. Oregon) for their feedback, two anonymous reviewers and
the editors of the volume for their useful comments. Any remaining errors are entirely
our own.
1. Introduction
1 Sociolinguistic surveys conducted in Montréal since the early 1970s have contributed to
the description of linguistic variation in spoken French from the perspective of
apparent and real time. Longitudinal analyses of these corpora collected in three waves
—1971 (Sankoff et al 1976), 1984 (Thibault & Vincent 1990) and 1995 (Vincent et al.
1995)—led to major advances in understanding linguistic change in the community and
across the lifespan (Sankoff 2017, 2019).
Corpus, 22 | 2021
27
2 In the context of the project Le français à la mesure d’un continent, a team of researchers
put together the FRAN corpus which includes data representing French varieties
spoken in North America (Martineau & Séguin 2016). This article introduces one of the
components of the FRAN corpus: the Hochelaga-Maisonneuve variationist sub-corpus
(HOMA) collected in Montréal in 2012 (Blondeau, Frenette, Martineau & Tremblay
2012).
3 In section 2, we provide background information on previous Montréal French corpora
and explain the objectives prompting the collection of new data. In section 3, we
discuss the methodological choices regarding the composition of the Hochelaga-
Maisonneuve sub-corpus including the historical and demo-linguistic criteria that led
to the selection of this neighborhood. In section 4, we introduce the socially stratified
sample and criteria for participant selection, and detail the data collection protocols.
The conditions of access to the corpus and their limits are also discussed. Section 5 is
devoted to the treatment and analysis of the data with a focus on how technological
advances have changed the way we process and access it. Finally, in section 6, we
illustrate with two case studies the revival of research on linguistic variation made
possible by the Hochelaga-Maisonneuve sub-corpus. We first focus on variation in the
use of consequence markers over time. We then turn to a case of phonomorphological
variation in the use of the preposition dans.
2. Previous sociolinguistic research on Montréal

French (1971-1995)
4 This section summarizes previous sociolinguistic research on Montréal French with a
focus on the three-pronged longitudinal study conducted in 1971, 1984 and 1995.
2.1. Milestone 1: The first sociolinguistic survey of Montréal French,

1971
5 In the 1970s, documenting local varieties of spoken French in Québec was a pressing
issue (Blondeau 2020). The first large sociolinguistic survey undertaken focused on the
variety of French spoken in Montréal and marked the development of the emerging
field of sociolinguistics (Labov 2006). Drawing on the work of Labov in New York (1966),
the Sankoff-Cedergren Corpus project (Sankoff et al. 1976) began in 1971. It involved
the large-scale collection of spoken data conducted by a multidisciplinary team. Their
main goal was to describe linguistic variation in Montréal French and discover the
ordered heterogeneity (Weinreich et al. 1968) at play at the community level. In the
researchers’ own words, the contribution of the Sankoff-Cedergren corpus was as
follows:
Nous voulions contribuer à une meilleure compréhension du français parlé au Québec en
considérant ses aspects propres non comme des erreurs ou aberrations ou encore en terme
de mélange non structuré d’anomalies grammaticales, mais en tant qu’éléments d’un
système cohérent partagé par tous les membres de la communauté (Sankoff D. et al. 1976:
88).
6 This first corpus was based on a socially constructed sample of Montréal’s Francophone
population. It was comprised of 120 recorded interviews, followed by a reading task. All
participants were native French speakers born and raised in Montréal and selected via
Corpus, 22 | 2021
28
a random stratified sample.1 The sampling grid, designed to ensure representativity,

was comprised of six socioeconomic levels, balanced for gender and age (Sankoff et al.
1976; Sankoff 2017). This first data collection was characterized by an effort made to
record spontaneous speech in conditions as close as possible to authentic, vernacular
communication situations, while at the same time preserving sound quality.
7 This study design paved the way for quantitative studies at different levels of linguistic
structure, particularly in phonetics, phonology and morphosyntax (for a review of
early work, see Thibault & Vincent 1990; Daveluy 1994). These studies relied on the
Apparent-Time model (Labov 1972), which postulates linguistic change based on
synchronous data. According to this approach, change is accounted for by an indirect
measure of the time factor, which in the case of the 1971 study was participant age. The
first quantitative analysis of the change in the pronunciation of the /r/ phoneme in
Montréal French (Clermont & Cedergren 1979) illustrated the relevance of this model,
and the key role played by women and youth in the decline of the apical variant.
8 This first period was characterized by innovations in data analysis and methodology. A
first multivariate analysis program known as Varbrul was designed to identify trends
governing sociolinguistic variation (Cedergren & D. Sankoff 1974; Rousseau & Sankoff
1978). The social dimensions of the analysis were based on the speakers’ educational
and occupational features (Sankoff 2019), but very early on the conceptualization of the
social dimension was improved with the development of an index of participation in
the language market2 (Sankoff & Laberge 1978).
2.2. Longitudinal studies of Montréal French

Milestone 2: The Montréal-1984 corpus
9 Thirteen years later, a longitudinal project was launched by Thibault and Vincent, two
former doctoral students of G. Sankoff, in collaboration with D. Sankoff. It led to the
collection of the Montréal-1984 corpus (Thibault & Vincent 1990). The goals were to
verify how changes postulated according to the apparent-time model were validated in
real-time and to answer questions related to interactional sociolinguistics and
discourse analysis.
10 The team succeeded in tracing and re-interviewing 50% (n=60) of the initial
participants to the 1971 study, despite the fact that a second wave of data collection
had not been part of the initial 1971 study-design (Daveluy & Laforest 1994). To ensure
balanced representation across age groups, 12 interviews were also conducted with
new participants between the ages of 15 and 25. In total, the corpus was comprised of
72 interviews. The data collection protocol was similar to that of 1971 with the
exception of the reading task, which was discarded in 1984.
11 This kind of follow-up with a community after an initial sociolinguistic survey was an
innovative direction in sociolinguistics (see Trudgill 1988 for English and Cedergren
1988 for Spanish). Although Thibault & Vincent (1990) recognized that the reduction in
size of the 1984 sample resulted in some loss of representativity—particularly with
regard to the lower socio-economic status (SES)—the corpus was innovative in that it
offered two avenues for monitoring language change over time: community trend
follow-up and panel study (Sankoff 2017). For the sixty participants who were re-
interviewed, it was possible to follow changes in individuals across a span of 13 years. It
Corpus, 22 | 2021
29
was also possible to compare a sample of the community at Time 1 (120 speakers in
1971) with Time 2 (72 speakers in 1984) in order to identify community trends.
12 This re-examination of community speech patterns provided a better understanding of
the relationship between community change and age-grading phenomena; a
relationship that apparent-time cannot capture (Labov 1994). This distinction was well
illustrated by a real-time analysis of the use of discourse markers over time (1971-1984)
using both the trend and the panel components (Thibault & Daveluy 1989). In
particular, the use of the consequence marker alors ‘then’—initially considered to be
part of a change in progress at the community level due to its association with older
speakers (Dessurault-Dober 1973)—was argued to be associated instead with an age-
grading phenomenon.
13 In sum, research based on this second wave of Montréal data had a significant impact
on real-time sociolinguistic research (Sankoff & Blondeau 2007; Sankoff 2019). The
methodological distinction between trend study and panel study provided a better
understanding of the dynamics of language change both at the community level and at
the individual level. This distinction was impossible to discern based on a strict analysis
of the effect of age on synchronic variation and has contributed to refinements in the
theory of language variation and change (Sankoff 2017).
Milestone 3: The Montréal-1995 corpus
14 In 1995, Vincent and her collaborators returned to the Montréal community to compile
a third corpus. Smaller in size, the Montreal 1995 corpus was comprised of
sociolinguistic interviews with twelve of the participants interviewed in both 1971 and
1984. In addition, the sample included two of the twelve young speakers who were
added to the Montréal 1984 corpus (Vincent et al. 1995). These fourteen 1995
sociolinguistic interviews were similar in form and content to those conducted in 1971
and 1984. Additionally, the 1995 protocol included recordings of spontaneous speech of
four participants in their respective homes, giving access to a variety of speech events
involving the participant and other family members or friends without the presence of
an interviewer. Despite the reduced sample size, the longitudinal nature of this corpus
allowed for the examination of intra-individual variation over time, from 1971 to 1995.
Moreover, the situational range of the data collected broadened the potential of the
analyses from an interactional perspective.
15 The research based on the Montréal corpora has played a major role in the
development of the research stream on language change over the lifespan (Buchstaller
& Wagner 2017). Until the 1990s, the phenomena related to the sociolinguistic
development of individuals over the lifespan was under-explored (Sankoff 2019), and
thus the 1995 Montréal French data contributed to a better understanding of this
dimension. Although less suitable for the identification of community trends, the
Montréal 1995 corpus did provide an opportunity to examine intra-individual variation
over time and its social significance. Indeed, it extended the time scope for the study of
the sociolinguistic positioning of the individual over time for various linguistic
variables (Sankoff et al. 2001; Sankoff 2017; Blondeau 2001; Blondeau et al. 2018).
Studies of intra-individual variation over time remain rare for the French language.
Apart from the Montréal project, two corpora on French varieties include a similar
longitudinal dimension. In Welland, Ontario, Raymond Mougeon has been documenting
community and lifespan change (Beniak et al. 1985; Martineau & Mougeon 2013).
Corpus, 22 | 2021
30
Similarly, a project in Orléans, France (1968-2012), tracks the evolution of hexagonal

French (Abouda & Baude 2007; Baude & Dugua 2016). In both cases a cohort of 12
speakers were reinterviewed after almost 40 years.
3. Montréal 2012
3.1. The need for a new corpus
16 The 20th century corpora were successful in their attempts to model change both in
progress at the community level (apparent- and real-time) and across the lifespan
(real-time). As demonstrated above, the three-pronged longitudinal study provided a
unique opportunity to describe Montréal French over time. Research that developed
out of these three milestone corpora contributed to the theory of language change, in
particular towards the establishment of a better understanding of the relationship
between age-grading and generational change at the community level (Blondeau 2011;
Buchstaller & Wagner 2017; Sankoff 2019; Sankoff & Blondeau 2007; Thibault & Daveluy
1989; Wagner & Sankoff 2011).
17 However, because these three corpora were not initially designed to model community
change in real-time, the 1984 and 1995 corpora did not allow for a perfect comparison
with the 1971 corpus. The trend comparisons between 1971 and 1984 offered a
relatively short window of 13 years for the possible identification of linguistic change.
Although a longer period of 24 years elapsed between 1971 and 1995 corpora, the small
sample size of the 1995 corpus (only 12 were interviewed in both 1971 and 1995) made
any comparison with the much larger 1971 corpus difficult. The 1995 corpus was also
limited in its potential for the identification of community trends as it was composed of
data from the same speakers surveyed in previous corpora. There was also an over-
representation of the middle and upper classes in the 1984 and 1995 corpora.
18 It was therefore clear that a new stratified corpus was needed to observe community
changes in real time over a wider time span. Such a corpus would allow to further
verify the hypothesis that linguistic and social synchronic variation was the basis for
diachronic variation (Labov 1994). By comparing community linguistic dynamics from
1971 and 2012, we can further test the apparent-time model to see if its predictions can
be confirmed in real time.
3.2. Choice of the fieldwork site
19 While the greater Montréal area still bears the evidence of the traditional split between
Francophone and Anglophone communities along its eastern and western parts, most
neighborhoods are increasingly culturally and socially diverse. This poses a challenge
for any comparison with previous corpora assembled at a time when Montréal’s
Francophone neighborhoods were more homogeneous. Over the last forty years, the
social configuration of Montréal has evolved due to the effects of globalization and the
implementation of the French Language Charter (Bill 101) in 1976. The latter measure
has reduced the presence of English, increased the use of French in the workplace and
its visibility in the linguistic landscape, and required new immigrants to Québec to send
their children to Francophone schools. At the same time, an influx of more affluent
residents into previously working class neighborhoods has produced an effect of
Corpus, 22 | 2021
31
gentrification. In the 2010s, neighborhoods are less socially and culturally homogenous
than they once were. The 1971 sample selection procedure cannot be used because
neighborhoods can no longer be selected on the assumption that they reflect a
particular social class. In the 21st century, the sample selection procedure must take
into account both the cultural and social diversification of neighborhoods.
20 In the context of the project Le français à la mesure d’un continent: un patrimoine en
partage (Martineau et al. 2011-2018) (continent.uottawa.ca), a multidisciplinary team
explored various Francophone communities across North America (Martineau & Seguin
2016). New fieldwork was undertaken in order to explore the situation of 21 st century
Montréal and to take into account how these social changes affected language practices
in the Francophone community. A neighborhood-based approach was adopted, and
sub-corpora were collected in two Francophone neighborhoods of Montréal:
Hochelaga-Maisonneuve and St-Michel-Montréal-Nord.3 In this article, we focus on the
Hochelaga-Maisonneuve sub-corpus (Blondeau et al. 2012).
3.3. Focus on Hochelaga-Maisonneuve
21 Hochelaga-Maisonneuve is one of the neighborhoods that best lends itself to

comparison with the previous corpora; it is a predominantly French-speaking, socially
diverse urban neighborhood. This ensures a solid comparison with previous corpora
across social and cultural criteria. Situated in the eastern part of the city where
Francophones constitute a majority,4 Hochelaga-Maisonneuve is a former industrial
area whose inhabitants were former rural residents from the Great Plain of Montréal
(Linteau 1981). At the turn of the 20th century, this prosperous neighborhood provided
many jobs for workers. This era of prosperity was followed by a period of economic
decline brought about by de-industrialization. This decline led to an increase in poverty
and unemployment, and to the development of many community networks. More
recently, with the arrival of new residents from the middle class, the neighborhood has
become gentrified.5 This cohabitation of populations from different social backgrounds
has led to social diversification, making it possible to examine the effects of
gentrification and social mixing (Blondeau & Tremblay 2012). Moreover, this social
diversification facilitates comparisons with the socially stratified 1971 Montréal French
corpus.
4. The Hochelaga-Maisonneuve corpus (Blondeau,

Frenette, Martineau & Tremblay variationist corpus)
4.1. The stratified sample
22 Initially, the team planned for a sample of 48 speakers selected on the basis of age,
socio-economic status and gender. Roughly an equal number of male and female
participants of diverse age and socio-economic status (SES) were intended in order to
construct a speech corpus suitable for the sociolinguistic analysis of language variation.
A stratified sample scheme was initially devised: 48 participants (24 M and 24 F), from
4 age groups (emerging adults 18-25, young adults 26-39, older adults 40-60, and mature
adults 61+), and six socioeconomic backgrounds. The categorization of speakers
according to SES was based on the occupational history of the speakers or their
Corpus, 22 | 2021
32
families6: SES 1 ( Liberal profession/Business Person), SES 2 (Bachelor Degree/

Intellectual), SES 3 (Technician /Supervisor), SES 4 (White-collar/office worker), SES 5
(Blue-collar/manual worker), and SES 6 (history of no stable employment). Participants
were required to have grown up in the Great Plain area of Montréal, to have been
educated in French and to have been living in the neighborhood for at least five years.
23 In the end, data was collected from 50 participants of which 23 were female and 27
were male, and ranging from ages 18 to 89 distributed as follows: 13 participants
(18-25), 12 participants (26-39), 12 participants (40-60), and 13 participants (61 +). The
construction of a socially-balanced speaker sample was somewhat hampered by the fact
that it was difficult to recruit older participants situated at the higher end of the social
hierarchy. For this reason, speaker sample suffered from a shortage of higher SES
speakers in the oldest age-group, as shown in table 1.
Table 1. Sample
SES 4 SES 5
SES 1 SES 2
SES 3 White- Blue-
Liberal Bachelor SES 6
Technician/ collar/ collar/
profession/ Degree / Unemployed
Supervisor Office manual
Business Person Intellectual
worker worker
F M F M F M F M F M F M
Emerging
1 1 1 1 1 1 1 1 1 2 1 1
Adults 18-25
Younger
1 1 1 1 1 1 1 1 1 1 1 1
Adults 26-39
Older Adults
1 1 2 1 1 1 1 1 0 2 1 1
40-60
Mature
0 0 0 1 0 4 1 1 2 2 2 0
Adults 61+
4.2. Data collection protocol
24 To preserve comparability with previous sociolinguistic corpora of spoken Montréal

French, the data was collected via face-to-face sociolinguistic interviews conducted by
different interviewers, all native speakers of Québec French. Thirteen of the older
speakers were interviewed by project co-investigators (two women and a man in their
fifties), while the remaining interviews were conducted by students (one man and two
women ranging in age from 24 to 31). The interviews were intended to mimic the flow
of natural conversation and were loosely based on a script which included (i) questions
designed to elicit spontaneous responses on topics such as childhood memories, and
important historical and biographical events (ii) questions on life in the neighborhood
and changes it may have undergone, and (iii) a series of questions on the use and status
of the French language in Montréal and Québec. While similar in content and style to
Corpus, 22 | 2021
33
the 1971 and 1984 interviews, some of the topics covered in 2012-2015 reflected
changes in the cultural and socioeconomic context of Montréal as well as the local
context of the neighborhood. The interviews lasted between one and two hours and
were usually conducted in the home of the participant.
5. Data management
5.1. Transcription
25 All 50 interviews were transcribed and audio-aligned: 38 interviews were transcribed in

ELAN (Wittenburg et al. 2006) at the Université de Montréal under the supervision of
M. Tremblay and 12 interviews were transcribed in Praat at the University of Ottawa
under the supervision of F. Martineau. The transcriptions followed the protocol for the
FRAN corpus (Martineau & Séguin 2016), designed to facilitate the retrieval of
comparable morphosyntactic variables (Martineau et al. 2014). It aimed to produce
accurate transcriptions while maintaining uniformity across sub-corpora. Morpho-
phonological phenomena were not transcribed systematically. However, because the
transcriptions were audio-aligned, it remains possible to retrieve information on
specific phonological variables from their context within the transcription. The
transcriptions also recorded conversational events of a more pragmatic nature such as
interruptions, back channeling, hesitation, false starts, etc. The transcriptions were
made using standard French orthography when doing so did not obfuscate
morphosyntactic characteristics of the varieties. The FRAN corpus is located at the
Université de Sherbrooke, and is available online via catfran.flsh.usherbrooke.ca/txm.
While the texts of the FRAN Corpus are not accessible in their entirety, it is possible to
query the available interviews and obtain results in the form of a concordance.
5.2. Annotation
26 The audio-alignment of interviews allows for easy tracking and annotation of relevant
occurrences. Annotation directly under the segment means that it is possible to listen
to the interview without having to search for the matching segment in a separate audio
file. This alignment also allows for on-going modification. In particular, Elan can be
used to codify various types of linguistic information, which can then be extracted and
analyzed. The information can be codified according to a predetermined scheme on
individual tiers, simplifying the subsequent linguistic analyses as the information is
wellorganized in a unique environment.
6. Illustration
27 This section illustrates the advantages of the corpus with its sound-text aligned
transcription and dynamic annotation in the renewal of the questioning of linguistic
variation. We first discuss variation in the use of the consequence markers alors, donc,
and (ça) fait que. This variable is involved in a vigorous change in progress at the
community level. We then turn to preposition-determiner contraction, a phenomenon
that is losing momentum in Montréal French.
Corpus, 22 | 2021
34
6.1. Variation in the use of consequence markers
28 Since Dessurault-Dober (1974), sociolinguistic studies have examined the variation at

play in the usage of consequence markers alors, donc and (ça) fait que mainly from the
perspective of lexical variation by examining its discursive and social constraints
(Blondeau et al 2019). The example in (1) illustrates the use of the consequence marker
(ça) fait que, but both alors and donc can be used in the same context without any change
in meaning.
(1) Ben ma mère est pas super scolarisée mais elle s’intéressait à plein de choses fait-que
c’est possible que elle apprenait beaucoup de mots mais elle les utlisait pas comme il faut tu
sais. HOMA_008F27.
‘Well, my mother’s not very well educated, but she was interested in a lot of things,
so it’s possible that she learned a lot of words, but she didn’t use them properly, you
know.’
29 The new data collected in 2012 provides a new perspective on this variable undergoing
change. The analysis of the lexical variation in 2012 and the comparison with the 1971
data confirm the spread of the (ça) fait que variant within the community, and show
that the use of alors declined sharply between 1971 and 2012 (Martineau & Séguin 2016;
Blondeau et al. 2019). The standard variant donc appears to be a good candidate for the
replacement of alors as the prestigious variant because, while it was almost absent in
1971, its use has increased over time.
30 The apparent-time analysis of the 2012 data set demonstrates that the use of donc was
short-lived as it was mainly favored by speakers ages 40 to 60 years with a high socio-
economic status, most of whom were women. A subsequent examination of its usage by
speakers in the youngest age group indicates that this variant is neglected by women
and the youngest group of male speakers. Initially associated with a lower
socioeconomic status, (ça) fait que is now being used by speakers of the upper end of the
social scale to the detriment of the other variants. While real-time analyses confirmed
the rapid rise of (ça) fait que, an analysis focusing only on lexical variation left the
popularity of this vernacular form unexplained.
31 The sound-text aligned transcription and dynamic annotation facilitate the analysis of
the sociophonetic realization of the variant (ça) fait que, an aspect that was never
quantitatively analyzed, due in part to the lack of tools available for previous corpora
of Montréal French. A careful analysis of the various phonological realizations of the
variants sheds light on the role of sociophonetic factors in the change at play.
32 We examined the social distribution of two phonological variants of (ça) fait que that are
distinguished by vowel quality: /fak/ and /fɛk/, illustrated in (2).
(2) a. Au besoin il y a les taxis pis tout est proche à Montréal fait-que [fak] si jamais on a
besoin d’un taxi on s’en sort à dix piastres. (HOMA_001M29)
‘If we need, there are taxis and everything is close by in Montreal, so if we ever
need a taxi, we get by for ten bucks.’
b. Pis sa fille a accepté fait-que [fɛk] on est parti ensemble. (HOMA_002F52)
‘And his daughter agreed so we left together.’
33 An apparent-time variationist analysis demonstrates that the choice of variant is
socially conditioned; /fɛk/ is favoured by women and youth, while /fak/ is associated
with speakers with a low SES. We attribute the success of (ça) fait que in this lexical
competition to its ability to phonologically encode social variation. The analyses
indicate that /fak/ as a vernacular variant has been replaced by the variant /fɛk/.
Corpus, 22 | 2021
35
Instead of a tripartite lexical variable as is generally proposed in the literature, the

2012 apparent-time study demonstrates that there are four variants in competition
over time (alors/fak →donc/fak →fɛk/fak). This model provides a better explanation of
the puzzling results provided by previous lexical studies.
6.2. Contraction of the preposition dans
34 While standard French allows P+Det fusion only in the context of the prepositions de
“of” and à ‘to’, Québec French extends this phenomenon to the prepositions dans “in”
and sur ‘on’, as shown in (3) and (4).
(3) a. Oui je me rappelle avoir patiné dans la [dɑ̃ :] rue. (HOMA_004M25)
‘I remember skating in the street.’
b. J’étais bon dans les [dɛ̃ :] dictées. (HOMA_010M31)
‘I was good at dictation.’
(4) a. Sur la [sa:] rue Bourbonnière là c’est vraiment des vieux logements .
(HOMA_016F44)
‘On Bourbonnière Street, it’s really old housing’
b. On disait que les gens en campagne ils étaient un peu en retard sur les [se:z] autres.
(HOMA_002F52)
‘We used to say that people in the countryside they were a little behind the others.’
35 While many have focused on describing this phenomenon (Baronian 2006, Dumas 1974,
Walker 1984), no quantitative study had yet attempted to measure its full extent.
Alignment of the audio files with transcriptions allowed us to fill this gap.
36 Our data come from a sub-corpus of 38 semi-directed interviews of the corpus. We
present the results for the preposition dans combined with the determiners la, les, un
and une . Each P+DET combination was classified as non-contracted or contracted
(vernacular) according to its phonological form. In addition, each occurrence was
coded according to linguistic (definiteness and gender of the determiners) and
extralinguistic (gender, age, socio-economic status) factors.
37 Our multivariate analysis was based on 1296 occurrences. Table 2 provides the
distribution of the non-contracted variant for the determiners la, les, un and une 7. The
overall results show a much higher rate of vernacular forms with the definite
determiners la and les (grammatical gender was not significant).
Table 2. General tendencies (38 speakers)
38 Turning now to the social dimension of the variation, the three factor groups
considered were significant (p<.05). Figure 1 shows the effect of extralinguistic factors
on the choice of the non-contracted variant. SES plays the most important role in the
variation, followed by age and gender. The non-contracted variant is strongly
disfavored by older speakers and those with a low SES; the non-contracted variant is
favored by younger speakers and women.
Corpus, 22 | 2021
36
Figure 1. Influence of extralinguistic factors on the use of non-contracted vs. contracted dans
39 In light of the apparent-time model, the P+DET fusion of the preposition dans—although
still relatively frequent—would be a regressive phenomenon in Montréal French. The
variable is characterized by a regular age distribution and the analysis suggests a shift
towards more standard forms; older Montrealers favor vernacular forms, while
younger Montrealers disfavor these variants in a shift that appears to be led by women.
Conclusion
40 This article introduced the methodological choices that guided the design of the
Hochelaga-Maisonnevue corpus, a data set that complements previous sociolinguistic
corpora and represents a new milestone for the study of sociolinguistic variation in
Montréal French. This corpus collected in 2012 connects in many ways with previous
corpora collected in 1971, 1984, and 1995. It is therefore a valuable resource for the
microdiachronic study of spoken French, particularly with respect to community
trends spanning 1971 to 2012.
41 After providing information on previously available sociolinguistic corpora, we
discussed the historical and demo-linguistic information that led to the choice of the
Hochelaga-Maisonneuve neighborhood. The presentation of the sample showed how
social stratification across age, gender and SES ensured comparability with previous
Montréal French corpora. Additionally, we provided information on data collection
protocols and type of sociolinguistic interview, which are another guarantee of
comparability. One notable difference with previous Montréal French corpora is the
methodological advances in transcription and annotation. As demonstrated,
transcription softwares allowing dynamic annotations and audio-aligned transcriptions
provide greater flexibility and precision in the analysis of the dynamics of
sociolinguistic variation.
42 A study of two sociolinguistic variables involved in community changes in progress
highlighted the potential for new analyses. We summarized the real-time analysis on
lexical variation in the use of consequence markers between 1971 and 2012 and
compared it with a 2012 apparent-time analysis of the sociophonetic variation. In
addition, we examined in apparent time the phonomorphological variation in the use
of preposition dans ‘in’ when followed by a determiner and demonstrated a case of de-
vernacularisation.
43 In sum, the characteristics of the Hochelaga-Maisonneuve corpus ensure comparability
with previous studies and allow for a better understanding of the dynamics of change
in real- and apparent-time. Likewise, this corpus allows us to revisit questions
surrounding well-studied sociolinguistic variables, and to investigate variables that
have not yet been the subject of quantitative studies.
Corpus, 22 | 2021
37
BIBLIOGRAPHY
Abouda L. & Baude O. (2007). “Constituer et exploiter un grand corpus oral, choix et enjeux
théoriques: le cas des ESLO”, in Actes du colloque Corpus en lettres et sciences sociales, Des documents
numériques à l’interprétation. Colloque d’Albi, Langages et signification, juin 2006. Toulouse: Presses
universitaires de Toulouse, 161-168.
Baude O. & Dugua C. (2016). “Les ESLO, du portrait sonore au paysage digital”, Corpus 15.
Baronian L. V. (2006). “Preposition Contractions in Quebec French”, in P. Saint-Dizier (ed.), Syntax

and Semantics of Prepositions 29: 27-42.
Beniak É., Mougeon R. & Valois D. (1985). Contact des langues et changement linguistique: étude
sociolinguistique du français parlé à Welland. Québec: Centre International de Recherche sur le
Bilinguisme.
Blondeau H. (2001). “Real-time changes in the paradigm of personal pronouns in Montreal

French”, Journal of Sociolinguistics 5(4): 453-474.
Blondeau H. (2011). Cet “autres” qui nous distingue Tendances communautaires et parcours individuels
dans le système des pronoms en français québécois. Québec: Presses de l’Université Laval.
Blondeau H. (2020). “La sociolinguistique au Québec des années 1960 à 2000”, in G. Dostie (ed.),
Combats pour la linguistique au Québec. Courants, théories, domaines (1960-2000). Bruxelles: Peter Lang,
251-278.
Blondeau H., Mougeon R. & Tremblay M. (2018). “Variation and change in real time in two
French-Canadian communities”, Paper presented at Discourse-pragmatic variation and change
(DiPVaC) 4, University of Helsinki, June 2018, Helsinki.
Blondeau H., Mougeon R. & Tremblay M. (2019). “Analyse comparative de ça fait que, alors, donc et
so à Montréal et à Welland: mutations sociales, convergences, divergences en français
laurentien”. Journal of French Language Studies 29: 35-65.
Blondeau H. & Tremblay M. (2012). “Social mixing in HOMA: Young urban Francophones and
language variation”, Paper presented at the Sociolinguistics Symposium 19, Freie Universität
Berlin, June 22-24, Berlin.
Blondeau H. & Tremblay M. (2016). “Le traditionnel et l’émergent. L’apport de jeunes montréalais
issus de l’immigration au français vernaculaire”, in H. Blondeau & W. Remysen (eds.), Special
Issue: Du local au global: pratiques et idéologies linguistiques en contexte montréalais, Cahiers
Internationaux de Sociolinguistique 10: 19-45.
Blondeau H., Frenette Y., Martineau F. & Tremblay M. (dir.) (2012). Sous-corpus variationniste de
Hochelaga-Maisonneuve du Corpus FRAN.
Bourdieu P. & Boltanski L. (1975). “Le fétichisme de la langue”, Actes de la recherche en sciences
sociales 4: 2-32.
Buchstaller I. & Wagner S. E. (2018). “Introduction. Using panel data in the sociolinguistic study
of variation and change”, in S. E. Wagner & I. Buchstaller (eds.), Panel Studies of variation and
change. New York: Routledge, 1-18.
Cedergren H. (1988). “The spread of language change: Verifying inferences of linguistic

diffusion”, in P. H. Lowenberg (ed.), Language spread and language policy: Issues, implications,
and case studies, GURT 1987. Wahsington, DC: Georgetown University Press, 45-60.
Corpus, 22 | 2021
38
Cedergren H. & Sankoff D. (1974). “Variable rules: performance as a statistical reflection of

competence”, Language 50: 333-355.
Clermont J. & Cedergren H. (1979). “Les R de ma mère sont perdus dans l’air”, in P. Thibault (ed.),
Le français parlé. Études sociolinguistiques. Edmonton, Alberta: Linguistic Research, 13-28.
Daveluy M. (éd.) (1994). “Thematic section for the tenth anniversary of the Montreal 1984 corpus:
Spoken French, a retrospective”, Culture 14 (2); 15 (1) Montréal: Société canadienne
d’anthropologie.
Dessurault-Dober D. (1974). Étude sociolinguistique de (ça) fait que: “coordonnant logique” et

“marqueur d’interaction”. M.A. thesis, Montréal: Université du Québec à Montréal.
Dumas D. (1974). “La fusion vocalique en français québécois”, Montréal Working Papers in
Linguistics 2, Montreal: McGill University, Université de Montréal, Université du Québec à
Montréal.
Labov W. (2006 [1966]). The Social Stratification of English in New York City. Washington, D.C.: Center
for Applied Linguistics.
Labov W. (1972). Language in the Inner City: Studies in the Black English Vernacular. Philadelphie:
University of Pennsylvania Press.
Labov W. (1994). Principles of Linguistic Change. Volume I: Internal Factors, Oxford and Malden:
Blackwell.
Linteau P.-A. (1981). Maisonneuve ou comment des promoteurs fabriquent une ville 1883-1918. Montréal:
Boréal.
Martineau F. & Mougeon R. (2013). Sous-corpus variationniste de Welland du Corpus FRAN.
Martineau F. & Séguin M.-C. (2016). “Le corpus FRAN: Réseaux et maillages en Amérique
française”, Corpus 15.
Rousseau P. & Sankoff D. (1978). “Advances in variable rule methodology”, in D. Sankoff (ed.),
Linguistic Variation, Models and methods, New York: Academic Press, 57-69.
Sankoff D. & Laberge S. (1978). “The linguistic market and the statistical explanation of
variability”, in D. Sankoff (ed.), Linguistic Variation, Models and methods. New York: Academic Press,
239-250.
Sankoff D., Sankoff G., Laberg S. & Topham M. (1976). “Méthodes d’échantillonnage et utilisation
de l’ordinateur dans l’étude de la variation grammaticale”, Cahiers de linguistique de l’Université du
Québec 6: 85-125.
Sankoff G. (2017). “Before there were corpora: The evolution of the Montréal French project as a
longitudinal study”, in S. Wagner & I. Buchstaller (dir.), Panel studies of language variation and
Change, New York, NY: Routledge, 21-52.
Sankoff G. (2019). “Language change across the lifespan: Three trajectory types” Language 62(2):
197-229.
Sankoff G. & Blondeau H. (2007). “Language change across the lifespan: /r/ in Montréal Frenc”.
Language 83(3): 560-588.
Sankoff G. Blondeau H. & Charity A. (2001). “Individual roles in a real-time change: Montreal R- r
1947-1995”, in H. Van de Velde & R. van Hout (eds.), r-atics: Sociolinguistic, phonetic and phonological
characteristics of /r/, Brussels, Belgique: ILVP, 141-157.
Corpus, 22 | 2021
39
Tagliamonte S. (2015). Making waves: The story of variationist sociolinguistics. Malden, MA: John
Wiley & Sons.
Thibault P. & Daveluy M. (1989). “Quelques traces du passage du temps dans le parler des
Montréalais, 1971-1984”, Language Variation and Change, 1(1): 19-45.
Thibault P. & Vincent D. (1990). Un corpus de français parlé:recherches sociolinguistiques. Québec:

Université Laval.
Trudgill P. (1988). “Norwich revisited: recent changes in an English urban dialect”, English World
Wide 9: 33-49.
Vincent D. Laforest M. & Martel G. (1995). “Le corpus de Montréal 1995: adaptation de la méthode
d’enquête sociolinguistique pour l’analyse conversationnelle”, Dialangue 6: 29-46.
Wagner S. E. & Sankoff G. (2011). “Age grading in the Montréal French inflected future”, Language
Variation and Change 23: 275-313.
Walker D. C. (1984). The Pronunciation of Canadian French. Ottawa: University of Ottawa Press.
Weinreich U., Labov W. & Herzog M. (1968). “Empirical foundations for a theory of language
change”, in W. Lehmann & Y. Malkiel (eds.), Directions for historical linguistics: A symposium. Austin:
University of Texas Press.
Wittenburg P. Brugman H. Russel A. Klassmann A. & VI Sloeutjes H. (2006). ELAN: a Professional

Framework for Multimodality Research. Nijmegen: Max Planck Institute for Psycholinguistics, The
Language Archive.
NOTES
1. The sample universe was based on the 188 Census tracts with a minimum of 64% of
Francophones.
2. Inspired by Bourdieu’s theory of sociosymbolic market dynamics (Bourdieu & Boltanski 1975),
this numerical index was developed to serve as an independent variable to establish the
relationship between linguistic and social variation. This index, constructed a posteriori, proved
to be more revealing than the simple use of social origin (Sankoff D. 1980).
3. Information on the variationist corpus collected in St-Michel-Montréal-Nord (Blondeau et al.
2012) is available in Blondeau & Tremblay (2016).
4. In the borough of Mercier-Hochelaga-Maisonneuve, among the population that declared a
single mother tongue, individuals with French as their mother tongue are in the vast majority
(79%) (Montréal en statistiques 2011). Moreover, there are more individuals who communicate in
French at home than individuals with French as their mother tongue. Therefore, French is
gaining relative ground over other languages as the language of communication in the home in
this neighborhood. In comparison, 54.3% of the entire Montreal population reported speaking
mostly French at home, 25.3% mostly English and the remaining 20.4% mostly other languages. It
is worth noting that in the greater Montréal, Francophones represent 69.9% and in the province
of Québec 85.2% of the population. Data on knowledge of official languages (specifically the
ability to hold a conversation in the official languages) reveal that in Mercier-Hochelaga-
Maisonneuve area, of the individuals whose mother tongue is French, 63% can only converse in
French, and 37% can converse in both French and English.
5. In the 1971 data collection, most of the speakers interviewed in this area of Montréal
originated from Hochelaga (the western part of the neighborhood) and were classified at the
lower end of the social ladder.
Corpus, 22 | 2021
40
6. For comparability purposes, these SES categories were based on the Montréal-1984
categorization scheme (Thibault & Vincent 1990).
7. In this analysis, the category “non-contracted” for indefinites includes both [dɑ̃ z] (with
liaison) and [dɑ̃ ] (without liaison). In this category, the variant with liaison was used 87% of the
time.
ABSTRACTS
This article introduces the 2012 Montréal FRAN-HOMA corpus, collected in the Francophone
neighborhood of Hochelaga-Maisonneuve, and how it relates to the heritage corpora of Montréal
French collected since the 1970s. We discuss the methodological choices made regarding the
composition of this corpus including the historical and demo-linguistic information that led to
the selection of the Hochelaga-Maisonneuve neighborhood for fieldwork. A presentation of the
socially stratified sample and criteria for participant selection is followed by a discussion on data
collection and the sociolinguistic interview. After a brief review of the transcription protocol and
the advantages of audio-aligned transcription, we provide two illustrations of the revival of
research on linguistic variation made possible by this new corpus.
Cet article présente le corpus FRAN-HOMA de Montréal 2012 recueilli dans le quartier
francophone d’Hochelaga-Maisonneuve, et son rapport avec les corpus patrimoniaux de français
montréalais recueillis depuis les années 1970. Nous discutons des choix méthodologiques
effectués concernant la composition de ce corpus, y compris les informations historiques et
démo-linguistiques qui ont conduit à la sélection d’Hochelaga-Maisonneuve comme site pour le
travail de terrain. Une présentation de l’échantillon socialement stratifié et des critères de
sélection des participants est suivie d’une discussion sur la collecte des données et l’entretien
sociolinguistique. Après un bref exposé sur le protocole de transcription et les avantages de la
transcription audio-alignée, nous fournissons deux illustrations de la relance de la recherche sur
la variation linguistique rendue possible par ce nouveau corpus.
INDEX
Mots-clés: Variation, Changement, Corpus, Temps apparent, Temps réel, français québécois
Keywords: Variation, Change, Corpus, Apparent Time, Real Time, Québec French
AUTHORS
HÉLÈNE BLONDEAU
University of Florida
MIREILLE TREMBLAY
Université de Montréal
Corpus, 22 | 2021
41
ANNE BERTRAND
University of British Columbia
ELIZABETH MICHEL
Université de Montréal
Corpus, 22 | 2021
42
Variation sociolinguistique et
réseau social :
constitution et traitement d’un
corpus de données orales massives1
Aurélie Nardy, Hélène Bouchet, Isabelle Rousset, Loïc Liégeois, Laurence
Buson, Céline Dugua et Jean-Pierre Chevrot
1. Variation et réseau social en sociolinguistique

Dans le courant de la sociolinguistique variationniste, les langues sont conçues comme
des systèmes hétérogènes et évolutifs du fait de leur dynamique interne, des contacts
entre elles et de leur couplage avec l’organisation sociale, elle-même évolutive,
composite et stratifiée (Labov, 1966 ; Weinreich, Labov & Herzog, 1968 ; Laks, 2013). Les
usages langagiers des locuteurs sont contraints par des facteurs linguistiques et sociaux
qui reflètent d’une part, les systèmes grammaticaux sous-jacents et d’autre part,
l’organisation sociale des communautés dans lesquelles ils évoluent (Weinreich et al.,
1968 ; Coupland & Jaworski, 1997 ; Bayley, 2002). Un grand nombre de travaux, menés
dans le sillage de ceux de Labov, a ainsi mis en évidence que l’usage des différentes
variantes est contraint par des facteurs internes et externes à la langue. En ce qui
concerne les facteurs extralinguistiques, les recherches ont mis en lumière des patrons
de variation selon différents facteurs sociaux (profession, âge, genre, origine régionale)
et contextuels (formalité de la situation d’interaction, thème de l’échange). Malgré la
régularité des patrons de variation observés entre les différents groupes, les usages des
locuteurs à l’intérieur de ces groupes ne sont pas tous homogènes. Deux locuteurs, de
même âge, de même genre et de même milieu social, dans une situation d’interaction
identique, peuvent produire des variantes différentes. C’est à partir de cette
constatation qu’a été mise en place une approche plus microsociologique des
phénomènes de variation s’appuyant sur le concept de réseau social.
Corpus, 22 | 2021
43
[…] the network concept was developed for the very purpose for which we require
it now – to explain individual behaviour of various kinds which cannot be
accounted for in terms of corporate group membership (Milroy, 1987 : 135).
Une approche de la variation sociolinguistique à partir de l’étude du réseau social
présente plusieurs avantages. Elle permet à la fois d’étudier des petits groupes de
locuteurs qui ne sont pas opposables sur des critères macrosociologiques et
d’appréhender la variation interindividuelle plutôt que la variation entre des groupes
de locuteurs établis sur la base de catégories sociales prédéterminées (Milroy, 2002),
tout en cernant la dynamique sous-jacente aux comportements langagiers variables des
locuteurs. Par exemple, elle permet de rendre compte des patrons de variation
observés chez les hommes et les femmes par des réseaux de socialisation différenciés.
Les hommes, dont les usages sont plus vernaculaires, contractent généralement des
liens plus denses et plus multiplexes dans le réseau local que les femmes qui
manifestent des usages plus standards (Milroy, 1987 ; Labov, 2001 ; Chambers, 2009 ;
Milroy & Llamas, 2013). Un dernier avantage, que nous reprenons à Labov (2001), est le
fait que l’étude des usages langagiers des locuteurs au sein de leur réseau social permet
de recueillir leurs productions dans leurs manifestations quotidiennes (conversations
avec la famille, les amis, les collègues de travail). Cette approche plus
microsociologique n’est pas incompatible avec une approche plus macrosociologique
opposant différentes catégories de locuteurs. Il s’agit de deux niveaux d’analyse
différents mais complémentaires puisque les réseaux sociaux des locuteurs ne sont pas
indépendants de leur environnement social plus global qui lui-même affecte leur
comportement langagier individuel. Notre position rejoint d’ailleurs celle de Milroy &
Gordon (2003) qui avancent que l’examen des usages dans leurs conditions locales de
production permet de comprendre les corrélations entre langage et catégories sociales
plus globales.
Le réseau social d’un individu est défini comme étant l’ensemble des relations qu’il
entretient avec les autres. Analyser ce réseau consiste à étudier les différentes
structures et propriétés de ces relations (Milroy, 2002). Dans le cadre de l’approche par
le réseau social en sociolinguistique, différents indicateurs ont été considérés ; les trois
principaux étant des indicateurs sur les liens dans le réseau – densité et multiplexité
(Milroy, 1987 ; Biichlé, 2018) –, des indicateurs d’intégration sociale (Milroy, 1987 ;
Auer, Barden & Grosskopf, 2000 ; Kerswill & Williams, 2000 ; Beaulieu & Cichocki, 2002)
et des indicateurs de statut sociométrique (Labov, 1972 ; Cheshire, 1982 ; Russell, 1982).
Quels que soit la méthodologie adoptée et l’indice de réseau social choisi, les résultats
des études menées chez l’adulte et l’adolescent aboutissent à une conclusion
semblable : les liens forts renforcent l’usage des formes locales. À l’inverse, les liens
faibles favoriseraient le changement linguistique.
Les enquêtes traditionnellement menées en sociolinguistique se sont appuyées sur les
déclarations des enquêtés en saisissant les réseaux personnels des individus auprès
d’échantillons ne dépassant pas la cinquantaine de participants. Cette approche
égocentrée du réseau permet de rendre compte des influences sociales reçues par les
individus mais elle ne permet pas de saisir l’influence réciproque des individus dans le
réseau, ni de préserver l’écologie globale des liens sociaux au sein d’une communauté
entière.
Corpus, 22 | 2021
44
2. Le projet DyLNet
En vue de dépasser ces limites, dans le projet DyLNet 2 – Dynamiques langagières,
apprentissages linguistiques et sociabilité à l’école maternelle : apport des capteurs de proximité
pour le recueil de données massives – nous avons mis en place une démarche empirique
fondée sur le recueil de données massives, profondes et longitudinales 3 (Nardy, Fleury,
Chevrot, Karsai, Buson, Bianco, Rousset, Dugua, Liégeois, Barbu, Crespelle, Busson, Léo,
Bouchet & Dai, 2016). Il s’agit de cerner l’ensemble des relations dans une communauté
– une école maternelle – au travers d’une approche en termes de réseau complet qui
permet de conserver l’écologie des liens sociaux et de capturer la réciprocité des
influences au travers du recueil dense, exhaustif et objectif des interactions sociales.
Le choix de l’école maternelle est un point de vue particulier mais il présente plusieurs
avantages. Premièrement, ce terrain donne l’occasion d’étudier un phénomène rare : la
formation d’un réseau social. Dans la vie de tous les jours, il est rare qu’un ensemble
d’individus, qui ne se fréquentaient pas auparavant, se retrouvent régulièrement dans
un même lieu dans lequel ils sont amenés à interagir et à tisser des liens.
Deuxièmement, en France, la quasi-totalité des enfants de 3-5 ans est scolarisée. Du fait
de cette généralisation de la scolarisation précoce et de la quantité de temps passée à
l’école maternelle (24h par semaine, 864h par an), cette communauté est considérée
comme une unité sociale signifiante dans les cultures occidentales (Hartup, 1984).
Troisièmement, ce lieu permet d’observer la formation des réseaux affinitaires chez des
individus dont la sociabilité est « neuve », les enfants entrant à l’école maternelle avec
une expérience des pairs souvent limitée (à l’exception de ceux gardés en crèche ou
faisant partie d’une fratrie). Contrairement au voisinage ou à la famille, la scolarisation
met les enfants en position d’opérer des choix parmi l’abondance et la diversité des
relations possibles et ce, souvent, pour la première fois de leur vie (Schaefer et al. 2010 ;
Martin et al., 2005). Quatrièmement, sur le plan développemental, la tranche d’âge
3-5 ans marque l’émergence des relations sociales avec les pairs du fait des
modifications de leurs habiletés sociales et cognitives. C’est pendant cette période que
les jeunes enfants passent d’une tendance à jouer seul ou à côté des autres à la mise en
œuvre de jeux avec autrui accompagnés de comportements sociaux de recherche
d’affiliation et d’engagement avec les pairs (Barbu 2003 ; Rubin et al., 2006). Par rapport
aux tout-petits, les enfants d’âge de maternelle affichent des réseaux plus grands, plus
denses et plus organisés manifestant des amitiés réciproques avec des pairs particuliers
plus stables (Johnson et al., 1997 ; Strayer & Santos, 1996 ; Ladd, 1990). Finalement, sur
un plan méthodologique, l’école ou la classe sont des collectifs dont les contours sont
définis de manière exogène (Butts, 2008) par la frontière spatiale de l’institution et le
temps scolaire (et non par les individus eux-mêmes) (Almquist, 2011). Ainsi, pour toutes
ces raisons, la période de scolarisation en maternelle apparaît comme une occasion
unique d’étudier la dynamique du développement interactionnel social et langagier
précoce (Martin et al., 2005).
Puisque les individus ne sont pas uniquement des réceptacles des processus de
diffusion/circulation linguistique dans le réseau mais sont aussi des agents de ces
processus qui possèdent des caractéristiques qui leur sont propres, nous disposons
pour chacun d’eux d’informations sociocognitives, linguistiques et
sociodémographiques. Enfin, les données longitudinales nous permettent de suivre
Corpus, 22 | 2021
45
l’évolution des usages langagiers en fonction de la structure du réseau social et

d’appréhender d’éventuelles interactions bidirectionnelles entre réseau et langage.
Notre approche consiste à suivre pendant toute la période de scolarisation en
maternelle – 3 ans – près de 200 individus (enfants et intervenants pédagogiques) d’une
école maternelle socialement mixte. Tous sont équipés une semaine par mois de
capteurs sans fil qui enregistrent, toutes les 5 secondes, les proximités entre individus.
De plus, les usages langagiers des enfants et des adultes sont enregistrés grâce à des
micros intégrés aux capteurs. À plusieurs reprises durant les trois années, les enfants
passent une série de tests psycho- et sociolinguistiques. Enfin, leur profil social est
établi grâce à un questionnaire rempli par leur famille.
Cette collecte aboutira à la constitution d’une base de données caractérisée par un
volume important, de la variété (parole, contacts sociaux, informations
sociodémographiques, tests) et un flux d’entrée rapide résultant de la capacité des
capteurs à enregistrer en continu, caractéristiques fondamentales de ce que sont les Big
Data (De Mauro, Greco & Grimaldi, 2016).
La mise en place de ce recueil de données massives et variées a nécessité de relever
plusieurs types de défis : prise en compte des aspects éthiques et du traitement des
données personnelles4, développement de matériel ad hoc, traitement et analyse des
données, puis stockage et conservation de celles-ci. Parmi ces défis, la question du
recueil et du traitement des données audio massives est centrale pour le sociolinguiste.
Dans les paragraphes suivants, nous présentons la méthodologie mise en place.
3. Recueil et traitement des données orales massives

Dans un premier temps, nous exposons les choix techniques que nous avons opérés afin
de concevoir, en collaboration avec une entreprise spécialisée dans la collecte et le
traitement de données mobiles, le dispositif d’enregistrement audio embarqué. Dans un
second temps, nous présentons les différents pré- et post-traitements des signaux
audio permis par le dispositif d’enregistrement pour enfin exposer la procédure de
transcription en cinq étapes que nous avons mise en place.
3.1. Recueil de données orales massives : dispositif

d’enregistrement embarqué
Afin de recueillir les usages langagiers des participants durant tous leurs déplacements
dans l’enceinte de l’école, nous avons opté pour un dispositif d’enregistrement
embarqué que nous avons conçu afin qu’il satisfasse à la fois aux spécificités de notre
terrain d’enquête et à nos besoins pour la recherche. La majorité des participants sont
de jeunes enfants (âgés de 2 ans et demi à 6 ans et demi) qui sont enregistrés en continu
une semaine par mois lors de leurs différentes activités quotidiennes à l’école (classe,
cour de récréation, sport). Le dispositif d’enregistrement devait donc ne pas gêner ceux
qui le portent et répondre à des exigences d’innocuité et de facilité d’équipement. Dans
le même temps, il devait inclure une capacité de stockage suffisante (24 heures
d’enregistrement chaque semaine), satisfaire des critères de qualité des signaux
enregistrés et enfin permettre leur horodatage.
En partenariat avec une entreprise de la région Auvergne-Rhône-Alpes, nous avons
développé des boîtiers de 58,15 x 50 x 15 mm (hauteur x largeur x profondeur) portés
Corpus, 22 | 2021
46
au col grâce à une pince bretelle qui, en plus d’enregistrer toutes les 5 secondes les
proximités entre individus, incluent deux microphones sur la face avant (cf. Figures 1
et 2).
Figure 1. Dispositif d’enregistrement embarqué
Les signaux recueillis sont enregistrés au format .wav (encodage 16-bit signed PCM,
stéréo, 32kHz) sur une carte SD de 32 gigas. Par ailleurs, le système inclut un dispositif
d’horodatage.
3.2. Traitement de données orales massives

3.2.1. Dispositifs de pré- et post-traitements automatiques des signaux
Le nombre de participants ainsi que la masse de données récoltées (≈ 30 000 heures/an 5)

impliquent de relever deux principaux défis liés au traitement des fichiers audio
recueillis. Le premier nécessite de reconnaître la voix du porteur du micro dans un
environnement multi-locuteurs et bruité. Dans le cas des voix des jeunes enfants, la
tâche est encore plus complexe puisque, contrairement aux adultes, les fréquences
fondamentales moyennes des deux sexes ne sont pas différentes (Weinberg & Bennett,
1971 ; Busby & Plant, 1995 ; Lee, Potamianos & Narayanan, 1999). Le second défi
implique d’optimiser la tâche de transcription, particulièrement fastidieuse, afin de la
rendre la moins chronophage possible tout en récoltant des données de qualité
permettant de répondre aux objectifs de la recherche. À cette fin, différents dispositifs
de pré- et post-traitements automatiques des signaux audio ont été appliqués aux
enregistrements recueillis.
Une fois les enregistrements audio extraits des capteurs (pour chaque participant, deux
fichiers d’environ 3h par jour correspondant à l’enregistrement en continu de la
matinée et de l’après-midi), un premier traitement est appliqué afin de procéder à leur
découpage en tranches horaires. Ce procédé permet de conserver l’horodatage initial et
Corpus, 22 | 2021
47
génère des fichiers d’une durée d’une heure maximum. Par exemple, pour une matinée,
nous obtenons 4 fichiers : 8h34-9h, 9h-10h, 10h-11h, 11h-11h18. Pour chacun de ces
fichiers, nous disposons de différentes versions : originales et post-traitées.
Concernant les versions stéréo originales, elles se présentent d’une part au format .wav
(version à partir de laquelle se font les transcriptions) et d’autre part au format .flac
(format de compression sans perte de qualité pour le stockage et la conservation 6).
À partir de la version stéréo originale, un post-traitement automatique des signaux est
appliqué par un filtrage spatial (beamforming) réalisé sur la base du décalage physique
entre les deux micros intégrés à chaque capteur. La figure 2, ci-après, illustre le
principe général de ce post-traitement automatique des signaux.
Figure 2. Illustration du post-traitement automatique des signaux par filtrage spatial
Comme l’illustre la photo sur la Figure 2, lorsque le porteur du boîtier parle, sa voix
arrive d’abord au micro 1 (plus proche de sa bouche) puis quelques millièmes de
secondes plus tard au micro 2. Les autres sons environnants (autres que ceux de la voix
du porteur) arrivent quant à eux plus ou moins en simultané aux 2 micros ou avec un
décalage différent de celui suscité par la voix du porteur. Dans le cas de la voix du
porteur, le post-traitement aligne les signaux identiques reçus par les 2 micros en
décalé (ce décalage est maîtrisé puisque nous connaissons la distance exacte entre les
deux micros). Ensuite, les signaux reçus par le micro 1 et le micro 2 sont sommés pour
créer une voie mono qui permet de générer 2 versions post-traitées des fichiers
originaux :
• une version MASKED dans laquelle seuls les segments audio identifiés par le post-traitement
comme émanant du porteur du capteur sont présents, le reste des segments correspondant
aux bruits environnants étant remplacés par du silence. Ainsi, la version MASKED conserve le
décours temporel de l’enregistrement ;
Corpus, 22 | 2021
48
• une version CUT dans laquelle les segments identifiés comme parole du porteur sont mis
bout à bout.
Ce post-traitement automatique, qui dépend en grande partie de la position du locuteur
par rapport aux micros du capteur, n’est pas parfait : certaines prises de parole du
porteur peuvent ne pas être détectées ou certains bruits, comme le frottement du
boîtier par exemple, peuvent être détectés. Il est toutefois précieux pour deux raisons
principales. Premièrement, il est utile lors de la sélection des fichiers audio à transcrire
puisque le ratio entre la durée du fichier stéréo original et celle du fichier CUT
correspondant permet d’avoir une idée approximative du temps de parole du porteur
sur la durée totale du fichier. Deuxièmement, il est utile lors de la phase de
transcription pour cibler la voix du porteur. Sur la version MASKED, un script 7 qui
segmente le signal en silence/parole est lancé depuis PRAAT (Boersma & Weenink,
2013). À l’issue de ce processus, nous récoltons un fichier .TextGrid qui contient les
temps de silence et de parole. Ce fichier est ensuite ouvert dans le logiciel de
transcription alignée ELAN (Wittenburg, Brugman, Russel, Klassmann & Sloetjes, 2006)
avec le fichier audio stéréo original, affichant ainsi les segments temporels qui
indiquent au transcripteur les passages lors desquels le porteur prend la parole.
3.2.2. Procédure de transcription et d’annotation en 5 étapes
Conscients de la complexité de l’activité de transcription/annotation et de l’attention

qu’elle requiert (Baude & Dugua, 2011 ; Hriba, Baude & Dugua, 2011), nous avons mis en
place une procédure en cinq étapes successives visant un double objectif : optimiser le
rendement du transcripteur tout en lui fournissant les outils nécessaires à l’obtention
de données de qualité. Elle est mise en œuvre à partir du logiciel ELAN qui permet de
réaliser une transcription alignée sur le signal et d’annoter différents types
d’informations. Les différentes étapes permettent au transcripteur de faire plusieurs
écoutes de l’enregistrement lors desquelles son attention est attirée sur des éléments
spécifiques.
Étape 1 : Ajustement des segments temporels placés automatiquement et annotation
d’éléments contextuels (1re écoute)
Quand il ouvre le fichier audio stéréo original et le fichier .Textgrid dans ELAN, le
transcripteur visualise les bornes placées automatiquement ainsi que la grille
d’annotation qui lui a été fournie (cf. Figure 3).
Figure 3. Vue d’ELAN avec les bornes placées automatiquement et la grille d’annotation
Lors de cette 1re étape, sa tâche est d’écouter les segments repérés par le post-
traitement automatique présenté plus haut, de les ajuster au signal et de procéder à
l’annotation de différents éléments contextuels nécessaires à l’étude de la variation tels
Corpus, 22 | 2021
49
que l’activité en cours (contexte d’enregistrement : en classe, en récréation, en sport,

situation indéterminée), l’interlocuteur (un ou plusieurs enfant(s), l’enseignant ou
l’ATSEM de sa classe, un autre adulte, la classe entière, interlocuteur indéterminé ou
parole auto-adressée), et la situation langagière (codage qui ne concerne que certaines
prises de parole spécifiques comme les récitations ou la lecture à voix haute).
Cette 1re étape permet au transcripteur de focaliser son attention sur un nombre
d’éléments limité et, dans le même temps, de se familiariser avec l’enregistrement
avant l’étape suivante de transcription à proprement parler.
Étape 2 : Transcription des paroles (2e écoute)
Lors de ce second passage, le transcripteur écoute les segments bornés à l’étape
précédente et les transcrit en suivant les conventions établies pour le projet DyLNet.
Étape 3 : Vérification et complétion de certains codages (3e écoute ciblée)
La troisième étape consiste en une réécoute ciblée de certains passages transcrits afin
que le transcripteur vérifie et/ou complète ses codages de plusieurs variables
sociolinguistiques du français8. Pour ce faire, il dispose de plusieurs recherches pré-
définies qui, lancées depuis ELAN, permettent de pointer les segments dans lesquels
elles apparaissent. Les variables sont les suivantes :
- production ou non du ‘u’ de tu devant voyelle ou h muet
- production ou non du ‘l’ dans ‘il(s)’ et production complète ou non de ‘il(s)’
- production ou non du schwa dans les 9 monosyllabiques les plus fréquents : je, ce, de,
le, me, ne, que, se, te
- production ou non de /ʁ/ et /l/ en position post-consonantique finale
Étape 4 : Pré-anonymisation des signaux
En conformité avec les engagements pris envers les participants et les instances
éthiques, tous les éléments permettant d’identifier des participants ou des lieux ne sont
pas transcrits et sont remplacés par des suites de caractères en majuscules (PRENOM,
LIEU). Lors de cette 4e étape, le transcripteur lance une requête qui recherche toutes les
suites de caractères en majuscules afin de lui permettre de créer le segment
correspondant au signal audio dans la ligne « Anonymisation » de la grille d’annotation.
Cette procédure permettra ultérieurement de lancer un script qui ira bruiter les
segments identifiés dans cette ligne pour anonymiser les enregistrements. Une
illustration est donnée sur la Figure 4 ci-dessous.
Figure 4. Vue d’ELAN avec la grille d’annotation complétée
Étape 5 : Relecture orthographique et formelle de la transcription
Corpus, 22 | 2021
50
La dernière étape de la procédure consiste à exporter la transcription vers un éditeur

de texte afin de procéder à une relecture orthographique et formelle et de corriger les
éventuelles coquilles et erreurs orthographiques dans le fichier de transcription.
Afin de fiabiliser et d’homogénéiser les transcriptions en vue d’un traitement
automatique, un script a été développé (Fagot & Hamrouni, 2020). À partir d’un corpus
de 508 000 mots transcrits dans le cadre de notre étude, nous avons extrait la liste des
mots dont le nombre d’occurrences était supérieur à 3. L’examen de cette liste nous a
conduits à définir une liste de remplacements automatiques visant l’uniformisation des
transcriptions comme, par exemple, remplacer les occurrences de t-shirt par tee-shirt,
supprimer les espaces avant ou après les apostrophes, etc.
4. Apports de l’étude à l’analyse variationniste

Au moment où nous rédigeons cet article, le recueil de données est toujours en cours.
Dans cette dernière partie, nous présenterons les potentialités offertes par ce type de
recueil pour affiner, automatiser et systématiser l’analyse variationniste des relations
entre réseau social et variations sociolinguistiques.
En ce qui concerne les aspects méthodologiques, les travaux antérieurs se fondaient
essentiellement sur les déclarations des enquêtés ou des indicateurs globaux de réseaux
évalués par le chercheur. L’utilisation de la technologie des capteurs de proximité
permet d’établir le(s) réseau(x) social(aux) des individus à partir de la fréquence
objective de leurs interactions sociales avec une forte densité temporelle (une mesure
toutes les 5 secondes, 1 semaine par mois pendant 3 ans). De même, le recueil en
continu des productions langagières permet d’appréhender l’éventail de leurs usages
sociolinguistiques dans des situations d’interaction et face à des interlocuteurs divers.
En outre, du fait de l’automatisation du recueil de données et des capacités de
traitement de données massives des sciences des réseaux, la taille des groupes peut être
plus importante que dans les recherches antérieures. À notre connaissance, peu de
recueils de données dans le domaine de la sociolinguistique de l’oral réunissent ces
qualités de granularité, d’exhaustivité et de dynamicité.
Grâce à la collaboration multidisciplinaire entre des linguistes et des chercheurs en
science des réseaux, les relations entre réseau social et variations sociolinguistiques
seront examinées dans une perspective dynamique. Il s’agira en effet de décrire la
coévolution entre dynamique des réseaux sociaux (les changements dans les liens
sociaux au sein de la communauté) et dynamique du langage dans les réseaux (les
influences entre locuteurs et la modification de leurs habiletés langagières) en
détectant les corrélations temporelles entre le(s) réseau(x) d’interactions et les usages
sociolinguistiques au travers de deux approches : la première, traditionnelle dans les
études menées en sociolinguistique, testant l’influence sociale sur les usages langagiers
et la seconde, plus originale, examinant l’homophilie langagière sur le(s) réseau(x) de
relations sociales (Aral, Muchnik & Sundararajan, 2009). De plus, nous aborderons ces
questions à différents niveaux de description de la structure sociale : le niveau collectif
(l’école dans son intégralité, la classe ou encore les groupes sociaux d’origine), le niveau
intermédiaire (les groupes affinitaires) et le niveau individuel (les individus et leurs
caractéristiques particulières).
En ce qui concerne l’influence sociale sur les usages langagiers, nous testerons si le
changement de distance sociale entre les individus prédit la distance linguistique entre
Corpus, 22 | 2021
51
eux. Si des individus restent dans la même communauté entre deux temps
d’observation, nous caractériserons la probabilité que la distance linguistique entre eux
diminue entre ces deux temps d’observation ou dans ceux qui suivent. De la même
façon, nous nous demanderons si la distance sociale entre des individus au temps T ou
son évolution entre T et T+n prédit leur distance linguistique à T+p (avec p ≥ n).
L’approche consistant à mesurer l’influence du langage sur la structure sociale testera
si la distance linguistique entre des individus prédit leur distance sociale. Si des
individus appartiennent au même groupe linguistique (établi à partir de leurs usages
sociolinguistiques) au temps T, nous déterminerons si la probabilité qu’ils soient dans
la même communauté augmente à T+n. Similairement, nous verrons si la distance
linguistique entre des individus au temps T ou son évolution entre T et T+n prédit leur
distance sociale à T+p.
Notre étude longitudinale, d’une durée de 3 ans, permettra aussi l’examen de la
propagation – ou, à l’inverse, de l’absorption – d’un changement ponctuel à la fois dans
la structure sociale et dans le langage en mesurant, quantifiant et modélisant les
processus d’influence à long terme. En effet, un élément que notre étude a
l’opportunité de saisir de façon très fine est la perturbation des classes due aux
rentrées scolaires, notamment lors des deuxième et troisième années de recueil de
données, car elles remanient partiellement la composition des classes et donc
potentiellement les communautés qui s’étaient mises en place durant l’année
précédente. Nous pourrons ainsi évaluer l’effet de l’intégration dans une nouvelle
communauté. Une communauté a-t-elle systématiquement un rôle homogénéisateur,
d’absorption des changements linguistiques ou, au contraire, peut-elle accueillir les
usages des nouveaux membres et les amplifier en les diffusant ?
BIBLIOGRAPHIE
Almquist Y. (2011). « The school class as a social network and contextual effects on childhood and
adult health : findings from the Aberdeen Children of the 1950s cohort study », Social Networks
33(4) : 281-291.
Aral S., Muchnik L. & Sundararajan A. (2009). « Distinguishing influence-based contagion from
homophily-driven diffusion in dynamic networks », Proceedings of the National Academy of Sciences
106(51) : 21544-21549.
Auer P., Barden B. & Grosskopf B. (2000). « Long-term linguistic accomodation and its
sociolinguistic interpretation : evidence from the inner-German migration after the Wende », in
Mattheier K. (dir.), Dialect and Migration in a Changing Europe. New York, Peter Lang, 79-98.
Barbu S. (2003). « Stability and flexibility in preschoolers' social networks : a dynamic analysis of
socially directed behavior allocation », Journal of Comparative Psychology 117(4) : 429-439.
linguiste ? », Corpus 10 : 99-118.
Corpus, 22 | 2021
52
Bayley R. (2002). « The quantitative paradigm », in Chambers J. K., Trudgill P. & Schilling-
Estes N. (dir.), The handbook of language variation and change. Malden, Oxford : Blackwell, 117-141.
Beaulieu L. & Cichocki W. (2002). « Le concept de réseau social dans une communauté acadienne
rurale », Canadian Journal of Linguistics 47(3-4) : 123-150.
Biichlé L. (2018). « Intégration, réseaux sociaux et représentations langagières de migrants en

France », Langage et société 163(1) : 33-56.
Boersma P. & Weenink D. (2013). Praat : doing phonetics by computer. http://www.fon.hum.uva.nl/

praat/.
Busby P. A. & Plant G. L. (1995). « Formant frequency values of vowels produced by preadolescent
boys and girls », Journal of the Acoustical Society of America 97(4) : 2603-2607.
Butts C. T. (2008). « Social network analysis : a methodological introduction », Asian Journal of

Social Psychology 11(1) : 13-41.
Chambers J. K. (2009). Sociolinguistic theory : linguistic variation and its social significance. Oxford,
Cambridge : Wiley-Blackwell.
Cheshire J. (1982). Variation in an English dialect: a sociolinguistic study. Cambridge : Cambridge

University Press.
Coupland N. & Jaworski A. (1997). Sociolinguistics : a reader and coursebook. Basingstoke : Macmillan
Press.
De Mauro A., Greco M. & Grimaldi M. (2016). « A formal definition of Big Data based on its
essential features », Library Review 65(3) : 122-135.
Fagot J. & Hamrouni Y. (2020). Outil d’analyse automatique de transcriptions issues d’un corpus oral.
Projet Professionnel du Master 2 Industries de la langue, Univ. Grenoble Alpes.
Hartup W. W. (1984). « The peer context in middle childhood », in Collins W. A. (dir.), Development
during middle childhood. Washington DC, National Academy Press, 240-282.
Hriba L., Baude O. & Dugua C. (2011). Transcrire : la norme, la variation et le linguiste. Colloque du
CerLiCO : Transcrire, écrire, formaliser 2. Orléans.
Johnson J. C., Ironsmith M., Whitcher A. L., Poteat G. M., Snow C. W. & Mumford S. (1997). « The
development of social networks in preschool children », Early Education and Development 8(4) :
389-405.
Kamper H. (2017). Unsupervised neural and Bayesian models for zero-resource speech processing. PhD
thesis. https://arxiv.org/pdf/1701.00851.pdf
Kerswill P. & Williams A. (2000). « Creating a new town koine : children and language change in
Milton Keynes », Language in Society 29(1) : 65-115.
Labov W. (1966). The social stratification of English in New York City. Washington DC : Center for
Applied Linguistics.
Labov W. (1972). Language in the inner city : studies in the Black English Vernacular. Oxford : Basil
Blackwell.
Labov W. (2001). Principles of linguistic change, vol. 2 : social factors. Oxford : Blackwell.
Ladd G. W. (1990). « Having friends, keeping friends, making friends, and being liked by peers in
the classroom : predictors of children’s early school adjustment ? », Child Development 61(4) :
1081-1100.
Corpus, 22 | 2021
53
Laks B. (2013). « Why is there variation rather than nothing ? », Language Sciences 39 : 31-53.
Lee S., Potamianos A. & Narayanan S. (1999). « Acoustics of children’s speech : developmental
changes of temporal and spectral parameters », Journal of the Acoustical Society of America 105 :
1455-1468.
Martin C. L., Fabes R. A., Hanish L. D. & Hollenstein T. (2005). « Social dynamics in the
preschool », Developmental Review 25(3-4) : 299-327.
Milroy L. (1987). Language and social networks. Oxford : Blackwell.
Milroy L. (2002). « Social networks », in Chambers J. K., Trudgill P. & Schilling-Estes N. (dir.), The
handbook of language variation and change. Oxford : Blackwell, 549-572.
Milroy L. & Gordon M. (2003). Sociolinguistics : method and interpretation. Oxford : Blackwell.
Milroy L. & Llamas C. (2013). « Social networks », in Chambers J. K. & Schilling N. (dir.), The
Handbook of Language Variation and Change (second edition). Malden : Blackwell Publishing, 407-427.
Nardy A., Fleury É., Chevrot J.-P., Karsai M., Buson L., Bianco M., Rousset I., Dugua C., Liégeois L.,
Barbu S., Crespelle C., Busson A., Léo Y., Bouchet H. & Dai S. (2016). « DyLNet – Language
Dynamics, Linguistic Learning, and Sociability at Preschool : Benefits of Wireless Proximity
Sensors in Collecting Big Data (https://dylnet.univ-grenoble-alpes.fr/) », <ANR-16-CE28-0013>:
https://hal.archives-ouvertes.fr/hal-01396652.
Rubin K. H., Bukowski W. & Parker J. G. (2006). « Peer interactions, relationships, and groups », in
Eisenberg N. (dir.), Handbook of child psychology (6th edition) : social, emotional, and personality
development. New York : Wiley, 571-645.
Russell J. (1982). « Networks and sociolinguistic variation in an African urban setting », in

Romaine S. (dir.), Sociolinguistic variation in speech communities. London : Edward Arnold, 125-140.
Schaefer D. R., Light J. M., Fabes R. A., Hanish L. D. & Martin C. L. (2010). « Fundamental principles
of network formation among preschool children », Social Networks 32(1) : 61-71.
Strayer F. F. & Santos A. J. (1996). « Affiliative structures in preschool peer groups », Social
Development 5(2) : 117-130.
Weinberg B. & Bennett S. (1971). « Speaker sex recognition of 5- and 6-year-old children’s
voices », Journal of the Acoustical Society of America 50(4) : 1210-1213.
Weinreich U., Labov W. & Herzog M. I. (1968). « Empirical foundations for a theory of language
change », in Lehmann W. P. & Malkiel Y. (dir.), Directions for Historical Linguistics : a symposium.
Austin : University of Texas Press, 96-195.
Wittenburg P., Brugman H., Russel A., Klassmann A. & Sloetjes H. (2006). « ELAN : a professional
framework for multimodality research », in, Proceedings of the Fifth International conference on
Language Resources and Evaluation. 1556-1559.
NOTES
1. Cette recherche est financée par l’Agence Nationale de la Recherche <ANR-16-CE28-0013>.
2. Site web : https://dylnet.univ-grenoble-alpes.fr/.
3. Ce projet s’inscrit dans une collaboration multidisciplinaire réunissant des sociolinguistes
(LIDILEM, Univ. Grenoble Alpes) et des chercheurs en science des réseaux (équipe DANTE,
Laboratoire de l'Informatique du Parallélisme, INRIA Grenoble Rhône-Alpes, ENS de Lyon).
Corpus, 22 | 2021
54
4. Validation du protocole de l'étude par le Comité Opérationnel d’Évaluation des Risques Légaux et
Éthiques (COERLE) de l’INRIA (avis favorable n° 2017-014), déclaration auprès de la Commission
Nationale de l'Informatique et des Libertés (CNIL) pour la mise en œuvre du projet de recherche (avis
favorable n° 2017_0980683), déclaration de la base de données auprès de la CNIL pour la
constitution d'une base de données de recherche (avis favorable n° 2019_0980683).
5. Dans le cadre de ce projet, nous ne visons pas la transcription intégrale de l’ensemble des
enregistrements audio recueillis. En collaboration avec des chercheurs en traitement du signal,
nous envisageons une exploitation automatique des signaux notamment au travers du key word
spotting (Kamper, 2017). Il s’agira ainsi d’entraîner un système à la reconnaissance automatique
de séquences sonores correspondant à des mots et séquences de mots spécifiques puis, en cas de
taux de fiabilité satisfaisant, de généraliser la recherche des mots et séquences cibles à
l’ensemble du corpus.
6. Une évaluation faite sur une partie de nos fichiers audio indique un gain de 65% en termes
d’espace de stockage par rapport aux mêmes fichiers en version .wav. Un autre avantage du
format .flac est de permettre aisément la conversion vers le format .wav.
7. Nous remercions S. Rossato du Laboratoire d’Informatique de Grenoble (Univ. Grenoble Alpes)
pour la mise à disposition de ce script.
8. Ces variables pour lesquelles cette procédure de vérification a été mise en place sont celles qui
sont annotées directement lors de l’étape de transcription. D’autres variables sont également
traitées mais elles font l’objet d’autres procédures de codage, ultérieures à l’étape de
transcription. Concernant la variable de la négation en français, nous avons développé un script
permettant, dans les fichiers transcrits, de détecter et annoter automatiquement les cas où la
première particule est présente et ceux où elle est absente (évaluation du script en cours). Pour la
liaison facultative, la procédure se fait en deux étapes. Dans un premier temps, un script fondé
sur des règles lexicales, repère des contextes de suite de deux mots répondant à ces règles et
insère un codage dans les fichiers transcrits. Dans un second temps, deux codeurs experts
réécoutent tous les segments dans lesquels apparaît ce codage. Ils valident ou non le fait que ce
soit un contexte de liaison facultative et, le cas échéant, indiquent si celle-ci est réalisée ou non.
L’ensemble de ces variables seront analysées dans le cadre du projet ainsi que d’autres
permettant d’évaluer le niveau langagier enfantin comme la longueur moyenne des énoncés, la
diversité lexicale, etc.
RÉSUMÉS
Nous présentons une étude originale en cours visant la compréhension des relations entre
variations sociolinguistiques et réseau social. Sa démarche empirique repose sur le recueil de
données sociales et langagières massives et longitudinales au sein d’une école maternelle.
Environ 200 individus (enfants et adultes) sont équipés une semaine par mois pendant 3 ans de
capteurs qui enregistrent en continu à la fois leurs interactions verbales et leurs contacts
sociaux. Dans cet article, à visée principalement méthodologique, nous exposons les dispositifs
mis en place pour le recueil et les procédures mises en œuvre pour la transcription et
l’annotation de données orales massives. Enfin, nous présentons les potentialités offertes par ce
type de recueil pour affiner, automatiser et systématiser l’analyse variationniste des relations
entre réseau social et variations sociolinguistiques.
Corpus, 22 | 2021
55
We present an outstanding ongoing study designed to understand the relationships between

sociolinguistic variation and social networks. Its empirical approach is based on the collection of
massive and longitudinal social and linguistic data within a preschool. Approximately
200 individuals (children and adults) are equipped one week per month during 3 years with
sensors that continuously record both their verbal interactions and their social contacts. In this
article, primarily methodological in nature, we present the devices set up for data collection and
the procedures implemented for the transcription and annotation of massive oral data. Finally,
we discuss the opportunities provided by this type of dataset to improve, automatize and
systematize the variationist analysis of the relationships between social network and
sociolinguistic variation.
INDEX
Mots-clés : variation sociolinguistique, réseau social, données massives, transcription
Keywords : sociolinguistic variation, social network, big data, transcription
AUTEURS
AURÉLIE NARDY
Univ. Grenoble Alpes, LIDILEM
HÉLÈNE BOUCHET
ISABELLE ROUSSET
LOÏC LIÉGEOIS
Univ. Paris Diderot, Sorbonne Paris Cité, CLILLAC-ARP et LLF
LAURENCE BUSON
CÉLINE DUGUA
Univ. Orléans, LLL UMR7270
JEAN-PIERRE CHEVROT
Corpus, 22 | 2021
56
Corpus ESLO-Enfants : de sa création

aux premiers résultats
Jennifer Ganaye
1. Origines du corpus ESLO-Enfants

1 L’initiative de mettre au point un corpus intégrant dans un même projet la parole des
enfants, la parole de leur entourage et la prise en compte de l’environnement dans
lequel les échanges ont lieu trouve son origine dans notre volonté d’élargir le périmètre
actuel des études de corpus enfantins en français, mais aussi d’étudier, l’impact de
l’input sur l’output en fonction de différents environnements langagiers.
2 Les nombreux travaux menés dans le cadre des Théories Basées sur l’Usage (UBT)
mettent en évidence l’importance de l’environnement (ou input) des enfants pour
l’apprentissage de leur(s) langue(s) (Tomasello, 2003). Cet input constituant d’une
certaine façon la matière première (Bybee & Hopper, 2001) à partir de laquelle l’enfant
va pouvoir construire la grammaire de sa langue, développer son lexique. Dès le plus
jeune âge, l’enfant reçoit une grande quantité de paroles de la part de son entourage
qui l’aidera à développer ses compétences lexicales, dont une partie provient des scènes
d’attention conjointe (Goldwin-Meadow, 2010).
3 Pour l’heure, les corpus enfantins en français (citons par exemple : CoLaJE, ALIPE, TCOF
et Corpus de Lyon) ne peuvent rendre compte de cela que de façon parcellaire. Nous
constatons que les enfants participants à ces différents projets sont souvent issus de
milieux favorisés, voire très favorisés. Cela est souvent dû à la facilité de trouver des
familles ayant un niveau socio-économique plus élevé dans l’entourage du chercheur.
Mais qu’en serait-il avec des enfants évoluant dans un milieu moins favorisé ? C’est en
cela que le module ESLO-enfants se veut novateur et original puisque nous souhaitons
élargir le cercle des enfants enregistrés en veillant à intégrer, dans notre échantillon,
des enfants issus de milieux sociaux variés à l’image de ce que peut être la population
d’une ville. Constituer un tel panel permettra d’accéder à des interactions familiales
pour lesquelles nous n’avons pour l’heure que très peu de données et peut-être de
questionner l’influence des milieux socio-économiques sur l’usage du langage.
Corpus, 22 | 2021
57
4 En effet, s’inscrire dans une approche où l’input est au centre de la construction du

langage a des conséquences théoriques et méthodologiques fortes. Dans ce cadre, nous
empruntons certains principes de la linguistique variationniste (Labov, 1976) qui sont
en totale cohérence avec ceux des UBT (Kemmer & Barlow, 2000).
5 Il faut aussi prendre en compte que notre corpus fait partie d’un projet de laboratoire
plus large de recueil, documentation et mise à disposition d’un grand corpus de
français parlé (Enquêtes SocioLinguistiques à Orléans : ESLO) collecté à deux périodes :
dans les années 1970 et dans les années 2010. Dès la première phase de collecte, les
chercheurs avaient pour objectif de créer un corpus de type sociolinguistique :
Selon nous une recherche sociolinguistique impliquait une étude de la langue dans
sa diversité plutôt que comme un tout homogène et figé. En effet, même si on étudie
un état de langue à un moment précis de l’histoire, il n’empêche qu’il offre une
variété à plusieurs niveaux : différences entre les générations ; différences
dialectales entre communautés ; différences entre les milieux sociaux ; différences
liées aux conditions de production du discours. (Blanc & Biggs, 1971 : 16)
6 Par la suite, l’approche variationniste a orienté le travail des chercheurs, en mettant
notamment en avant la prise en compte de l’hétérogénéité des pratiques langagières, et
en cherchant à rendre compte de la structure des variations (Abouda & Baude, 2005).
L’importance accordée aux données et à la possibilité de faire varier les contextes/
situations a grandement guidé notre travail. Nous empruntons à ESLO également sa
chaîne de traitement de corpus.
7 Dans ce corpus variationniste, nous centrerons notre étude sur un phénomène
linguistique : l’usage des liaisons nous permettant d’observer ou non l’influence de
l’input sur les productions enfantines, point sur lequel nous reviendrons plus en détail
par la suite.
2. Apports du corpus ESLO-Enfants

8 Les apports du corpus ESLO-Enfants se situent à deux niveaux. Ce module constitue en
premier lieu un apport pour ESLO. Nous pouvons en effet constater qu’aujourd’hui,
dans ESLO, il n’y a pas de données contenant des paroles d’enfants en interaction.
Précisons toutefois l’existence de deux modules qui intègrent des enfants :
9 - le module « Ecole », où il est possible d’entendre des enfants, mais ces
enregistrements ne sont pas focalisés sur la parole enfantine, mais plutôt sur
l’ensemble de la vie d’une école.
10 - le module « Livres pour enfants » en cours de traitement, dans lequel l’objectif était
d’enregistrer des moments de lecture faits à des enfants, les lecteurs pouvaient être les
parents ou bien des personnes de l’entourage proche des enfants. Dans ce dernier, les
enregistrements sont focalisés sur les paroles de l’adulte et non celles des enfants.
11 Notre corpus élargit le périmètre actuel d’ESLO avec de nouveaux locuteurs d’Orléans
qui représentent une partie non négligeable de la population de la ville.
12 Par ailleurs, nous ajoutons également un nouvel horizon aux corpus enfantins
francophones déjà existants, notre corpus comprenant une grande variété de situations
d’enregistrement, tout en diversifiant les personnes avec lesquelles l’enfant est amené
à échanger : par exemple, lorsque l’enfant est amené à passer du temps avec ses grands-
parents que ce soit chez eux ou bien chez l’enfant, mais aussi dans sa classe. Nous
Corpus, 22 | 2021
58
cherchons donc à obtenir des scènes du quotidien où l’enfant peut jouer avec des amis,
sa famille, etc. ou encore lorsqu’il est gardé par une baby-sitter. Nous ne nous
restreignons pas aux moments de loisirs, nous captons également des moments simples
mais qui font partie d’un quotidien rythmé par des habitudes comportementales et
langagières. Ainsi, l’enregistrement de scènes contenant les repas en famille, le bain ou
encore le coucher peut être primordial puisque ces dernières contiennent un lexique
récurrent où l’enfant pourrait alors acquérir des routines langagières spécifiques.
Notre but étant de nous rapprocher au mieux des conversations que pourrait avoir
quotidiennement un enfant, pour pouvoir étudier ses différentes sources d’input.
13 Pour résumer, la création d’un module aussi varié va nous permettre de mieux
connaître les influences que les différences socioculturelles peuvent avoir sur
l’acquisition de la langue. Nous approfondirons ce point par l’étude du lien input/
output à travers la diffusion de l’usage de la liaison. Notre projet permet donc de
compléter le corpus ESLO2 avec des locuteurs qui ne sont que marginalement présents
à l’heure actuelle, et dans l’esprit variationniste d’ESLO en veillant à prendre en compte
des niveaux de variations différents tout en complétant les corpus enfantins
francophones existants.
3. Objet d’étude : la liaison

14 Pour observer la question du lien entre input et output, nous décrirons l’usage des
liaisons à la fois dans l’environnement langagier des enfants et dans leurs premières
productions. À l’image du travail mené par Liégeois (2014), nous chercherons à rendre
compte de l’impact de l’environnement langagier sur les formes produites par les
enfants et sur sa propre courbe d’acquisition par rapport au modèle de Chevrot et al.
(2009).
3.1. La liaison : définition
15 La liaison est un phénomène oral variable typique du français. Il s’agit de l’oralisation

de la consonne finale d’un Mot1 devant un Mot2 à voyelle initiale, consonne muette
quand le Mot1 est produit en finale d’énoncé ou devant un mot à initiale consonantique
(Soum-Favaro et al. 2014 ; Chevrot et al. 2007) :
1. le gros éléphant
[lǝgʁozelefã]
2. le gros camion
[lǝgʁokamjõ]
3. il est gros
[ilegʁo]
16 Dans les cas ci-dessus, nous voyons que le « s » de « gros » se prononce sous la forme
d’une liaison en /z/ uniquement lorsqu’il précède un mot à initiale vocalique (1).
17 Plusieurs études de corpus avec des méthodes différentes et sur des corpus différents
(Corpus d’Orléans : De Jong 1994, ESLO : Dugua & Baude 2017, PFC : Durand & Lyche
2008, Coquillon et al. 2010, Durand et al. 2011) décrivent d’ailleurs les variations
d’usages des liaisons chez l’adulte. Toutes s’accordent sur le fait qu’il existe au moins
deux types de liaisons :
Corpus, 22 | 2021
59
18 - Des liaisons systématiques/invariables (classiquement appelées Liaisons obligatoires -

LO) : les liaisons toujours réalisées quels que soient le locuteur et la situation (De Jong,
1994), exemple :
• après déterminant (des [z] enfants)
• entre pronom personnel et verbe (ils [z] appellent)
• entre verbe et pronom (prends [z] en)
19 - Des liaisons variables ou facultatives (LF) : exemple : « un gros [z] éléphant », qui peut
être réalisée ou non. Ce type de liaison est considéré comme une variable
sociolinguistique du français dans le sens où, comme le précise Gadet (1989 : 71), elle
« permet [à elle seule] de classer socialement un locuteur ». L’usage des liaisons
variables est conditionnée par des facteurs linguistiques comme les catégories
grammaticales des mots, la longueur des mots, la nature de la consonne de liaison, etc.
et des facteurs extralinguistiques (ou sociaux) comme le milieu social, les situations de
communications (Gadet, 1989). Dans le cas du français, la langue des classes favorisées
correspond, dans les esprits, à la norme ou la langue standard (Gadet, 1997), il est donc
possible de distinguer des personnes issues de classes différentes par leurs pratiques
langagières. Pour les liaisons, par exemple, les classes favorisées ont tendance à plus
prononcer les liaisons facultatives (Encrevé, 1988).
3.2. La liaison : phénomène linguistique percutant
20 Pour étudier le lien input/output, s’appuyer sur un objet qui peut être à la fois stable et
variable nous fournit un cadre d’analyse riche. Nous pourrons observer par exemple si,
ce qui est stable/invariable chez l’adulte, l’est aussi chez l’enfant et à partir de quel
âge ; si ce qui est stable est reçu par tous les enfants de la même manière, et ce qui peut
différer (la quantité de liaisons stables, la diversité des liaisons stables). Quant aux
liaisons variables nous étudierons comment elles varient d’une famille à l’autre, d’un
enfant à l’autre et d’une situation à l’autre.
21 Notre approche est fondamentalement basée sur l’usage, sur des données de parole
recueillies, et non sur des conceptions normatives ou basées sur des exemples. En
étudiant l’usage des liaisons à la fois dans la parole adulte et dans la parole enfantine et
en décrivant ce que l’enfant peut récupérer, et cela dans différentes familles ayant un
rapport à la langue varié, nous pourrons voir comment la variation se réalise (côté
adultes) et se construit (côté enfant) en perception et en production.
22 Pour convenir à la démarche variationniste recherchée et pour répondre à nos objectifs
sur le plan de l’acquisition du langage, nous avons mis en place une procédure de
collecte particulière pour accéder au quotidien des enfants de la façon la moins
invasive possible, procédure que nous présentons dans la section suivante.
4. Méthodologie d’enquête
23 Rappelons que le corpus ESLO-Enfants s’inscrit dans le plus grand corpus de français
parlé en France, le corpus ESLO (http://eslo.huma-num.fr/). Nous avons donc suivi le
cadre méthodologique de ce projet tout en l’adaptant à notre nouveau public enfantin.
Tout d’abord, l’architecture du corpus ESLO (Baude & Dugua, 2011), à savoir la façon
dont les différents modules coexistent et la forme que cette construction donne au
Corpus, 22 | 2021
60
corpus, est le reflet du « parti pris variationniste des auteurs d’ESLO1 et ESLO2 […] afin
de permettre la prise en compte de différents types de variations » (Baude & Dugua,
2015 : 357). Dans cette architecture, le corpus ESLO-Enfants constitue un module
particulier puisque nous l’envisageons comme un modèle réduit d’ESLO dans le sens où
notre objectif est d’intégrer en son sein la diversité des situations auxquelles un enfant
participe au quotidien. Nous cherchons en effet par la constitution de ce corpus à
balayer une large palette de situations familières des enfants, sachant toutefois que les
contraintes liées à la collecte limiteront les possibilités.
4.1. Présentation des familles : caractéristiques sociales
24 Les locuteurs que nous souhaitons enregistrer sont des enfants compris dans une
tranche d’âge entre 2 ans et 7 ans, ce qui correspond à la période qui précède l’entrée à
la maternelle, la maternelle et l’entrée dans l’écrit. La variété des âges nous permet
d’étudier et de comparer des enfants à différents stades de leur acquisition du langage.
De plus, comme le phénomène de liaison est lié à la forme graphique des mots (la
présence d’une liaison se déclenche par une lettre écrite non oralisée), il nous semblait
intéressant de pouvoir observer les enfants avant et après l’entrée dans l’écrit
(Fijalkow, 1997), afin de voir si l’émergence de l’écrit et le rapport à l’écrit peuvent
influencer les usages des liaisons.
25 Les enfants de cette enquête sont issus de familles choisies avec minutie. Les
appartenances socio-économico-culturelles des familles sont diversifiées pour rendre
ce corpus représentatif de la population française et plus précisément, représentatif de
la population de l’agglomération orléanaise, mais aussi pour apporter de nouvelles
données quant aux paroles enfantines.
26 Pour décrire ces familles, nous nous appuyons sur différents critères car nous estimons
que les catégories socioprofessionnelles de l’INSEE ne sont pas suffisantes. Classer les
personnes seulement sur leurs catégories socioprofessionnelles ne suffit pas à
déterminer leur capital culturel et économique qui sont des éléments qui pourraient
nous éclairer sur le capital hérité des enfants, comme Bourdieu le défend en 1979.
27 C’est pour cela que nous avons décidé de créer notre propre échelle qui fait intervenir
trois grands axes : l’axe formation(s)-emploi(s), l’axe temps libre (sorties) et l’axe
médias. Ainsi, nous proposons une échelle socio-linguistico-culturo-professionnelle
(SLCP), pour classer les différentes familles.
28 À l’aide de ces trois axes, nous avons établi une fiche (voir un extrait ci-dessous)
déclinant les principales particularités de chacun des axes. Chaque parent a rempli la
fiche informative en précisant des échelles qui varient de 1 à 10. Ainsi, les parents
inscrivent eux-mêmes la proportion que chaque axe représente dans leur quotidien.
Pour cela, nous nous sommes fondée en partie sur les travaux de Bourdieu (1994) sur la
théorie du monde social, et l’avons adapté à nos exigences en termes de public visé et
d’informations sur leur input quotidien. Pour chaque axe, nous prenons en compte le
temps et la fréquence des activités pratiquées.
Corpus, 22 | 2021
61
Extrait de la fiche informative
29 Dans l’axe formation(s)-emploi(s), nous faisons apparaître la/les formation(s) que les
parents des familles participantes ont suivies, les éventuelles reprises d’études, le lieu
d’étude (pays, région, ville). De la même manière, nous prendrons en compte les
emplois qu’ont effectués les parents, la période durant laquelle ils les ont effectués mais
aussi, si c’est un travail solitaire ou bien en équipe.
30 L’axe du temps libre concerne toutes les sorties et activités que les participants peuvent
effectuer. Nous les regroupons dans différentes catégories : les sorties culturelles (telles
que le théâtre, le cinéma, etc.), les sorties sociales (retrouver des amis pour boire un
verre, aller au restaurant, etc.) et des sorties et activités qui comprennent les activités
extra-professionnelles (concerne les activités en club mais aussi si les personnes
pratiquent des activités à la maison comme par exemple le tricot, les jeux avec leurs
enfants, etc.).
31 Le troisième axe concerne le rapport aux médias. Dès 1950, Queneau faisait remarquer
que les médias influencent fortement notre manière de nous exprimer. Ainsi, depuis
l’arrivée de la télévision, les individus calquent leur manière de s’exprimer sur celle des
présentateurs de télévision car cette forme de langue est jugée plus légitime (Queneau,
1950). Au-delà du petit écran avec le type d’émission que les participants regardent,
nous allons nous intéresser aux types de radio, et de lectures, mais aussi la question des
usages des vidéos et jeux vidéo, des réseaux sociaux.
32 Voici une des représentations sous forme de radars obtenues avec le questionnaire que
nous venons de décrire. Les exemples exposés ci-dessous concernent les familles des
enfants que nous étudierons dans la suite de cet article.
Corpus, 22 | 2021
62
Figure 1. Représentation des pratiques culturelles des parents de Lucile et Camille
33 Les tracés révèlent que les parents de Lucile et de Camille ont des habitudes de sorties à
tendances socialisantes hors du cadre familial proche avec de hauts résultats
concernant les vacances, le sport en club, les promenades, les restaurants, etc. Tout en
ayant quelques habitudes littéraires.
34 Voyons à présent les habitudes des parents de Roxane :
Figure 2. Représentation des pratiques culturelles des parents de Roxane
Corpus, 22 | 2021
63
35 Dans le cas de cette famille, nous voyons que les parents de Roxane aiment les activités
audiovisuelles, mais aussi la lecture. Les sorties à tendances sociales hors du cadre
familial sont néanmoins présentes mais avec des résultats moins élevés que pour la
famille précédente.
36 Nous retiendrons que les pratiques culturelles de la famille de Camille et Lucile sont
plus des activités en extérieur, à visée socialisante alors que les parents de Roxane sont
sur des activités qui peuvent se pratiquer à l’intérieur même de leur foyer, qui ne
sortent donc pas du cadre familial. Ces radars sont un extrait de ce que nous pouvons
obtenir à l’aide de la fiche de renseignements, nous pourrons les croiser avec les
résultats obtenus pour les usages des liaisons dans le corpus afin de voir dans quelle
mesure l’usage des liaisons facultatives peut être influencé par les pratiques d’activités
différentes. Ainsi, notre méthode permettra de croiser des représentations issues du
questionnaire et des pratiques à partir de l’usage des liaisons.
4.2. Panel de locuteurs
37 La contrainte consistant à diversifier les familles sur le plan socioculturel a influencé

notre façon d’aborder les prises de contact. Il est évident que les CSP défavorisées
restent les familles les plus difficiles à atteindre. En effet, différentes caractéristiques
de notre protocole peuvent freiner tout particulièrement les locuteurs appartenant à
des CSP défavorisées :
38 - l’insécurité linguistique de cette classe (Bourdieu, 1982),
39 - le jugement des pratiques linguistiques et sociales qui peut être imposé sur leur vie,
sur l’éducation qu’ils donnent à leur(s) enfant(s) (Neill, 1966 ; Gagnier, 2011),
40 - l’enregistrement de mineurs et de leur milieu intime que constitue la famille (Linard
& Prax, 1984).
41 Tous ces points compliquent la façon d’approcher ces locuteurs, et d’obtenir leur
accord. Nous avons alors mis en place différents modes d’approche.
42 L’un d’eux a consisté à nous rapprocher d’une école élémentaire dont nous
connaissions la directrice et où la proportion d’enfants issus de familles de CSP basses
est importante. Nous sommes entrée directement en contact avec les familles lors d’une
présentation orale du projet au moment de la réunion de rentrée dans les deux classes
de CP. Ce processus a permis d’avoir un plus grand impact sur les familles que de
simplement leur donner un prospectus récapitulatif. Nous avons obtenu par ce biais
l’accord de la famille de Marise.
43 L’autre moyen d’accéder à une diversité de familles a été d’utiliser nos réseaux, ce qui
nous a permis d’enregistrer la famille de Fréïhr et Briséis (réseau proche) et la famille
de Roxane (réseau plus distant). Les deux dernières participantes, Lucile et Camille,
sont les filles d’une enseignante chercheuse participant au corpus ESLO.
44 Voici le panel d’enfants du corpus :
Corpus, 22 | 2021
64
4.3. Formulaire de consentement / aspects juridiques / éthiques
45 Lors de la rencontre avec les familles pour finaliser leur participation, nous faisons
remplir et signer un formulaire de consentement éclairé qui reprend les grandes idées
présentées aux familles. Il y est par exemple précisé par écrit (liste non exhaustive) :
46 - en quoi consiste le projet ESLO-Enfants,
47 - l’anonymisation des données identifiantes, hormis les prénoms des enfants (en accord
avec les familles),
48 - le fait que la vidéo ne sera pas rendue disponible,
49 - que les documents audio et les transcriptions seront diffusés sur deux plateformes
pour le monde de la recherche.
50 Ce document est nécessaire pour rendre compte de ce qui va être fait et le devenir des
données et métadonnées qui vont être récoltées, mais aussi pour protéger les droits des
familles participantes et du Laboratoire Ligérien de Linguistique (LLL).
5. Matériel d’enregistrement et mise en place

51 Pour mener à bien ces enregistrements et la transcription qui en découlera, nous
procédons à deux types d’enregistrements. Le premier est un enregistrement vidéo qui
permettra de mieux comprendre les scènes puisqu’avec un public enfantin, il est
souvent nécessaire de visualiser la scène pour savoir à qui l’enfant parle et de quoi il
parle. Pour cela, nous choisissons d’utiliser une caméra d’action car elle possède un
champ d’enregistrement large et parce qu’elle est très petite, ce qui permet d’être
moins intrusif quant à l’intimité des familles (Linard & Prax, 1984). Nous espérons,
ainsi, réduire le « paradoxe de l’observateur » (Labov, 1972). Le second est un
enregistrement audio pour suivre au mieux les paroles des participants principaux.
Nous choisissons d’utiliser deux micros-cravates HF sans fil qui seront portés par
l’enfant et un membre de la famille.
52 Afin de réduire l’effet du « paradoxe de l’observateur » et d’accéder aux situations les
plus écologiques possibles, nous ne sommes pas présente lors des enregistrements.
Notre absence permettra aux familles de rester alors dans un cadre intime, de leur
quotidien qui permet d’obtenir des données dans leur contexte social ordinaire et
routinier (Mondada, 2012). Nous fournissons le kit d’enregistrement et le mode
Corpus, 22 | 2021
65
opératoire aux familles, avec des fiches de suivi que les familles devront remplir 1 pour
chaque enregistrement effectué. Dans ces fiches, nous demandons de noter les
participants à l’enregistrement, la date, le lieu et ce qui se passe durant
l’enregistrement. Les familles peuvent préciser s’il y a des passages qu’elles
souhaiteraient ne pas voir apparaître dans le corpus. Ces informations serviront à
remplir les métadonnées des enregistrements.
53 En ce qui concerne le rythme de collecte des enregistrements, nous tentons de réduire
le temps d’emprunt du matériel par les familles, ce qui n’est pas toujours aisé. Nous
laissons tout de même des libertés aux familles pour ne pas qu’elles se sentent pressées,
ni oppressées par nos demandes. Cette démarche permet de pas ou peu impacter le
comportement des familles pour la réalisation des enregistrements mais présente
l’inconvénient de ne pas avoir des temps de collecte homogènes d’une famille à l’autre.
54 Nous demandons aux familles d’enregistrer au moins 4 scènes par période représentant
des moments clefs de la vie de leurs enfants, tels que les repas, les moments de jeux, les
devoirs, le rituel de la douche, etc. avec les personnes que les enfants côtoient
fréquemment.
55 Voici les caractéristiques des enregistrements récoltés pour la première et la deuxième
période :
56 Nous obtenons une première période de 14h17 et une deuxième période de 9h39. La
différence de durée peut s’expliquer par la non-maîtrise du matériel de la part des
familles. En effet, deux familles ont eu des difficultés à se servir de l’enregistreur et/ou
la caméra lors de la deuxième période. Nous obtenons alors des enregistrements plus
courts que prévu.
57 Les types de situations recueillis sont relativement variés : des repas (goûter, repas de
famille), différents types de jeux (solitaires, jeux de sociétés, dessins, puzzle), des temps
scolaires, les devoirs, des bains/douches. Par ailleurs, d’une période à l’autre, nous
Corpus, 22 | 2021
66
recueillons des scènes relativement semblables ce qui va nous permettre une

comparaison intéressante.
58 Les enregistrements du quotidien ne sont pas les seules données langagières que nous
récoltons. Des tests de langage sont effectués pour situer les capacités langagières de
notre échantillon mais aussi pour provoquer des contextes de liaisons similaires d’une
période à l’autre.
5.1. Tests de langage
59 Nous effectuons deux séries de tests, la première composée de tests de langage pour
situer l’enfant dans son acquisition langagière et une deuxième série pour évaluer la
manière dont la liaison se met en place. Pour cette dernière série, nous présenterons
des résultats préliminaires de trois enfants : Roxane, Lucile et Camille (les trois enfants
pour lesquels nous avons toutes les données sur les trois périodes).
5.1.1. Tests de positionnement
60 À la suite de chaque période d’enregistrements, les enfants ont effectué des tests de
langage issus de DyLNet (Nardy et al. 2016). Il s’agit de vérifier l’étendue du lexique de
l’enfant, de contrôler sa mémoire des chiffres, de connaître ses compétences
sociolinguistiques en perception et en production, de voir s’il parvient à détecter les
variations stylistiques en fonction des différents interlocuteurs possibles et enfin de
connaître la compréhension syntaxicosémantique. Nous réalisons ces tests avec les
enfants de notre panel les plus petits (Fréïhr, Briséis, Roxane, Lucile et Marise) puisque
ces tests ont été construits pour le niveau « maternelle ». Nos données pourront être
comparées aux données DyLNet, recueillies sur toute une école maternelle de Grenoble.
5.1.2. Tests de liaison
5.1.2.1. Pour tous les enfants
61 La deuxième série de tests (empruntée à Dugua, 2006) porte sur la production de

liaisons. En premier lieu, nous effectuons une tâche d’apostrophe où les enfants doivent
appeler, à deux reprises et les uns après les autres, des animaux en disant par exemple
« ours ours viens jouer avec moi ! ».
62 Cette tâche a pour but de voir la forme lexicale la plus disponible pour les enfants : à
voyelle initiale « ours » ([uʁs]) ou à consonne initiale « nours » ([nuʁs]) issu de
[œ̃nuʁs], « tours » ([tuʁs]) issu de [pətituʁs]. Les résultats laissent apparaître que les
trois enfants aux périodes 2 et 3, produisent les formes à voyelle initiale. Pour la
période 1 (voir Figure 3), Lucile dispose clairement de la forme à voyelle initiale. Pour
Camille, la production avec déterminant correspond à la forme [pətitan] avec liaison,
mais nous supposons qu’elle possède la forme à initiale vocalique puisqu’elle a produit
[an] en isolation lors de la seconde production. Quant à Roxane, nous voyons que la
forme à initiale vocalique n’est pas forcément acquise, les formes avec déterminant
sont en l’+ « nom » ([lekyʁœj] et [lan]).
Corpus, 22 | 2021
67
Figure 3. Production de la tâche d’apostrophe (Période 1)
63 Dans un second temps, nous faisons une tâche avec des pseudo-noms à voyelle initiale
(4 pseudo-noms), où nous présentons chaque pseudo-nom précédé du déterminant
« un », par exemple [œ̃nikat], l’enfant doit alors produire la forme « deux » + « pseudo-
nom », par exemple [døzikat]. Nous relevons trois types de productions :
64 - Production de type maintien : nous disons [œ̃nivak] l’enfant produit [dønivak]
65 - Production de type alternance : nous disons [œ̃nivak] l’enfant produit [døzivak]
66 - Production de type omission : nous disons [œ̃nivak] l’enfant produit [døivak]
67 Le graphique ci-dessous rend compte de la répartition des types de productions
(4 productions au total) pour chaque enfant et à chaque période.
Figure 4. Résultats de la tâche de pseudo-noms
Corpus, 22 | 2021
68
68 Les trois enfants observées présentent des comportements variables sur les formes
d’alternances et de maintien que nous ne pouvons interpréter pour l’instant. Seule
Lucile produit des formes en omissions lors de la deuxième période.
69 Par la suite, nous effectuons une tâche de dénomination d’images en contexte de
liaisons obligatoires après les Mots1 « un » et « deux », par exemple [œ̃nuʁs]. Trois
types de production sont attendus :
70 - Production de type liaison juste :
• Après « un » : [œ̃nuʁs]
• Après « deux » : [døzuʁs]
71 - Production de type remplacement :
• Après « un » : [œ̃zuʁs]
• Après « deux » : [dønuʁs]
72 - Production de type omission :
• Après « un » : [œ̃uʁs]
• Après « deux » : [døuʁs]
73 Le graphique ci-dessous montre les taux de chaque type de production pour chaque
enfant et à chacune des trois périodes.
Figure 5. Résultats de la tâche de dénomination de liaisons obligatoires
74 Pour Camille, qui est plus âgée, nous retrouvons des productions de liaisons justes
systématiquement pour les trois périodes. Tandis que pour les plus petites, Lucile et
Roxane, nous relevons des erreurs par remplacement lors de la première période, qui
disparaissent par la suite. Des erreurs d’omission surviennent en période 2 et/ou 3, ce
sont des erreurs qui peuvent subsister jusqu’à 6 ans (Dugua, 2006). Ces résultats sont en
accord avec les données dont nous disposons sur les productions de liaisons.
75 Dans le même principe, la tâche suivante est également une dénomination d’images
mais cette fois en contexte de liaison facultative après les Mots1 « petit » et « gros ».
Trois types de productions sont attendus :
76 - Production de type liaison réalisée :
• Après « petit » : [pətituʁs]
Corpus, 22 | 2021
69
• Après « gros » : [ɡʁozuʁs]

77 - Production de type non réalisée (après les LF les liaisons ne sont pas obligatoires, la
non production de liaison n’est donc pas une erreur) :
• Après « petit » : [pətiuʁs]
• Après « gros » : [ɡʁouʁs]
78 - Production de type remplacement :
• Après « un » : [pətizuʁs]
• Après « deux » : [ɡʁonuʁs]
79 Dans le graphique ci-dessous, nous mettons en évidence les trois types de productions
pour chaque enfant et à chacune des trois périodes.
Figure 6. Résultats de la tâche de dénomination de liaisons facultatives
80 D’après ces résultats, nous retrouvons globalement des taux de réalisations de LF

nettement supérieurs à Dugua (2006), nous sommes ici en moyenne à 69% de liaisons
réalisées contre 20,5% relevées chez Dugua (2006). Nous constatons des comportements
bien différents chez les trois enfants : des taux de réalisation relativement stables et
hauts pour Lucile, ces mêmes taux qui baissent pour Roxane et qui stagnent puis
augmentent fortement pour Camille. L’analyse de ces résultats sera approfondie par la
suite.
81 Enfin, la dernière tâche consiste à faire dénommer quatre noms à initiale
consonantique (« nombril », « lavabo », « nuage », « zèbre ») après « un » et « deux ».
Ces mots présentent la particularité d’avoir en initiale une consonne qui pourrait être
une consonne liaison ou d’élision. Chez nos trois enfants, quand elles produisent les
mots cibles, elles les réalisent correctement. Seules deux occurrences en période 1
présentent des variations intéressantes : [œ̃navabo] (Roxane) et [døzɔ̃ bʁil] (Lucile).
Dans ces erreurs, la consonne initiale produite correspond à la consonne de liaison
attendue après les déterminants « un » et « deux ». Dugua (2006) interprète ce type de
réalisation comme des surgénéralisations du phénomène de liaison. Dans ses données,
elles apparaissent principalement vers 4-5 ans. Nous les retrouvons un an plus tôt chez
Lucile et Roxane
Corpus, 22 | 2021
70
82 D’une manière générale, les performances que nous obtenons chez ces trois enfants
sont supérieures à celle de l’échantillon dans Dugua (2006). Ces résultats seront
détaillés dans de prochains travaux.
5.1.2.2. Pour les enfants lecteurs
83 Lorsque les enfants sont en âge de lire (Marise, Briséis, Camille), ils effectuent deux
tests supplémentaires : un test de lecture et un test d’histoire sans parole.
84 Pour le premier, les enfants doivent lire une série de 32 phrases avec des mots et
contextes de liaisons choisis avec précautions. Pour le second test, la création d’une
histoire sans parole favorisant les contextes de liaison s’est révélée un bon exercice
pour faire parler les enfants à partir de dessins. Nous avons créé ce test pour que les
enfants puissent être amenés à raconter une histoire comme elle pourrait être écrite en
insérant des images favorisant les contextes de liaison. Cette démarche d’histoire sans
parole peut être déjà connue des enfants, de même qu’ils ont déjà dû être amenés à
raconter des histoires qui leur ont été lues par le passé.
85 Ces tests ont une grande importance car ils nous permettent de contrôler, dans des
contextes similaires et ce, d’une période à l’autre, la réalisation de liaisons obligatoires
et de liaisons facultatives et cela dans des modalités variées. Avec les données des tests
recueillies, croisées avec les données « naturelles » que nous avons captées, nous serons
en mesure de mieux comprendre comment s’acquiert la liaison dans des milieux et des
situations variés.
Conclusion et perspectives
86 La création de notre corpus ESLO-Enfants permet d’élargir le périmètre du corpus
ESLO2 tout en s’intégrant dans son architecture, mais permet aussi d’apporter de
nouvelles données aux corpus enfantins déjà existants.
87 Outre les questions relatives à la mise en place du langage chez les jeunes enfants, ce
corpus vise à fournir un cadre variationniste dans lequel nous pourrons décrire la
diversité et la richesse des inputs dans lesquels les enfants évoluent. À travers l’étude
de l’usage des liaisons à la fois obligatoires et variables, dans la parole environnante,
comme dans la parole enfantine, nous chercherons à mettre en évidence les liens entre
l’usage des parents/fratrie/famille et l’usage des enfants, et la façon dont adultes et
enfants adaptent leurs usages à la situation et aux participants. Des entretiens semi-
directifs ont été réalisés (mais n’ont pas été présentés ici par manque de place) et
permettront d’avoir un regard plus approfondi sur la vie au sein des familles, mais
également d’avoir accès à l’usage langagier des parents dans un contexte plus formel
que les scènes quotidiennes. La méthode que nous mettrons en place prendra deux
orientations : (1) étant donné l’échantillon important recueilli, transcrit et annoté en
liaisons, nous pourrons dégager des tendances statistiques (taux de liaisons selon les
situations, selon les participants, etc.). Mais, (2) dans le but de rendre compte des
influences de l’input sur l’output, il nous semble indispensable d’observer les usages
des liaisons avec une approche plus qualitative en repérant, par exemple, des
constructions fréquentes dans une famille et en cherchant à voir comment elles sont
transmises et reprises ou non par les enfants. Ces deux méthodes d’observation et
d’analyse, croisées avec les métadonnées sur les familles d’une part (avec l’échelle
Corpus, 22 | 2021
71
SLCP), et sur le développement langagier des enfants d’autre part (avec les tests de
langage) devraient nous permettre de mieux comprendre la façon dont le langage se
construit dans la diversité des environnements et des situations que rencontre un
enfant.
BIBLIOGRAPHIE
Abouda L. & Baude O. (2005). « Constituer et exploiter un grand corpus oral : choix et enjeux
théoriques. Le cas des ESLO », Corpus en Lettres et Sciences sociales, Des documents numériques à
l’interprétation. Albi, France.
linguiste ? » Corpus 10 : 99-118.
Baude O. & Dugua C. (2015). « Usage de la liaison dans le corpus des ESLOs : vers de nouveaux (z)
ouvrages de référence ? » Dostie, Hedermann (éd.), La dia-variation en français actuel. Bern : Peter
Lang, 349-371.
Blanc M. & Biggs P. (1971). « L’enquête socio-linguistique sur le français parlé à Orléans » Le
français dans le monde 85 : 16-25.
Bourdieu P. (1982). Ce que parler veut dire : L’économie des échanges linguistiques. Fayard.
Bourdieu P. (1994). Raisons pratiques : sur la théorie de l’action. Paris : éd. du Seuil.
Bourdieu P. (1979). La distinction. Critique sociale du jugement. Paris : éd. de Minuit.
Bybee J. & Hopper P. (2001). « Introduction ». Bybee J. & Hopper P. (éd.), Frequency and the
Emergence of Linguistic Structure. Amsterdam/Philadelphia : Benjamins.
Cameron-Faulkner T., Lieven E. & Tomasello M. (2003). « A construction based analysis of child
directed speech ». Cognitive Science 27-6 : 843-873.
Chevrot J.-P., Chabanal D. & Dugua C. (2007). « Pour un modèle de l’acquisition des liaisons basé
sur l’usage : trois études de cas » Journal of French Language Studies 17, 103-128.
Chevrot J.-P., Dugua C. & Fayol M. (2009). « Liaison Acquisition, Word Segmentation and
Construction » Fench : A Usage Based Account. Journal of Child Language 36, 557-596.
Coquillon A., Durand J. & Eychenne J. (2010). « La liaison dans PFC : les chiffres et leur
interprétation » Atelier PFC. University Tulane, New Orleans., Jul 2010, Nouvelle Orléans, États-
Unis.
De Jong D. (1994). « La sociophonologie de la liaison orléanaise ». Lyche C. (éd.), French Generative

Phonology : Retrospective and Perspectives. Salford : ESRI, 95-129.
Dugua C. (2006). « Liaison, segmentation lexicale et schémas syntaxiques entre 2 et 6 ans - Un

modèle développemental basé sur l’usage ». Thèse de doctorat, Université Stendhal, Grenoble.
Dugua C. & Baude O. (2017). « La liaison à Orléans, corpus et changement linguistique : une
première étude exploratoire », Journal of French Language Studies 27, 41-54.
Corpus, 22 | 2021
72
Durand J. & Lyche C. (2008). « French liaison in the light of corpus data » French Language Studies
18, 33-66.
Durand J., Laks B., Calderone B. & Tchobanov A. (2011). « Que savons-nous de la liaison
aujourd’hui ». Langue française 169, 103-135.
Encrevé P. (1988). La liaison avec et sans enchainement : phonologie tridimensionnelle et usages du

français. Paris : Seuil.
Fijalkow J. (1997). « Entrer dans l’écrit : oui, mais par quelle porte ? ». Repères, recherches en
didactique du français langue maternelle 15, 113-129.
Gadet F. (1989). Le Français ordinaire. Paris : Armand Colin.
Gadet F. (1997). « Classe sociale ». M.L. Moreau (dir.). Sociolinguistique. Concepts de base. Liège :
Mardaga.
Gagnier N. (2011). « Le jugement des autres sur nos attitudes parentales ». La Presse. Mis en ligne
le 22 mars 2011. Consulté le 27 juillet 2019.
Goldin-Meadow S. (2010). « Rôle des gestes dans la création et l’acquisition du langage. » Enfance
62-3 : 347-360.
Institut National de la Statistique et des Etudes Economiques (2019). https://www.insee.fr/fr/

metadonnees/pcs2003/categorieSocioprofessionnelleAgregee/1
Kemmer S. & Barlow M. (2000). « Introduction : A usage-based conception of language ».

Barlow M. & Kemmer S. (éd.), Usage-based models of language use. Stanford Californie : CSLI
Publications, 7-28.
Labov W. (1976). Sociolinguistique. Paris : Editions de Minuit.
Laks B. (2005). « La liaison et l’illusion » Langages 39 e année, 158 : 101-125.
Liégeois L. (2014). « Usage des variables phonologiques dans un corpus d’interactions naturelles
parents-enfant : impact du bain linguistique et dispositifs cognitifs d’apprentissage » Thèse de
doctorat, Université Blaise Pascal, Clermont 2.
Linard M. & Prax I. (1984). Images vidéo, images de soi ou Narcisse au travail. Paris : Dunod.
Mondada L. (2012). « The conversation analytic approach to data collection ». J. Sidnell &
T. Stivers (éd.) Handbook of Conversation Analysis. Oxford : Blackwell-Wiley.
Nardy A., Fleury É., Chevrot J.-P., Karsai M., Buson L., Bianco M., Rousset I., Dugua C., Liégeois L.,
Barbu S., Crespelle C., Busson A., Léo Y. & Bouchet H. (2016). DyLNet – Language Dynamics,
Linguistic Learning, and Sociability at Preschool : Benefits of Wireless Proximity Sensors in
Collecting Big Data (ANR-16-CE28-0013). https://dylnet.univ-grenoble-alpes.fr/
Neill A.S. (1966). La Liberté, pas l’anarchie. Hart Publishing (New York) 1966, Payot.
Queneau R. (1950). L’Avenir du français, Bâtons, chiffres et lettres. Paris : Gallimard.
Soum-Favaro C., Coquillon A. & Chevrot J.-P. (2014). La liaison : approches contemporaines. Bern :
Peter Lang.
Tomasello M. (2003). Constructing a Language : A Usage-Based Theory of Language Acqusition. Harvard

University Press.
Référence des corpus :
Corpus, 22 | 2021
73
Corpus de Lyon : http://childes.psy.cmu.edu/access/French/Lyon.html
Laboratoire Ligérien de Linguistique - UMR 7270 (LLL) (2017). ESLO [Corpus]. ORTOLANG (Open
Resources and TOols for LANGuage) - www.ortolang.fr, https://hdl.handle.net/11403/eslo/v1.
Laboratoire de Recherche sur le Langage - EA 999 (LRL) (2017). ALIPE (Acquisition de la Liaison et
Interactions Parents Enfants) [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) -
www.ortolang.fr, https://hdl.handle.net/11403/alipe-000853/v1.1.
Communication Langagière chez le Jeune Enfant (CoLaJE) : http://colaje.scicog.fr/
Morgenstern, A & Parisse, C. (2012). The Paris Corpus. French Language Studies 22(1), 7-12,
Cambridge University Press.
Parisse C., Morgenstern A. (2010). Transcrire et analyser les corpus d’interactions adulte-enfant.
Edy Veneziano, Anne Salazar Orvig, Josie Bernicot. Acquisition du langage et interaction,
L’Harmattan, 201-222.
Traitement des Corpus Oraux en Français (TCOF) : http://www.cnrtl.fr/corpus/tcof/

Emmanuelle Canut, Virginie André, Bertrand Gaiffe. Mise à disposition de corpus oraux
interactifs : le projet TCOF (Traitement des Corpus Oraux en Français). Pratiques : théorie, pratique,
pédagogie, 2010, Interactions et Corpus Oraux, pp.147-148. <hal-00523397>
NOTES
1. Ces informations auraient pu être enregistrées si nous avions rencontré des familles dans
l’impossibilité de remplir la fiche.
RÉSUMÉS
Le module ESLO-Enfants est un corpus variationniste longitudinal issu du grand corpus de langue
française : Enquêtes SocioLinguistiques à Orléans (ESLO). Variationniste car il s’appuie sur un
public varié (enfants de 2 ans à 7 ans avec leur entourage proche) provenant de familles de
différentes catégories socio-économico-culturelles et enregistré dans des situations naturelles
variées formant le quotidien des enfants. Ce corpus, qui sera mis à disposition à la fois sur ESLO
et Childes, a été créé dans le but d’étudier l’impact de l’environnement langagier (input) sur les
productions enfantines (output). Pour cette étude, la liaison, objet à la fois stable et variable, s’est
révélée être un phénomène sociolinguistique propice pour observer sa transmission à des enfants
en cours d’acquisition du langage mais aussi pour observer d’éventuelles différences entre les
familles.
The ESLO-Children module is a longitudinal variationist corpus derived from the large French-
language corpus: Enquêtes SocioLinguistiques à Orléans (ESLO). It is variationist because it is
based on a varied audience (children aged 2 to 7 with their close relatives) from families of
different socio-economic and cultural categories and recorded in a variety of natural situations
that form the daily lives of children. This corpus, which will be made available on both ESLO and
Childes, was created with the aim of studying the impact of the language environment (input) on
Corpus, 22 | 2021
74
children’s productions (ouput). For this study, liaison, an object that is both stable and variable,
has been shown to be a sociolinguistic phenomenon that is conducive to observing its
transmission on children in the process of language acquisition, but also to observing possible
differences between families.
INDEX
Mots-clés : Acquisition du langage, corpus variationniste, liaison, ESLO, parole enfantine,
situation naturelle
Keywords : Language acquisition, variationist corpus, liaison, ESLO, children’s speech, natural
situation
AUTEUR
JENNIFER GANAYE
LLL – UMR7270, Université Orléans
Corpus, 22 | 2021
75
Vers un outillage informatique

optimisé pour corpus langagiers
oraux en vue d’une exploitation
textométrique : le cas des
interrogatives partielles dans ESLO
Flora Badin, Loïc Liégeois, Gabriel Thiberge et Christophe Parisse
1. Introduction
1 Si la disponibilité croissante des corpus oraux participe à l’essor que vit actuellement la
linguistique de corpus, elle oblige les chercheurs à prendre en main les problématiques
liées à la structuration, la diffusion et le partage des données. En effet, alors que
l’hétérogénéité des méthodologies de structuration des corpus oraux apparaît comme
une marque de la vitalité du domaine, celle-ci peut également représenter un frein
certain dans la réutilisation des données par la communauté. Il n’est pas toujours facile
de jongler entre les formats de structuration des données, fortement dépendants des
logiciels utilisés au départ pour transcrire et/ou annoter et/ou structurer le corpus.
Ainsi, nous sommes partis d’une problématique simple : comment réutiliser le corpus
ESLO (Eshkol-Taravella et al., 2011), qui apparaît actuellement comme l’un des corpus
oraux les plus volumineux librement disponibles, pour mener une étude
sociolinguistique à la croisée des axes syntaxiques et pragmatiques ?
2 Alors que le corpus est à ce jour majoritairement distribué dans son format d’origine,
celui de l’outil de transcription et d’annotation Transcriber (Barras, Geo & Wu, 2001),
l’étude que nous souhaitions mener nécessitait l’utilisation d’un outil de textométrie
puissant, capable de gérer une annotation morphosyntaxique ainsi que la richesse des
métadonnées du corpus. Nous nous sommes dirigés vers l’outil TXM (Heiden, Magué, &
Pincemin, 2010), le plus à même selon nous de répondre à ce cahier des charges. Si la
possibilité d’import de données structurées à l’aide de l’outil Transcriber est déjà
Corpus, 22 | 2021
76
prévue par TXM, cet import ne permet pas l’utilisation de certaines fonctionnalités de
TXM comme la création de partitions de corpus ou de sous-corpus fondés sur les
informations disponibles dans les métadonnées locuteurs, particulièrement riches pour
le corpus ESLO (âge, profession, niveau d’étude etc.).
3 L’objectif de notre article est de présenter la méthodologie mise en œuvre pour passer
d’une série de fichiers de transcription au format Transcriber accompagnés de leurs
métadonnées correspondantes (au niveau locuteur et enregistrement) à une base
exploitable à l’aide de l’outil TXM. Dans une première partie, nous reviendrons sur les
problématiques liées à la mise à disposition des corpus oraux. Nous exposerons les
solutions actuellement disponibles pour la conversion des données et leur réutilisation
dans différents logiciels du domaine de la linguistique de corpus. Nous présenterons
également différentes facettes du projet ESLO : le corpus et ses spécificités ouvrant la
voie à l’analyse de phénomènes linguistiques dans une perspective micro-diachronique,
ainsi que la plateforme d’interrogation associée. Dans une deuxième section, nous
détaillerons le cahier des charges qui a guidé notre travail de restructuration du corpus
ESLO. Nous verrons comment celui-ci a été conditionné par des besoins généraux, liés à
l’analyse de la langue orale, et d’autres plus spécifiquement liés à la thématique de
l’analyse linguistique que nous souhaitions effectuer sur le corpus. La partie suivante se
focalisera quant à elle sur les traitements réalisés sur le corpus de départ afin d’obtenir
des données finement analysables au moyen de TXM. Enfin, nous verrons comment
nous avons réussi à exploiter l’outil afin d’analyser l’usage des interrogatives partielles
dans une perspective micro-diachronique en français parlé de la région Orléanaise par
les différents locuteurs de la section entretien du corpus ESLO. Nous présenterons une
série d’analyses qui s’appuie sur la richesse des métadonnées disponibles ainsi que sur
une lemmatisation et une annotation en parties du discours des données transcrites.
2. Des corpus oraux diffusés pour être réutilisés. Oui,

mais comment ?
2.1. Gérer l’hétérogénéité des formats
4 Depuis quelques années, le développement d’infrastructures nationales de stockage et

de partage des corpus (oraux, écrits ou multimodaux) a grandement facilité les
échanges de ressources entre chercheurs – voir par exemple ORTOLANG (https://
www.ortolang.fr) ou Cocoon ( https://cocoon.huma-num.fr/). La circulation des
données entre chercheurs s’avère essentielle, particulièrement pour les données orales
et multimodales. Au vu du temps consacré à la constitution d’un corpus lors des tâches
de recueil, de transcription et d’annotation des interactions, il apparaît précieux de
pouvoir réutiliser des données existantes. Cette option permet ainsi de mener des
analyses linguistiques sans consacrer un temps important à toutes ces tâches.
Toutefois, ce travail ne peut pas être réalisé sans prendre en considération la
méthodologie de recueil et de structuration du corpus que l’on réutilise, ce qui oblige le
chercheur à se confronter aux problématiques liées aux formats des données. Nous
distinguons ici deux types de format : le format de transcription et d’annotation, lié aux
conventions définies en amont du projet, et le format de structuration, généralement
dépendant du logiciel choisi pour transcrire et annoter les interactions. Dans les
domaines de la linguistique orale et multimodale, plusieurs logiciels standards ont été
Corpus, 22 | 2021
77
adoptés par la communauté, chacun d’eux étant (au moins à l’origine) lié à un axe
d’analyse linguistique comme Praat (Boersma & Weenink, 2019) pour la phonétique et
la prosodie ou ELAN (Wittenburg et al., 2006), pour la gestualité et l’étude des langues
peu décrites. Bien que ciblé la plupart du temps sur un type d’usage, il semble normal
qu’un corpus puisse être réutilisé à plusieurs fins scientifiques et par des communautés
scientifiques diverses, et donc avec différents logiciels.
5 C’est dans cet objectif que Parisse a développé, à partir de 2015, un logiciel de
conversion de données dans le cadre de ses travaux effectués au sein de l’équipement
ORTOLANG (Outils et Ressources pour un Traitement Optimisé de la LANGue,
Équipements d’Excellence ANR–11–EQPX–0032) et du consortium CORLI (CORpus,
Langues et Interactions) de la Très Grande Infrastructure de Recherche Huma-Num. La
réalisation technique des logiciels de conversion se présente de deux manières. La
première est celle d’une bibliothèque programmée en langage Java par Myriam
Majdoub et Christophe Parisse. Ce logiciel est disponible en ligne (http://
ct3.ortolang.fr/teicorpo/) et ses sources sont sous licence BSD 2-Clause et sont
librement disponibles sur GitHub (https://github.com/christopheparisse/teicorpo).
Une interface sous forme de service web est également disponible (http://
ct3.ortolang.fr/teiconvert/). Les sources de cette version sont distribuées sous la même
licence (https://github.com/christopheparisse/teiconvert).
6 Ces outils font partie des maillons d’une chaîne de traitement nommée TEI-CORPO et
utilisant le format TEI (Text Encoding Initiative) comme format pivot (Parisse et al.,
sous presse). Ce format pivot partage les informations issues des différentes sources ou
logiciels, sans perte d’informations, et permet en retour d’utiliser d’autres outils. Si ce
format respecte complètement les consignes de la norme TEI/ISO pour ISO 24624:2016,
celui-ci va plus loin puisqu’il permet le codage de fichiers de transcription issus des
logiciels les plus utilisés dans la communauté de l’oral. Les logiciels ont été choisis en
fonction des usages constatés lors de réunions de travail du consortium IRCOM de la
TGIR Huma-Num (2012-2015) : CLAN (MacWhinney, 2000), ELAN, Praat et Transcriber.
De plus, il faut être capable de récupérer, pour un corpus, toutes les métadonnées
fournies par les outils d’origine pour les intégrer dans le format TEI et permettre leur
conservation dans le format de sortie. TEICORPO a utilisé la TEI et la norme TEI/ISO
comme un format souple s’adaptant aux caractéristiques des formats d’origine des
données. Ceci a amené à élargir les usages de la TEI présentés dans la norme TEI/ISO en
ajoutant des informations supplémentaires, sans modifier toutefois le schéma de la TEI
(utilisation de champs commentaires et notes). Sans l’insertion de ces informations,
une conversion des logiciels source vers la TEI serait possible, mais une conversion
inverse de la TEI vers ces logiciels ne le serait plus. TEI-CORPO garantit ainsi l’existence
d’un aller-retour entre un logiciel source et la TEI. En revanche, les conversions
croisées (d’un format logiciel à un autre) sont limitées par les caractéristiques des
logiciels visés.
7 Dès l’origine, TEI-CORPO a aussi été développé pour permettre une conversion des
données TEI depuis ou vers des formats autres que ceux des logiciels d’annotation de
corpus oraux. Il est ainsi possible d’importer et d’exporter des données au format texte
UNICODE et aux formats Microsoft Word ou Microsoft Excel (uniquement les variantes
du format Office Open XML, norme ISO/CEI 29500, extensions usuellement appelées
.docx ou .xlsx) et d’exporter vers les formats de données utilisés par des logiciels de
Corpus, 22 | 2021
78
textométrie comme TXM, Iramuteq (Ratinaud, 2009), Lexico (Lamalle et al., 2003) ou Le
Trameur (Zimina & Fleury, 2015).
2.2. Cas pratique : réutiliser le corpus ESLO
8 Le corpus ESLO apparaît comme le corpus oral de langue française le plus volumineux
actuellement librement accessible. Au total, il se compose d’environ 4,9 millions de
mots transcrits à partir de près de 422 heures de données audio recueillies entre 1960 et
aujourd’hui. Le corpus peut être divisé en deux parties, généralement nommées ESLO1
(1968-1974) et ESLO2 (2008 à nos jours). Si plusieurs décennies séparent les deux
périodes de collecte de données, les objectifs scientifiques sont identiques pour les deux
parties du corpus. Il s’agit de recueillir des paroles de la vie quotidienne pour obtenir
des données témoignant de la variété et la diversité des langues parlées
quotidiennement dans la ville d’Orléans, tout en apportant un témoignage précieux sur
la ville en elle-même. Dans cet objectif, le protocole mis en place pour le recueil du
corpus ESLO varie les situations d’interaction. Si la majeure partie de ces dernières
correspondent à des entretiens entre un enquêteur et une personne enquêtée, le corpus
se compose également de paroles recueillies dans les commerces ou dans la rue, à la
sortie d’un cinéma par exemple, d’interviews de personnalités orléanaises, des
conférences universitaires et des communications téléphoniques. Pour chaque
enregistrement, une série de métadonnées permet d’avoir accès à des informations
importantes comme la durée et la date de l’enregistrement ou la qualité de celui-ci.
9 Certains contextes d’interaction se retrouvent dans ESLO1 et ESLO2 et fournissent des
données recueillies suivant le même protocole. Cette spécificité du corpus ouvre la voie
à des analyses micro-diachroniques de phénomènes langagiers et permet l’observation
de l’évolution du français oral. C’est par exemple dans cette perspective qu’Abouda et
Skrovec (2017) ont observé l’évolution des usages des différentes formes d’expression
du futur (futur simple et futur périphrastique) entre ESLO1 et ESLO2. Outre la diversité
des situations d’interaction, celle des profils des locuteurs enregistrés favorise les
études sociolinguistiques. Si les membres du projet ESLO ont veillé à faire varier les
locuteurs au niveau du genre, de l’âge, de la zone d’habitation ou encore du niveau
d’étude et de la catégorie socioprofessionnelle, une des grandes forces du projet réside
dans le fait que l’ensemble de ces métadonnées ont été renseignées de façon exhaustive
et quasi-systématique. Ainsi, il est par exemple non seulement possible d’observer
l’évolution globale d’un phénomène oral comme la (non) production du schwa sur un
plan micro-diachronique en prenant en compte l’ensemble des locuteurs du corpus
mais également de constituer des sous-corpus en fonction des profils de locuteurs afin
d’analyser l’évolution de l’usage du schwa au sein d’une classe d’âge ou d’une catégorie
socioprofessionnelle particulière (Liégeois et al., 2018).
10 La richesse et le volume des (méta)données du projet ESLO nous ont amenés à le
sélectionner afin d’étudier la production des interrogatives partielles en français.
Plusieurs structures phrastiques sont disponibles pour les francophones (Coveney,
2011 ; Delaveau, 2021, pour un panorama) pour construire ces interrogatives, en
particulier celles illustrées en (1a-d) :
(1) a. Tu pars quand ? → in situ (IS)
b. Quand tu pars ? → antéposition (« fronting », F)
c. Quand pars-tu ? → antéposition + inversion (FINV)
d. Quand est-ce que tu pars ? → antéposition + est-ce que (FESK)
Corpus, 22 | 2021
79
11 Ces variantes ont déjà été comparées, par exemple sous l’angle d’une influence de la
situation informationnelle (Boeckx, 1999 ; Beyssade, 2006 ; Déprez et al., 2013), de la
phonotaxe (Hamlaoui, 2009) ou encore, notamment dans les études sur l’acquisition de
ces structures, en termes de complexité structurelle (Jakubowicz, 2011). Ces travaux
n’évitent cependant pas le prisme de l’équivalence sémantique entre les différentes
variantes, vues comme un même contenu propositionnel, partiellement spécifié mais
dont la variable à spécifier est unique et identique à travers toutes les formes. Dans les
exemples (1a-d), le but est ainsi toujours de recueillir l’information temporelle
spécifiant le moment de l’arrivée du ou de la destinataire.
12 En parallèle, d’autres études expérimentales (Thiberge, 2018) ont montré un meilleur
jugement porté par les francophones sur les interrogatives FINV et la projection
d’indices sociaux sur les utilisateurs de ce type de phrase (richesse, éducation, lecture
fréquente…) par contraste avec les types IS et F. L’objectif de notre analyse du corpus
ESLO, décrite en détail dans Thiberge, Badin et Liégeois (soumis), était d’enrichir la
compréhension des facteurs sociolinguistiques pouvant influer sur ces préférences
dégagées expérimentalement, par une analyse de production spontanée. Nous avons
analysé cette variation sous un angle triple :
• micro-diachronique : y a-t-il un eu un changement dans les utilisations des différentes
variantes disponibles entre la première période de recueil (ESLO1, 1968-1974) et la
seconde (ESLO2, 2008-) ?
• diastratique : y a-t-il des différences observables entre les francophones d’une même
époque selon leur tranche d’âge, comme déjà observé dans Thiberge (2018) ? L’âge
étant une donnée démographique qu’on peut en ce sens rapprocher d’autres données
sociales (Gadet, 1996), nous avons ici comparé les productions des tranches d’âge
15-25 ans et 35-55 ans.
• diaphasique : y a-t-il des différences observables selon les contextes interactionnels ?
Nous avons ici comparé les productions en interviews, à l’école et lors de repas.
13 Si le corpus ESLO, de par sa méthodologie de constitution et la richesse de ses
métadonnées associées, apparaît comme la source de données la plus appropriée pour
mener à bien cette analyse de la variation dans des perspectives micro-diachronique,
diastratique et diaphasique, les possibilités actuellement disponibles pour interroger
les données semblent très limitées. Avant ce travail il n’existait en effet, à notre
connaissance, qu’une plateforme d’interrogation en ligne du corpus élaborée par les
membres du projet ESLO (http://eslo.huma-num.fr/index.php/pagecorpus/
pageaccescorpus). Cette plateforme permet une interrogation des données à 4 niveaux :
• du fichier son : un formulaire de requête permet de sélectionner des enregistrements
précis en fonction du titre du fichier, de la date de recueil ou de la qualité sonore.
• le locuteur : un formulaire permet d’obtenir toutes les données répondant à un
locuteur en particulier (par saisie de sa « référence ») ou à un ensemble de locuteurs en
fonction de leurs sexe, tranche d’âge, catégorie professionnelle ou niveau d’étude.
• du fichier de transcription : un formulaire de requête permet de sélectionner des
transcriptions en fonction de leur titre ou encore de la personne qui s’est chargée de la
transcription.
• du texte transcrit : le formulaire disponible pour cette section permet d’effectuer des
requêtes au niveau d’une forme (une forme précise ou en fonction du début ou de la fin
d’une forme) ou d’une série de formes, appelée « motif ». Il est ainsi possible, par
Corpus, 22 | 2021
80
exemple, de rechercher toutes les constructions débutant par « est-ce que » ou se

terminant par « quoi ».
14 Cette plateforme affiche certaines qualités comme la possibilité de pouvoir croiser ces
quatre niveaux d’interrogation. Cependant, elle s’avère limitée sur plusieurs points.
Nous les avons relevés dans le cahier des charges qui nous a amené à construire une
version TXM du corpus ESLO décrite dans la section suivante.
3. Cahier des charges pour une version TXM d’ESLO

15 L’étude que nous souhaitions effectuer à partir des données du corpus ESLO nous a
amené à mettre en place une chaîne de traitement permettant d’obtenir une version du
corpus utilisable avec TXM et qui réponde à plusieurs critères : visualisation,
partitionnement et interrogation du corpus.
3.1. Visualisation
16 L’objectif est de fournir à l’utilisateur une visualisation du texte facilitant la lecture

continue de la transcription. TXM étant originellement conçu pour traiter des corpus
écrits, le principal souci de la visualisation de données issues de l’oral concerne la
définition de l’unité de segmentation à utiliser pour le découpage de la transcription
(tour de parole ou énoncé) et l’insertion d’un indice visuel permettant de voir quel
locuteur produit un énoncé. Il conviendra alors de trouver une solution permettant que
chaque mention du code locuteur ne soit pas comptabilisée par l’outil comme un token
appartenant à la transcription.
3.2. Partitionnement et sous-corpus
17 L’un des principaux atouts de l’outil TXM est la possibilité de partitionner un corpus ou
de le diviser en sous-corpus en s’appuyant sur les métadonnées. Pour pouvoir profiter
au maximum cette fonctionnalité, la version TXM du corpus ESLO devra donc contenir
un maximum de métadonnées. Cette ambition pose un double défi. Tout d’abord, il
conviendra de définir une unité de segmentation adéquate des transcriptions du corpus
ESLO. En effet, un tour peut englober les productions de deux locuteurs différents si
celles-ci se chevauchent temporellement. Les productions simultanées de deux
locuteurs se trouvent ainsi intégrées à la même unité de segmentation. Cette méthode
ne peut pas être conservée car elle empêcherait un partitionnement en fonction des
métadonnées locuteurs (identifiant, âge, catégorie socioprofessionnelle etc.). Il
conviendra de regrouper ensemble les productions d’un seul et même locuteur. Le
deuxième défi technique consistera à intégrer au niveau de cette unité de segmentation
des métadonnées stockées indépendamment des transcriptions.
3.3. Interrogation
18 Dans sa forme de départ, le corpus ESLO ne permet qu’une interrogation des données
au niveau de la forme orthographique transcrite, c’est-à-dire du token. Pour mener à
bien nos analyses, une segmentation en tokens et un étiquetage minimal au niveau du
lemme et de la catégorie morphosyntaxique est indispensable. L’outil TXM proposant
Corpus, 22 | 2021
81
une tokenisation et un étiquetage de ce type via TreeTagger (Schmid, 1995) au moment

de l’import des données, deux solutions s’offrent à nous : nous appuyer sur cette
fonctionnalité de TXM ou effectuer ces opérations en amont avec TreeTagger ou un
autre outil.
4. Chaine de traitement de Transcriber à TXM en

passant par TEICORPO
19 TEICORPO désigne un ensemble d’outils utilisant le format TEI comme pivot pour :
• la conversion d’un format vers le format pivot TEI ;
• l’ajout de métadonnées (enregistrements et locuteurs), réalisé à l’intérieur du format
TEI ;
• la conversion du format pivot TEI vers des formats logiciels (XML-TXM par exemple).
20 Les sections suivantes présentent la façon dont nous avons appliqué cette chaîne de
traitement au corpus ESLO pour son utilisation avec l’outil de textométrie TXM.
4.1. Première étape : de Transcriber à la TEI
21 Le format Transcriber (.trs) est un format XML. Il comporte peu d’information de

métadonnées générales. Dans le cas du corpus ESLO, quasiment aucune métadonnée
autre que le nom des locuteurs n’est renseignée dans les fichiers. Il faut donc se fier au
nom du fichier pour savoir de quel enregistrement il s’agit.
Exemple 1. Format Transcriber original
22 Les transcriptions Transcriber sont divisées en sections et en tours de parole. Les

sections pouvant comporter le thème de plusieurs tours de parole sont représentées
dans le format TEI par des éléments <div> que nous n’exploitons pas dans ce travail. Le
format de Transcriber est basé sur des tours de parole (élément <Turn>) découpés en un
ou plusieurs segments ou énoncés (<Sync>) et modélise les chevauchements de parole
Corpus, 22 | 2021
82
en regroupant les productions des locuteurs (attribut speaker) dans un même tour (cf.
exemple 1).
23 Les limites imposées par le système de chevauchement ne permettent pas de maintenir
une limite de tour correcte. Ainsi dans exemple 1, le segment « euh normale enfin
typique si vous voulez euh oui » du locuteur « spk1 » devrait appartenir au tour de
parole précédent.
24 Pour ces raisons, la division en segments du corpus ESLO n’est pas parfaite. Nous ne
chercherons pas à modifier ici les caractéristiques des alignements temporels. Cette
opération pourrait en revanche être envisagée à une autre étape en effectuant des
traitements spécifiques à l’intérieur de la TEI.
25 La conversion vers la TEI respecte les indications de la norme TEI/ISO (ISO 24624:2016).
Cette conversion se réalise à l’aide du programme java disponible sur la page de
TEICORPO (http://ct3.ortolang.fr/teicorpo/teicorpo.jar).
26 Un fichier TEI peut être créé à partir d’un fichier Transcriber en effectuant la
commande suivante (le résultat obtenu est visible en Exemple 2) :
java -cp teicorpo.jar fr.ortolang.teicorpo.TeiCorpo nom_du_fichier_transcriber
Exemple 2. Format TEI de transcriptions des données
27 Nous pouvons remarquer que, dans le fichier de sortie, la notion de tour de parole n’est
pas conservée et que le découpage se fait sur la base des segments pour respecter les
indications du format TEI. Les événements du format Transcriber sont conservés.
Aucun nettoyage de données n’est réalisé lors de cette conversion, dans le but de
garantir une conversion inverse.
Corpus, 22 | 2021
83
4.2. Deuxième étape : ajout des métadonnées
28 Dans le cadre d’ESLO, les métadonnées sont éditées et sauvegardées au format tableur.
Les métadonnées sont de deux types : celles qui concernent tout un enregistrement et
celles qui concernent des locuteurs. Le procédé d’importation automatique est
légèrement différent dans les deux cas.
4.2.1. Ajout de métadonnées « Enregistrement »
29 Les métadonnées « enregistrement » contiennent des informations de date, de lieu, de

conditions d’enregistrement, de droits d’utilisation, etc. On dispose d’informations qui
sont associées à un nom de fichier TEI et à une étiquette qui les caractérise. Toutes les
informations de métadonnées sont entrées et éditées à l’aide d’un tableur et
sauvegardées dans un format CSV (virgule comme séparateur). L’exemple 3 illustre les
premières lignes d’un tel fichier. On note par exemple que pour le fichier
ESLO1_ENT_001, la valeur « excellente » est associée à la métadonnée « acoustique »
(cf. Exemple 3).
Exemple 3. Fichier CSV des métadonnées Enregistrement (seules les 4 premières colonnes sont
présentées)
30 La première ligne indique le nom des métadonnées décrites dans la colonne

correspondante. Ce nom est un aide-mémoire qui n’est pas utilisé dans l’import de
métadonnées. La deuxième ligne du fichier CSV contient un chemin au format XPATH
(https://www.w3.org/TR/1999/REC-xpath-19991116/) qui est utilisé par TEICORPO
pour insérer automatiquement des informations dans les fichiers TEI. Si les nœuds de
destination n’existent pas, ils sont alors créés par le programme.
Exemple 4. Ajout d’information dans la partie « recording »
31 Pour produire un tel fichier, la commande est la suivante :

java -cp "teicorpo.jar:lib/*" fr.ortolang.teicorpo.TeiInsertCsv
metadonnees_enregistrement.csv -o repertoire_optionel_des_resultats
32 Si l’option « -o » n’est pas utilisée, les fichiers sont renommés avec une extension
supplémentaire. Ce programme utilise des librairies java supplémentaires qui doivent
être téléchargées depuis la page http://ct3.ortolang.fr/teicorpo et déposées dans un
dossier « lib ».
Corpus, 22 | 2021
84
4.2.2. Ajout des métadonnées « Locuteurs »
33 Les métadonnées « locuteurs » fonctionnent sur un principe différent. Au lieu d’être

renseignées pour chaque enregistrement, elles le sont pour chaque locuteur, certains
locuteurs figurant dans plusieurs enregistrements. Le format de structuration reste
identique : il s’agit d’un fichier tableur (cf. exemple 5).
Exemple 5. Fichier CSV des métadonnées Locuteurs (seules les premières colonnes sont
présentées)
34 Dans ce fichier la première colonne correspond à l’identifiant numérique du locuteur

dans la base de données, et la deuxième à l’identifiant utilisé dans les transcriptions. Le
reste des informations suit le même modèle que précédemment. Ainsi, on retrouve une
information XPATH qui indique où insérer les valeurs des métadonnées qui, au lieu
d’être calculées par rapport à la racine du fichier, le sont par rapport au nœud
« person » du schéma TEI.
35 La commande à lancer est la suivante :
java -cp "teicorpo.jar:lib/*" fr.ortolang.teicorpo.TeiInsertCsv
metadonnees_locuteur.csv -o repertoire_optionel_des_resultats -userinfo
nom_du_fichier_TEI
Exemple 6. Information insérée dans les métadonnées TEI pour un locuteur
4.3. Troisième étape : export vers TXM
36 La conversion vers TXM transforme les informations de la TEI pour permettre

l’exploitation du moteur d’interrogation CQP (Corpus Query Processor). En effet, bien
que TXM soit capable de manière native d’indexer des fichiers TEI, seuls les éléments de
l’arborescence XML des champs indexés peuvent être interrogés. Il convient donc de
préparer les données en intégrant les métadonnées dans les éléments <div>, <u> et/ou
<w> de la TEI. Cette pratique est contraire aux recommandations de la TEI puisque les
métadonnées sont normalement regroupées en en-tête du document XML (élément
Corpus, 22 | 2021
85
<teiHeader>) et donc séparées des données situées dans un élément <text> (qui
regroupent les éléments <div>, <u>, <w>).
37 La conversion réalisée par TEICORPO consiste donc à créer une version « simplifiée » du
fichier TEI contenant des éléments <u> (les segments) et éventuellement des éléments
<div>. À l’intérieur de ces éléments sont ensuite projetées, sous forme d’attributs XML,
toutes les informations métadonnées.
38 Pour cela, on utilise un paramètre de la commande de conversion : « -mv » (pour
métadonnée et valeur) :
• pour indiquer des métadonnées indépendantes du locuteur : -mv
champ_txm:chemin_xpath
• pour indiquer des métadonnées dépendantes du locuteur : -mv
champ_txm:chemin_xpath:nom_du_locuteur
39 Pour un traitement multiple, le nom du locuteur peut être remplacé par « * ». La
commande est alors de ce type :
java -cp teicorpo.jar fr.ortolang.teicorpo.TeiToTxm nom_de_fichier_TEI -mv
domain:domain/@nature … -mv educ:education:* -utt -spk pers -rawline
40 Avec :
• -utt : pour obtenir une sortie segmentée en énoncés (par défaut en mots).
• -spk pers : indique qu’on veut utiliser les champs « persName » (nom du locuteur) et
non « alt » (code du locuteur).
• -rawline : pour ne convertir que le texte sans les codes spéciaux de l’oral (silences,
pauses, etc.). Un exemple de résultat obtenu est présenté dans l’exemple 7 ci-dessous.
Exemple 7. Format XML importable par TXM
4.4. Quatrième étape : intégration dans TXM
41 L’intégration dans TXM se fait via l’import XML-TEI Zero + CSV. Il n’y a plus besoin
d’indiquer de CSV comme fichier de métadonnées puisque les informations ont déjà été
intégrées aux données. Nous sélectionnons en revanche l’option « Annoter les
données » puisque l’étiquetage morphosyntaxique n’a pas été réalisé via TEICORPO au
moment de la conversion.
42 Nous proposons une version du corpus en projetant notamment les indications
concernant le nom du locuteur, les éléments paraverbaux (comme les rires par
exemple) et l’empan temporel (optionnel) dans un élément XML spécifique de type
<meta>. En procédant ainsi, ces informations particulièrement pertinentes pour
l’interprétation des données et la lecture de la transcription ne sont pas indexées par
l’outil (paramètre de l’import : plans textuels > hors texte à éditer = meta) mais visibles
dans la partie d’édition du logiciel. Les textes sont ainsi visualisés par TXM sous la
forme présentée dans l’exemple 8. Grâce à l’utilisation des balises <p>, chaque segment
Corpus, 22 | 2021
86
est affiché dans une ligne distincte. L’absence de cette balise entraînerait un affichage
au kilomètre, plus compact mais beaucoup moins lisible.
Exemple 8. Présentation de la visualisation des textes sous TXM
43 L’avantage de ce format est qu’il permet l’écoute des fichiers média (voir extension
MediaPlayer dans https://groupes.renater.fr/wiki/txm-users/public/extensions_beta)
grâce aux attributs « start » et « end » de la balise <u>. Cette écoute peut se faire dans le
concordancier (voir Exemple 9) au moyen d’un clic droit qui proposera l’option « jouer
le média ».
Exemple 9. Visualisation de texte oral sous TXM
44 L’autre avantage du choix de ce format est qu’il permet d’utiliser la fonctionnalité

d’annotation, non disponible au moment de la réalisation de notre étude via le module
d’import de fichiers Transcriber proposé par défaut.
5. Exploitation pour une analyse fine des

interrogatives partielles en français
45 Grâce au travail effectué en amont, nous avons extrait du double corpus ESLO (1&2) les
interrogatives partielles produites par des francophones de deux tranches d’âge :
15-25 ans et 35-55 ans, afin de comparer les emplois de phrases comme (1a-1d). La liste
des mots interrogatifs francophones a été intégrée à une expression régulière dans le
Corpus, 22 | 2021
87
moteur de recherche TXM, puis les extractions obtenues ont été filtrées manuellement
pour ne conserver que les interrogatives non-sujet, finies, et racines (N=617). Le choix
des variantes observées, le détail des critères d’extraction, des annotations syntaxiques
effectuées puis de l’analyse statistique menée sont décrits dans Thiberge, Badin &
Liégeois (soumis) ; nous en résumons les principaux résultats pour mieux illustrer
l’intérêt de la méthodologie présentée ici.
5.1. Une évolution diachronique
46 En croisant les données des corpus ESLO1 et ESLO2, une évolution importante des
pratiques linguistiques peut s’observer. Alors que dans les années 1960 (ESLO1), moins
d’un quart des interrogatives partielles sont in situ (IS, Tu pars quand ?), leur proportion
d’emploi atteint près de 60% dans les années 2000 (ESLO2), toutes personnes et
contextes confondus. En parallèle, la part d’interrogatives antéposées de manière
générale, mais en particulier d’antéposées avec inversion verbe-sujet (FINV, Quand pars-
tu ?) baisse drastiquement, passant de 22% d’emploi à 8% environ.
5.2. Variation diastratique
47 Cette observation est nuancée par un facteur d’âge, déjà observé lors d’expériences
(Thiberge, 2018). Et c’est ici que tout le travail effectué pour projeter les métadonnées
locuteurs sur les extractions du corpus ESLO prend son véritable sens.
48 La différence d’emploi entre IS et antépositions n’est en surface pas très importante
entre groupes générationnels : 42% d’in situ et 15% de FINV chez les 35-55 ans contre
51% d’in situ et 9.5% de FINV chez les 15-25 ans, tous corpus et contextes confondus. Si
l’on regarde en détail en contrastant à la fois les corpus et les groupes d’âge, cependant,
les différences générationnelles se font plus fortes, différemment pour chaque époque.
49 Ainsi, dans les années 1960 (ESLO1), alors que les deux groupes d’âge emploient la
même proportion d’in situ (25% environ), les 35-55 ans emploient presque deux fois plus
de FINV que les 15-25 ans (25% contre 13%). Dans les années 2000 (ESLO2), alors que les
15-25 ans emploient près de 70% d’in situ et 18% d’antéposition simple (F, Quand tu
pars ?), les 35-55 ans emploient « seulement » 55% d’in situ et près de 27% d’antéposition
simple.
50 Les phénomènes de variation sociolinguistique sont souvent observés sous un tel
prisme sociolectal : à tel groupe de personnes (défini par son âge, sa catégorie
socioprofessionnelle, son éducation, etc.) correspondrait une variante principale. C’est
la perspective adoptée dans la plupart des travaux menés en sociolinguistique sur
l’interrogation partielle en français jusqu’ici (Pohl, 1965 ; Terry, 1970 ; Behnstedt, 1973 ;
Ashby, 1977 ; Söll, 1982 ; Coveney, 1996). Cette observation doit cependant elle aussi
être nuancée.
5.3. Variation diaphasique
51 La variation peut en effet aussi être vue comme un outil dont les locuteurs et locutrices
se servent, plus ou moins consciemment, pour influer sur le masque social (persona) que
les personnes à qui ils ou elles s’adressent construisent à leur égard. Cette conception
est à l’origine d’un renouvellement de la littérature sociolinguistique depuis la fin du
Corpus, 22 | 2021
88
XXe siècle (Eckert, 2012, pour une description de ces changements). Dans la lignée de ce
cadre théorique, les stratégies interactionnelles étant nécessairement différentes selon
le contexte d’interaction (influence du public, du niveau de formalité jugé approprié/
nécessaire), nous avons contrasté les trois contextes principaux où se trouvaient les
interrogatives partielles extraites (interviews, N=336 ; école, N=130 ; repas, N=94).
52 Un net contraste apparaît alors, tous groupes d’âge confondus, avec par exemple 72%
d’in situ lors de repas, contre 50% à l’école et à peine 31% en interviews. En contraste,
seulement 3.2% d’antépositions avec inversion sont observées lors des repas, contre
près de 15% à l’école, et 18% en interviews. Ceci s’explique sans doute par les
contraintes sociales pesant sur ces différents contextes : les repas sont des situations
informelles entre proches alors que les interviews, même si elles sont menées à la
maison, sont un type d’interaction très particulier où un ou une scientifique extérieur.e
au cercle social familier pose des questions à l’interrogé.e sur son histoire et ses
habitudes de vie. Les contextes d’école quant à eux semblent un milieu presque
intermédiaire, où un adulte s’adresse à des enfants dans un cadre semi-formel (classes
d’enfants, mais milieu institutionnel). Il est à noter aussi une forte proportion
d’antéposition en « est-ce que » (FESK, Quand est-ce que tu pars ?) en interviews (18%) par
rapport aux deux autres contextes (5% à l’école, 6% en repas).
5.4. À la croisée des phénomènes diastratiques et diaphasiques
53 Au vu de la répartition des extractions d’interrogatives partielles effectuées, il ne

faisait sens, statistiquement, que de croiser les interviews, les tranches d’âge, et les
contextes interactionnels au sein d’ESLO2 même. Ce faisant, il apparaît que les
stratégies d’interrogation partielle sont bien la conséquence de plusieurs facteurs
interagissant entre eux, plutôt que d’un seul dominant. Ainsi, en repas, les 15-25 ans et
les 35-55 ans des années 2000 ont un comportement linguistique similaire (environ 70%
d’in situ contre 30% d’antépositions diverses, avec quelques nuances dans les types
d’antépositions favorisés). En contexte d’interviews cependant, le tableau est différent :
les 35-55 ans utilisent 46% d’in situ, alors que les 15-25 ans en utilisent toujours plus de
58%. Une vision qui associerait les interrogatives partielles in situ à un contexte
informel (repas), par exemple par contraste avec les interrogatives FINV qui seraient
plutôt associées à un contexte formel ou semi-formel, doit donc être nuancée, sinon
écartée. Ou alors, il faut lui associer l’idée que la perception de ce qu’est un milieu
formel et un milieu informel varie selon le groupe d’âge (ou groupe défini par un autre
critère social), ou encore que la variante jugée adaptée à un milieu formel/informel ne
sera pas la même selon ce groupe.
54 En parallèle des considérations plus directement syntaxiques ou sémantiques, les
données sociolinguistiques explorées grâce au corpus ESLO permettent ainsi
d’approfondir les travaux expérimentaux qui dégagent un « sens social » différent aux
différentes variantes disponibles (Thiberge, 2018 ; voir aussi Thiberge & Hemforth,
2019, pour une prolongation). Une personne employant une variante plutôt qu’une
autre, dans un contexte plutôt que dans un autre, véhiculera des informations sociales
différentes vis-à-vis d’elle-même.
Corpus, 22 | 2021
89
6. Conclusion et perspectives
55 L’objectif principal de notre travail était de proposer une méthode de compilation du
corpus ESLO dans le but de le rendre exploitable avec l’outil de textométrie TXM et, à
partir des données obtenues, de présenter une brève analyse de l’usage des énoncés
interrogatifs par les locuteurs du corpus. Notre étude s’est donc focalisée sur la
problématique de l’interopérabilité des données et rend compte des possibilités offertes
en la matière par l’outil TEICORPO. Si, avant cette étude, l’outil proposait déjà une série
d’opérations de conversion permettant d’exploiter et d’explorer un même corpus au
moyen d’une suite d’outils variés, les développements effectués dans le cadre de ce
travail permettent aujourd’hui de fournir à la communauté une version du corpus ESLO
totalement inédite et particulièrement efficace pour mener à bien des travaux dans des
perspectives sociolinguistiques et micro-diachroniques.
56 Exploitant toutes les potentialités de l’outil TXM, la version du corpus ESLO que nous
proposons aujourd’hui pourrait favoriser la réutilisation de données riches qui, selon
nous, n’ont que trop peu été explorées par les chercheurs du domaine. Ainsi, nous
fournissons une version « clé en main » du corpus ESLO permettant d’effectuer des
requêtes multi-niveaux (forme, lemme, catégorie morphosyntaxique) paramétrables en
fonction de la richesse des métadonnées préalablement disponibles au niveau des
enregistrements (époque de recueil et situation d’interaction par exemple) et des
locuteurs (âge, catégorie socioprofessionnelle et niveau d’étude par exemple). L’analyse
des énoncés interrogatifs que nous avons présentée révèle non seulement la pertinence
de l’approche méthodologique mise en place mais illustre également que le corpus
ESLO peut fournir des données particulièrement pertinentes pour l’étude du langage
oral, et ce quel que soit l’axe d’analyse privilégié (sémantique, syntaxique,
sociolinguistique…).
57 Grâce aux développements continuels de l’équipe de TXM et aux retours utilisateurs,
des améliorations internes à TXM sont prévues pour faciliter l’interrogation des corpus
oraux. En effet, l’écoute pourra se faire également au niveau de l’édition et non pas
uniquement en passant par les résultats d’une recherche de concordances, ce qui
permettra par exemple une écoute de l’ensemble du contexte entourant l’élément
recherché. Il ne sera alors plus nécessaire d’utiliser le logiciel VLC, la lecture du signal
sonore étant intégrée à l’outil. Enfin, les fichiers sonores pourront être lus depuis un
serveur et n’auront plus nécessairement à être stockés sur un poste de travail ce qui,
pour un corpus particulièrement volumineux comme ESLO, est un avantage certain.
BIBLIOGRAPHIE
Abouda L. & Skrovec M. (2017). « Du rapport micro-diachronique futur simple / futur
périphrastique en français moderne. Étude des variables temporelles et aspectuelles ». Corela,
HS-21, 1-25.
Corpus, 22 | 2021
90
Ashby W. (1977). « Interrogative forms in Parisian French ». Semania 4 : 35-52.
Barras C., Geo E. & Wu Z. (2001). « Transcriber : Development and Use of a Tool for Assisting
Speech Corpora Production ». Speech Communication, 33 : 5-22.
Behnstedt P. (1973). Viens-tu ? Est-ce que tu viens ? Tu viens ? Formen und Strukturen des direkten
Fragesatzes im Französischen. Tübingen, Narr.
Beyssade C. (2006). « La structure de l’information dans les questions : quelques remarques sur la
diversité des formes interrogatives en français ». Linx, Revue des linguistes de l’université Paris X
Nanterre, 55 : 173-193.
Boeckx C. (1999). « Decomposing french questions ». University of Pennsylvania Working Papers in

Linguistics, 6(1) : 6.
Boersma P. & Weenink D. (2019). « Praat : doing phonetics by computer ». [Computer program].
Version 6.0.37, retrieved 14 october 2019 from http://www.praat.org/.
Coveney A. (1996). Variability in spoken french : a sociolinguistic study of interrogation and negation.
Exeter, Elm Bank Publication.
Coveney A. (2011). « L’interrogation directe ». Travaux de linguistique 2011/2, 63 : 112-145.
Déprez V., Syrette K. & Kawahara S. (2013). « The interaction of syntax, prosody, and discourse in
licensing french wh-in-situ questions », Lingua, 124 : 4-19.
Delaveau A. (2021). « Les phrases interrogatives ». In Abeillé A. et Godard D. (éd.), La grande

grammaire du français, Actes sud.
Eckert P. (2012). « Three waves of variation study : The emergence of meaning in the study of
sociolinguistic variation ». Annual review of Anthropology 41 : 87-100.
Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). « Un grand corpus
oral “disponible” : le corpus d’Orléans 1968-2012 ». TAL, 52(3) : 17-46.
Gadet F. (1996). « Niveaux de langue et variation intrinsèque ». Palimpsestes 10 : 17-40.
Hamlaoui F. (2009). « A prosodic study of wh-questions in french natural discourse », Proceedings

of the LangUE, 27-38.
Heiden S., Magué J.-P. & Pincemin B. (2010). « TXM : Une plateforme logicielle open-source pour
la textométrie - conception et développement ». In S. Bolasco, I. Chiari, & L. Giuliano (éd.), 10th
International Conference on the Statistical Analysis of Textual Data - JADT 2010, 2 : 1021-1032. Rome,
Italy : Edizioni Universitarie di Lettere Economia Diritto.
Jakubowicz C. (2011). « Measuring derivational complexity : New evidence from typically

developing and SLI learners of L1 French ». Lingua, 121(3) : 339-351.
Lamalle C., Martinez W., Fleury S., Salem A., Fracchiolla B., Kuncova A. & Maisondieu A. (2003).
Lexico 3 version 3.41. Outils de statistique textuelle. Manuel d’utilisation. Laboratoire SYLED-
CLA2T, Université de la Sorbonne nouvelle - Paris 3.
Liégeois L., Skrovec M., Abouda L. & Belhoum S. (2018). « Usage du schwa au sein des
constructions de type je vais : une marque d’un processus de grammaticalisation du futur
périphrastique ? », In Colloque de la Société Internationale de Diachronie du Français, Neuchâtel.
MacWhinney B. (2000). The CHILDES Project : Tools for Analyzing Talk. 3rd Edition. Mahwah, NJ :
Lawrence Erlbaum Associates.
Corpus, 22 | 2021
91
Parisse C. & Le Normand M.-T. (2006). « Une méthode pour évaluer la production du langage
spontané chez l’enfant de 2 à 4 ans ». Glossa, 97 : 20-41.
Parisse C., Etienne C. & Liégeois L. (sous presse). « TEICORPO : A Conversion Tool for Spoken
Language Transcription with a Pivot File in TEI ». Journal of the Text Encoding Initiative.
Pohl J. (1965). « Observations sur les formes d’interrogation dans la langue parlée et dans la
langue écrite non littéraire ». Actes du Xe Congrès International de Linguistique et de Philologie
Romanes, Tome 2, Paris, Klincksieck, 501-513.
Ratinaud P. (2009). « Iramuteq : Interface de R pour les Analyses Multidimensionnelles de Textes

et de Questionnaires ». Téléchargeable à l’adresse : http://www. iramuteq. org.
Schmid H. (1995). Improvements in Part-of-Speech Tagging with an Application to German. In

Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland.
Söll L. (1982). « L’interrogation directe dans un corpus en langage enfantin ». In F.-

J. Haussman (éd.), Études de grammaire française descriptive. Heideberg, Groos.
TEI/ISO (2016). ISO 24624:2016 - Language resource management - Transcription of spoken

language. Retrieved from https://www.iso.org/obp/ui/#iso:std:iso:24624:ed-1:v1:en.
Terry R. M. (1970). Contemporary French interrogative structures. Montréal et Sherbrooke, Éd.

Cosmos.
Thiberge G. (2018). « Position du syntagme Wh- en français : réelle optionnalité ou biais

sociolinguistique ? », ELIS, Échanges de Linguistique en Sorbonne 5 : 64-91.
Thiberge G. & Hemforth. B. (2019). « Variation in French Partial Interrogatives : Social meaning
as a key factor ». Poster présenté à la 8th Experimental Pragmatics conference (XPrag 2019).
Edinburgh, Scotland.
Thiberge G., Badin F. & Liégeois L. (soumis). « French partial interrogatives : a microdiachronic
study of variation and new perspectives in a refined pragmatics framework ». Faits de Langue.
Wittenburg P., Brugman H., Russel A., Klassmann A. & Sloetjes H. (2006). « ELAN : a Professional
Framework for Multimodality Research ». In Proceedings of the Fifth International conference on
Language Resources and Evaluation, 1556-1559.
Zimina M. & Fleury S. (2015). « Perspectives de l’architecture Trame/Cadre pour les alignements
multilingues ». Nouvelles Perspectives En Sciences Sociales, 11(1) : 325-353. https://doi.org/https://
doi.org/10.7202/1035940ar.
RÉSUMÉS
Pour répondre aux problématiques engendrées par la diffusion de plus en plus massive des
corpus linguistiques et à l’hétérogénéité de leurs formats, nous proposons une méthode
permettant de prendre en main des corpus langagiers oraux et de les convertir dans un format
permettant leur exploitation outillée. Pour cette recherche, le corpus ESLO nous sert d’exemple
par sa licence de diffusion, son format, son volume et ses atouts sociolinguistiques et
diachroniques. Notre travail se fonde sur la compilation de ce corpus pour le rendre compatible
avec l’outil de textométrie TXM. Nous opérons un ensemble de transformations des données pour
l’utiliser au mieux. Enfin, pour illustrer les apports de ces avancées méthodologiques, nous
proposons une analyse fine et multidimensionnelle de l’usage des interrogatives dans le corpus
ESLO.
Corpus, 22 | 2021
92
To answer the increasing trend of corpora sharing and data format heterogeneity, we present a
method for converting spoken language corpora to several tool formats in order to facilitate
linguistic analysis. For this research, we take as an example the ESLO corpus for several reasons:
its open-source licence, its standard format used for its construction, its size, and its
sociolinguistic and micro-diacronic characteristics. Our study is based on a compilation of the
ESLO corpus in order to make it compatible with the textometric tool TXM. We operate a set of
operations to use all the possibilities the tool offers. Finally, we present a fine-grained and
multidimensional analysis of the interrogatives utterances used in the ESLO corpus.
INDEX
Mots-clés : corpus oraux, interopérabilité, textométrie, XML, interrogatives
Keywords : spoken language corpora, interoperability, text analysis, XML, interrogatives
AUTEURS
FLORA BADIN
LLL, UMR 7270, Université d’Orléans, COMUE Centre-Val de Loire,
CNRS, F- 45065 Orléans, France
LOÏC LIÉGEOIS
CLILLAC-ARP, EA 3967, Université de Paris, Sorbonne Paris
Cité, F-75013 Paris, France
LLF, UMR 7110, Université de Paris, Sorbonne Paris Cité,
CNRS, F-75013 Paris, France
GABRIEL THIBERGE
LLF, UMR 7110, Université de Paris, Sorbonne Paris Cité,
CNRS, F-75013 Paris, France
CHRISTOPHE PARISSE
MODYCO, INSERM, CNRS/Université Paris Nanterre, F 92000,
Nanterre, France
Corpus, 22 | 2021
93
Du recueil à l’exploitation des

corpus de parole « pathologique » :
comment accéder à la variation
physiopathologique ?
Alain Ghio, Gilles Pouchoulin, François Viallet, Antoine Giovanni, Virginie
Woisard, Lise Crevier-Buchman, Fabrice Hirsch, Camille Fauth et Corinne
Fredouille
1. Introduction
1.1. Une nécessité de Sciences Ouvertes
1 Les recherches sur l’évaluation des troubles de la voix et de la parole nécessitent la

structuration et l’organisation d’un large ensemble de données (Schuller, 2015). En
effet, le cadre « pathologique » induit une variation considérable dans ses
manifestations de surface, c’est-à-dire sur les productions sonores. Aux symptômes de
la maladie se superposent les effets variables des traitements ainsi que des phénomènes
de compensation non uniformes des locuteurs. De ce fait, toute généralisation à une
population clinique particulière nécessite l’observation d’un grand nombre de patients
du fait de la très forte variation interindividuelle rencontrée.
2 De plus, la plupart des études nécessite une comparaison à un groupe contrôle qui, dans
la mesure du possible, doit être similaire à celui des patients. Il est ainsi nécessaire dans
le cadre de maladies neurodégénératives d’avoir des groupes contrôle de personnes
âgées sans troubles de la parole, ce qui n’est pas facile à obtenir. Il est donc important
de capitaliser et mutualiser les enregistrements existants.
3 En outre, pour être utilisables, ces enregistrements doivent répondre à de fortes
exigences.
Corpus, 22 | 2021
94
4 (1) des signaux de haute qualité, afin que les distorsions et le bruit ne soient pas
attribués à des dysfonctionnements de la voix ou de la parole.
5 (2) des énoncés suffisamment informatifs. Les voyelles tenues sont nécessaires pour
évaluer le mécanisme de phonation mais la parole continue est incontestablement plus
naturelle du point de vue de la communication orale (Parsa et al., 2001).
6 (3) des informations cliniques, suffisamment précises, pour gérer différents ensembles
de locuteurs et différents contextes d’élocutions (avec/sans médicament, avant/après
rééducation ou opération chirurgicale, durée de la maladie, durée des traitements,
etc.).
7 (4) un grand nombre de locuteurs. Toute généralisation d’une population clinique
spécifique nécessite la prise en compte de nombreux intervenants en raison de la très
grande variabilité inter-locuteurs rencontrée (différentes évolutions de la maladie,
stratégies de compensation individuelle, gravité et spécificité des maladies).
8 Si les problèmes de prise de son ou autres signaux physiologiques sont en passe de
devenir anecdotiques grâce à la diffusion de matériels de qualité et à la meilleure
formation des personnels en charge des enregistrements, si le stockage des signaux de
parole ne constitue plus actuellement un obstacle, si le recours à du matériau
linguistique suffisant se généralise, le maillon faible reste la normalisation et la
structuration des données sur les locuteurs et leurs productions langagières.
1.2. La perte d’information
9 Concrètement, si les données sonores peuvent être accessibles, elles ne présentent au

final aucun intérêt si les liens entre les enregistrements et les caractéristiques cliniques
du locuteur sont rompus ou erronés. Or, cette information clinique doit rester
consultable et pérenne de façon anonyme, ce qui est difficile à maintenir. Il ne faut
surtout pas négliger les contraintes logistiques et organisationnelles qui peuvent peser
sur les personnes en charge des enregistrements dans les établissements hospitaliers.
Les contraintes temporelles des consultations ne permettent pas un contrôle qualité et
un formatage parfait des données, ce qui nécessite un travail supplémentaire dans le
cadre de la constitution de bases de données. La passation puis la saisie d’examens
cliniques reste aussi difficile à rendre systématique. Nous pensons par exemple aux
épreuves neuropsychologiques à garder dans le cadre de maladies neurologiques, à
l’UPDRS dans le cas particulier de la maladie de Parkinson, au GRBAS des dysphoniques,
au Voice Handicap Index, au Speech Handicap Index…
10 La non-connexion généralisée des ordinateurs dans les hôpitaux pour éviter le piratage
rend compliqué la mise à jour d’information et rend impossible le transfert simple de
données. L’expérience montre que seule l’implication de personnels clairement
identifiés pour la constitution de bases de données tels qu’un attaché de recherche
clinique, une orthophoniste, une psychologue, un vacataire… permet d’obtenir des
données exploitables au final.
1.3. Le cadre législatif
11 Le cadre législatif s’avère comme un obstacle à la mise en œuvre de vastes bases de

données de parole pathologique.
Corpus, 22 | 2021
95
12 Alors que le mouvement d’ouverture des données de la recherche scientifique, initié en

2016 par la Loi Lemaire1, vise à une meilleure valorisation de l’investissement public et
compose un axe de travail du Comité pour la Science Ouverte2, il n’en reste pas moins
que les chercheurs sont communément confrontés à des difficultés techniques et
juridiques, dues principalement à la nature des données et au contexte dans lequel
celles-ci ont été produites ou collectées.
13 À cela est venue s’ajouter la promulgation en mai 2018 du Règlement Général européen
sur la Protection de Données (RGPD, 2018)3 renforçant, entre autres, le respect de la vie
privée des personnes déjà exigé par la loi « Informatique et Libertés » (LIL, 1978) 4.
S’appliquant bien entendu aux données scientifiques, les chercheurs appréhendent ces
obligations comme un changement majeur dans leurs activités de recherche, tout en les
obligeant à s’interroger sur la gouvernance et le régime de protection des données
traitées, que celles-ci soient qualifiées de « personnelles » ou « cliniques ».
14 D’un point de vue pragmatique, le contexte législatif et politique en matière de
protection et d’ouverture des données, ne facilite pas l’implémentation et l’utilisation
des bases de données cliniques, sonores et physiologiques. En effet, le respect des
obligations légales et réglementaires soulève de nombreuses interrogations juridiques
et techniques concernant le droit d’auteur et de propriété, l’anonymisation des
données, l’accès et la diffusion des données, etc. (Lalain et al., 2020)
1.4. Un contexte clinique réticent à la Science Ouverte
15 Un obstacle sérieux à la constitution de bases de données de parole pathologique est

l’appréhension liée au partage de données dans les établissements hospitaliers,
indépendamment de la question du secret médical qui peut être maîtrisée. En effet, la
culture de la Science Ouverte y reste peu répandue essentiellement pour des raisons
historiques et de culture scientifique plus compétitive qu’en Sciences Humaines.
Chaque équipe clinique a tendance à exploiter son groupe de patients de façon
exclusive sauf dans le cadre de vastes projets multicentriques (Schuepbach et al., 2013).
Or, du fait que certaines pathologies sont rares et qu’il n’est pas toujours facile
d’enregistrer certains patients, l’acquisition de données vocales pathologiques dans
plusieurs centres reste une condition indispensable à la constitution de cohortes
suffisantes pour en tirer des conclusions généralisables. En revanche, le recours à
divers centres d’enregistrements peut engendrer des variabilités non désirées liées à la
spécificité du service. Il est donc important d’adopter un certain nombre de pratiques
communes et partagées de façon à limiter ces biais contextuels.
16 Dans tous les cas, concernant le partage possible de données, il est indispensable de
gérer de façon fine les privilèges/rôles accordés aux demandeurs de données et ce, en
fonction des desiderata des producteurs de données (les hôpitaux). En effet, seule la
mise en place de tels contrôles précis permettra de lever les réticences légitimes des
partenaires hospitaliers.
1.5. Une reconnaissance interdisciplinaire des contributions
17 Dans la difficile interdisciplinarité à mettre en place dans les recherches sur

l’évaluation des troubles de la voix et de la parole, il est fréquent d’assister à une forme
de dénis de la contribution des partenaires hospitaliers qui peuvent être considérés,
Corpus, 22 | 2021
96
par les chercheurs en sciences du langage ou en traitement automatique, comme de

simples fournisseurs de données exploitées ensuite par les disciplines non cliniques. On
assiste alors à des travaux dans lesquels les producteurs de données hospitaliers
n’apparaissent pas dans la liste des auteurs, minimisant leur contribution pourtant
essentielle dans ces travaux.
18 Il faut donc très clairement se mettre d’accord sur un modèle de licence d’utilisation
des données de façon à ne pas considérer les cliniciens comme de simples fournisseurs
de patients mais au contraire, en les plaçant de façon active dans le processus de
recherche. Il peut être ainsi proposé que l’investigateur clinique principal apparaisse
systématiquement sur tous les travaux qui découlent de la collection de données
enregistrée sous son égide. Cela revêtira divers avantages : une reconnaissance de sa
contribution (et des membres du service), la mise au courant de l’avancée des travaux,
le regard du clinicien, la crédibilité du résultat final liée à la présence du spécialiste
médical.
2. Les corpus de parole pathologique en français

19 Au niveau francophone, il existe un certain nombre d’initiatives locales. En préambule,
nous tenons à rappeler le rôle du « Groupe Francophone d’Étude de la Dysarthrie »
initié en 2004, regroupant des neurologues, ORL, phoniatres, orthophonistes,
ingénieurs et chercheurs, issus des centres de recherche d’Aix-en-Provence, Boulogne-
sur-Mer, Lille, Marseille, Paris, Rouen et Toulouse. Cette initiative précurseur, décrite
en détail dans Jan (2007), mériterait une remise à jour contemporaine pour permettre
de créer une initiative fédératrice au niveau national. En attente, nous présentons
différentes initiatives régionales de façon non exhaustive.
2.1. Le corpus MTO (Marseille Timone ORL) de voix dysphoniques5
20 Pendant plus de vingt ans, le service ORL du CHU de la Timone à Marseille (à présent
localisé sur l’hôpital de la Conception) a enregistré des patients dysphoniques qui
venaient en consultation médicale (Ghio et al., 2012). Pour des raisons logistiques, les
informations sur les patients étaient stockées sur des cahiers dans lesquels sont
indiqués l’identité des locuteurs, leur pathologie, la date de l’examen, le contexte pré/
post-opératoire, etc. Un important travail de numérisation, d’indexation et de saisie
d’informations a permis de constituer une collection de 1530 patients dysphoniques
produisant des voyelles tenues, lisant un texte, chantant une chanson pour un total de
1953 sessions d’enregistrements (certains locuteurs sont enregistrés plusieurs fois).
Cette collection comprend des données provenant de 504 hommes et 1026 femmes. Les
principales pathologies sont les nodules, les paralysies laryngées, les polypes, les
œdèmes de Reinke et les dysphonies dysfonctionnelles à larynx normal. Parmi ces
locuteurs dysphoniques, 332 d’entre eux ont été enregistrés plusieurs fois (ex : avant et
après chirurgie).
21 La plupart des productions vocales (1766 sessions) ont été évaluées de manière
perceptive à l’aide de l’échelle GRBAS (Hirano, 1981). Cette évaluation réalisée par une
unique orthophoniste lors de la session d’enregistrement doit être considérée comme
un niveau approximatif de la dysphonie.
Corpus, 22 | 2021
97
22 Ces données ont notamment contribué à la réalisation de l’International consensus on

basic voice assessment for unilateral vocal fold (Mattei et al., 2018).
2.2. Le corpus AHN (Aix Hôpital Neurologie) de dysarthries
23 Pendant plus de vingt ans, le service de neurologie du CH du Pays d’Aix à Aix-en-

Provence a enregistré des patients dysarthriques qui venaient en consultation
médicale. Un formulaire informatisé a été utilisé pour stocker les données cliniques.
Nous avons actuellement collecté les enregistrements sonores et aérodynamiques de
990 patients et 160 sujets témoins plutôt âgés. La population pathologique est composée
de divers troubles neuromoteurs : AVC, sclérose latérale amyotrophique (SLA), maladie
de Friedreich, maladie de Huntington… La maladie de Parkinson (601) et les syndromes
parkinsoniens (98) représentent l’essentiel de ce corpus car une attention importante a
été portée aux études sur cette maladie (Pinto et al., 2010).
24 L’originalité de ce corpus réside dans :
25 (1) La présence de signaux complémentaires aux signaux sonores, tels que l’intensité
SPL, le débit d’air oral, la pression de l’air sous-glottique, etc. (Ghio et al., 2012)
26 (2) Les différents contextes pour les enregistrements de 601 patients atteints de la
maladie de Parkinson (avec/sans médicament, avec/sans stimulation subthalamique…),
qui représentent 1616 séances d’enregistrement
27 (3) La collecte d’informations précises sur les locuteurs (date et lieu de naissance,
langue maternelle…) et les conditions cliniques (date de détection de la maladie,
localisation des symptômes, traitement régulier et traitement réel lors de
l’enregistrement, résultats des examens cliniques…)
2.3. Le corpus CCM de parole dysarthrique (Paris)
28 Pendant plus de 30 ans (1965-1997), le laboratoire de la voix, INSERM U3 à l’hôpital de

la Salpêtrière, puis à hôpital Laennec et l’hôpital HEGP ont enregistré plus de
700 patients présentant des dysarthries. Ces enregistrements des voix et parole
dysarthriques chez l’adulte ont constitué un corpus appelé CCM (Claude Chevrie-
Muller, directrice du laboratoire).
29 Les patients étaient adressés par les différents services de neurologie pour un
diagnostic de dysarthrie basé sur les troubles de la voix et de la parole. Les dossiers
patients comprenaient les informations personnelles : sexe, date de naissance, lieu de
naissance, langue maternelle et les langues parlées, l’activité professionnelle, ainsi que
le dossier médical partagé avec le service de neurologie. Les caractéristiques de la
pathologie étaient consignées dans le dossier comme le mode d’apparition, la durée
d’évolution, les prises en charge thérapeutiques (médicamenteuses, chirurgicales,
physiothérapies, orthophonies…). Un certain nombre de patients ont été enregistrés
plusieurs fois permettant d’avoir un suivi longitudinal de leur dysarthrie.
30 Les enregistrements acoustiques étaient réalisés sur un enregistreur à deux pistes
Revox permettant d’acquérir le son et l’EGG (électroglottographie). Ces
enregistrements se faisaient en chambre sourde, de façon systématique avec le même
protocole pour tous les patients. Les différentes tâches comprenaient le comptage et
séries automatiques (1 à 10 et les mois de l’année), la lecture d’une phrase intonative, la
Corpus, 22 | 2021
98
lecture d’une liste de mots explorant les différentes situations de co-articulation, la

tenue des 5 voyelles cardinales, la lecture des syllabes avec toutes les consonnes du
français (CV - VCV), la lecture d’un texte (conte pour enfant), la description d’une
histoire en image et de la parole spontanée. Ces données ont été numérisées dans le
cadre de l’ANR DesPhoAPaDy (08-Blan-0125) en 2009 (Fougeron et al., 2010). On a ainsi
pu constituer une collection de plus de 1000 enregistrements avec dossier médical
associé, lui aussi ayant été numérisé. Les principales pathologies étaient la Sclérose
Latérale Amyotrophique (SLA), la maladie de Parkinson et les pathologies extra-
pyramidales (Huntington), les ataxies cérébelleuses, la maladie de Friedreich, les
dysarthries vasculaires (accidents vasculaires cérébraux).
31 L’accès aux données acoustiques dans leur contexte clinique permet de développer les
connaissances pour la caractérisation perceptive et acoustique des dysphonies et
dysarthries (Crevier-Buchman, 2005 ; Crevier-Buchman, 2019).
2.4. Le corpus C2SI (Carcinologic Speech Severity Index) de

patients post cancer des VADS (Toulouse)
32 Dans le cadre du projet C2SI (Carcinologic Speech Severity Index) financé par l’INCA, le
service d’oncoréhabillitation de l’Oncopole à Toulouse a collecté une série
d’enregistrements de la parole de patients post cancer des VADS. Un tel corpus est
utilisé pour mesurer l’impact du cancer de la cavité buccale et pharyngée sur la
production de la parole (Woisard et al., 2020). Il permettra à terme d’évaluer la qualité
de vie des patients après le traitement. Le corpus est composé d’enregistrements audio
de 134 sessions avec les métadonnées associées (taille et localisation de la tumeur,
traitement…). Plusieurs niveaux d’intelligibilité et de compréhensibilité des fonctions
langagières ont été évalués : pseudomots (Ghio et al., 2018), phrases, fonctions
prosodiques (Nocaudie et al., 2018), lecture de texte. Des taux d’évaluation perceptive
de jurys naïfs et d’experts sont en cours d’élaboration ainsi que des analyses
automatiques (Laaridh et al., 2018). Il est destiné à fournir aux orthophonistes et aux
médecins des outils objectifs, qui prennent en compte l’intelligibilité des patients ayant
reçu un traitement anticancéreux (chirurgie et/ou radiothérapie et/ou
chimiothérapie). Ce corpus C2SI sera mis à la disposition de la communauté scientifique
par le biais du groupe d’intérêt scientifique Parolothèque6.
2.5. Le corpus Paroles disfluentes du laboratoire Praxiling

(Montpellier)
33 Si le bégaiement fait l’objet d’un grand nombre d’études dans les pays anglo-saxons,
cela est moins vrai dans le monde francophone. Cette situation peut s’expliquer par le
fait qu’il s’agit d’un trouble ne touchant qu’environ 1% de la population (Didirkova,
2016) et que, contrairement aux autres altérations de la parole, aucune structure ne
centralise sa prise en charge. C’est donc pour favoriser la recherche sur le bégaiement
que le laboratoire Praxiling, aidé par un financement du consortium CORLI, a proposé
le corpus intitulé Paroles disfluentes (Didirkova et al., 2017).
34 Paroles disfluentes se compose de 38 fichiers audio au format .wav, chacun des fichiers
étant accompagné d’une transcription au format Textgrid. Ces enregistrements portent
Corpus, 22 | 2021
99
sur 17 locuteurs adultes qui bégaient, autrement dit 13 hommes et 4 femmes âgés en
moyenne de 32 ans (écarts-type : 11 ans).
35 Les données proviennent de plusieurs études qui portaient sur les situations de double
tâche en parole bègue ou encore sur la description articulatoire et acoustique du
bégaiement. En conséquence, les tâches enregistrées consistaient en de la lecture, de la
parole spontanée et des résumés de contes pour enfants.
36 Le corpus est actuellement disponible, après demande, sur la plateforme Ortolang, à
l’adresse suivante : https://www.ortolang.fr/market/corpora/paroles-disfluentes. Il
sera complété par les données actuellement recueillies dans le cadre du programme
ANR BENEPHIDIRE (ANR-18-CE36-0008, responsable : Fabrice Hirsch), une fois celui-ci
arrivé à son terme.
2.6. Le corpus de l’Institut de Phonétique de Strasbourg
37 En 2014, suite à un projet financé (initiative d’excellence « projets attractivité » -

porteuse : Béatrice Vaxelaire), l’équipe Parole et Cognition (Institut de Phonétique de
Strasbourg) a procédé à l’inventaire et l’archivage systématique de ses corpus en parole
pathologique pour les verser sur la Plateforme Unistra de Linguistique et de Phonétique
Clinique. Ce projet au long cours repose sur des investigations comparatives entre des
productions linguistiques normales, produites par des sujets sains, et des productions
déviantes, émises par des patients atteints de diverses pathologies de la parole et du
langage. Plusieurs corpus enregistrés pour des travaux de thèse ont ainsi pu être
sauvegardés en procédant à un travail d’anonymisation et d’archivage systématique des
métadonnées pour permettre leur exploitation en recherche. À ce jour, les données
acoustiques annotées (à l’aide de textgrid) versées dans cette collection en parole
pathologique concernent les personnes qui bégaient (Hirsch, 2007), les productions
d’enfants porteurs de fentes labio-palatines (Béchet, 2011), la voix après
thyroidectomie (Fauth, 2012 et Xiu, 2018), et les productions de patients glossectomisés
(Zaouali, 2019).
3. Préconisation d’organisation en base de données

3.1. Les concepts de base de données
38 L’intérêt principal de la construction d’une base de données (BD) regroupant

différentes ressources est de pérenniser les informations et de permettre à un groupe
de travail d’échanger et d’améliorer progressivement la base de données via un serveur
de données. Le modèle de la BD s’est appuyé sur une analyse fonctionnelle. Il a été
réalisé dans un environnement clinique, basé sur des corpus empiriques, tels que ceux
présentés précédemment.
39 Si les concepts autour des bases de données sont familiers aux informaticiens, ce n’est
pas le cas pour les non-spécialistes7 (Ghio et al., 2012). Il est fréquent de lire qu’une
collection d’enregistrements sonores est une BD. Pourtant, une BD se distingue d’un
corpus ou d’une collection par une structuration et une organisation cohérente qui est
régie par un modèle qui peut être partagé par un groupe de personnes et qui peut être
stocké dans un support informatique. Une telle architecture organisée facilite la
sélection des données, en utilisant des critères précis. Cela nous amène à aborder la
Corpus, 22 | 2021
100
notion de système de gestion de base de données (SGBD) qui doit gérer ces concepts
selon le modèle de données. Ce système a pour objet de (1) clarifier le partage des
données entre les différents utilisateurs, (2) protéger la confidentialité des données si
nécessaire, (3) répondre aux requêtes et (4) fournir différentes langues d’accès en
fonction du profil de l’utilisateur.
40 Dans notre cas, nous avons opté pour un modèle relationnel, considéré comme le
modèle de base de données le plus simple et le plus élégant. Sa simplicité vient de
l’organisation tabulaire des données, atomistique et minimaliste, rendant l’architecture
des données intuitive, les éléments de chaque table étant liés par des relations.
41 Le modèle conceptuel adopté et le choix des tables ont émergé par l’usage en
concertation avec les cliniciens. Le choix des métas données sélectionnées est le
résultat de l’informatisation des usages en dossier papier et des données de gestion. En
effet, la plupart des études cliniques impose la tenue d’un cahier d’observation (Case
Report Form, CRF8) qui rassemble les données individuelles de chaque patient.
Traditionnellement, ce CRF est sous la forme de fiches au format papier remplies au
moment de l’examen. L’exploitation ensuite de ces données nécessite une saisie
informatisée manuelle des informations. Cet usage est, d’une part, chronophage mais
peut aussi être source d’erreurs ou peut engendrer des pertes de données.
L’informatisation d’un CRF en e-CRF (format électronique) est donc une bonne solution
et passe par une organisation en base de données suffisamment généraliste pour
s’adapter à des contextes différents (usages variables selon les centres hospitaliers, les
services, les objectifs des études). Un autre exemple d’adaptation aux nécessités
cliniques réside dans les relations que nous avons mises en place entre les tables de la
base de données. Si par exemple, en neurologie, un diagnostic peut être directement
mis en lien avec un locuteur (ce qui se traduit en termes de base de données par une
jonction des tables ‘tbl_speaker’ et ‘tbl_diagnoses’, Figure 1), cette propriété est
directement liée au fait qu’une maladie neurodégénérative telle que la maladie de
Parkinson une fois diagnostiquée ne disparaitra pas et restera « attachée » à la
personne. En revanche, un diagnostic ORL tel que des nodules ou des polypes pourra
être vrai au temps T mais ce diagnostic pourra ensuite disparaitre si ces nodules se
résorbent suite à un repos vocal, après une rééducation orthophonique ou une
chirurgie (voir corpus MTO). Attacher un diagnostic directement à un locuteur n’est
donc pas adapté. C’est ainsi qu’est apparue la nécessité d’introduire la notion de
‘session’ (Figure 1) qui représente l’état du patient à un temps T (celui de la visite
médicale durant laquelle il est enregistré). Cette session est alors associée au locuteur.
Les diagnostics et les symptômes ne sont pas directement associés au locuteur mais ils
le sont à la session. Lors des requêtes qui permettent de sélectionner des
enregistrements répondant à un critère, on ne cherchera pas directement les locuteurs
qui répondent à un choix (ex : locutrices porteuses de nodules) mais on s’attachera à
rechercher les sessions attachées à des locutrices durant lesquelles un diagnostic de
nodules a été porté.
42 Comme le résume la figure 1, la BD est composée d’une cinquantaine de tables qui
donnent les informations civiles (date et lieu de naissance, lieu de résidence…),
sociolinguistiques (langue maternelle, professions…), médicales (symptômes,
diagnostic, traitements habituels), sessions d’enregistrement (date, lieu, opérateur…),
contexte d’enregistrement (avec/sans traitement), protocole expérimental (tâche,
instructions au participant, contenu linguistique, dispositifs utilisés…), documents
Corpus, 22 | 2021
101
associés (données sonores) et éventuellement des notes d’évaluation (perceptive,

instrumentale…).
Figure 1. Modèle conceptuel de données préconisé pour la gestion de base de données de parole
pathologique issu de la mise en conformité RGPD du modèle proposé par (Ghio et al., 2012). Afin de
garantir la sécurité et la protection des données personnelles, cette mise en conformité a nécessité
la suppression de la table ‘tbl_medical_history’ qui contenait des informations trop personnelles
ainsi que la table ‘tbl_civil’ qui permettait de lever l’anonymat.
43 Pour standardiser certaines informations et pour suivre les bonnes pratiques de la

constitution d’un CRF8, un ensemble de listes permet de collecter des informations
normalisées telles que professions, langues, pays/régions, symptômes, thérapies,
diagnostics, facteurs de risque, localisation des pathologies, contextes expérimentaux,
méthodes d’évaluation… L’intérêt de ces listes fermées vise à éviter l’augmentation des
dénominations pour une même terminologie. Par exemple, un diagnostic de « maladie
de Parkinson » peut être noté comme PD, maladie de Parkinson, Parkinson, Park… Il est
plus efficace de proposer une liste fermée où « maladie de Parkinson » est assigné
comme diagnostic n° 11 (valeur arbitraire fixe). Tous les patients parkinsoniens seront
alors référés à cet identifiant. Un avantage important d’un tel codage est la
compatibilité internationale. En effet, si tous les éléments des listes sont traduits,
l’ensemble du contenu de la base de données est opérationnel et adapté à la nouvelle
langue. Une liste des diagnostics habituels relatifs aux troubles de la voix et de la parole
est proposée mais cette liste peut être augmentée en fonction des besoins. Des détails
sont disponibles dans (Ghio et al., 2012).
3.2. Le stockage des informations cliniques
44 Comme mentionné ci-dessus, l’étude de la parole pathologique nécessite

spécifiquement la collecte et le stockage d’informations précises – personnelles et
Corpus, 22 | 2021
102
médicales – relatives aux locuteurs et aux contextes médicaux dans lesquels elles ont
été enregistrées. Ces informations sont essentielles pour pouvoir espérer appréhender
correctement les multiples sources de variation à la fois linguistique et clinique que
l’on retrouve dans la parole pathologique. Par exemple, étudier la variation induite par
la maladie de Parkinson n’est pas possible si le chercheur n’a accès qu’aux
enregistrements sonores. Il aura besoin, en plus des informations socio-
démographiques traditionnelles, de connaitre l’ancienneté de la maladie de chaque
locuteur, l’évaluation motrice effectuée par le neurologue (UPDRS), la sévérité de la
dysarthrie, le traitement médicamenteux usuel, l’état médicamenteux au moment de
l’enregistrement (délai de la dernière prise de médicament)… En effet, seule la
connaissance de ces informations permettra de comparer ce qui est comparable (voir
corpus AHN ou CCM). À l’inverse, essayer de dégager de l’information linguistique sur
un corpus de locuteurs parkinsoniens dont on ignore l’ancienneté de la maladie, le
traitement thérapeutique, l’état moteur… ne permettra en aucune façon d’expliquer la/
les variation(s) observées dans ce type de parole. Il en est de même pour l’étude des
productions langagières de patients ayant un handicap de parole post cancer de la
cavité buccale et de l’oro-pharynx (voir corpus C2SI ou Strasbourg). Les variations
impactant l’intelligibilité de ces patients doivent être mises en perspective avec la
localisation précise de la tumeur, la taille de la tumeur, le geste chirurgical pratiqué, la
possible reconstruction, la dose de radio et/ou chimiothérapie, le délai depuis la
chirurgie… Bref, le stockage des informations cliniques sous une forme organisée en
base de données est incontournable pour l’étude de la variation physiopathologique
dans la parole. Par conséquent, il est recommandé d’obtenir un maximum
d’informations sur les aspects suivants :
3.2.1. Informations sociolinguistiques
• Sexe, année de naissance

• Lieux de naissance et de résidences successives
• Langue maternelle et langues parlées
• Statut professionnel ou niveau d’études
• Main dominante
• Remarques générales (par ex. Difficulté de lecture, analphabétisme, surdité, port de lunettes,
bégaiement, pratique du chant, niveau de sport…)
45 Pour illustrer l’importance de ce type d’information : nous avons été confrontés dans
certains cas de dysarthrie, au phénomène d’élision du /r/ qui peut être similaire à celui
que l’on retrouve dans les accents « créoles » ; seule la connaissance des lieux de
naissance et de résidence du locuteur nous a permis de savoir si ce phénomène était
pathologique ou sociolinguistique.
3.2.2. Informations médicales générales
46 Il est conseillé de compléter les informations des locuteurs par des commentaires sur
l’état du patient.
• Suivi médical (ex : état psychologique, syndrome dépressif, hallucinations, troubles du
comportement et/ou cognitifs, autres troubles)
• Traitements thérapeutiques (ex : chirurgie, médecine, orthophonie, électrophysiologie…)
Corpus, 22 | 2021
103
• Facteurs pouvant provoquer ou favoriser la maladie (ex : Alcool et tabac, pollution sonore et
atmosphérique, allergie respiratoire, abus vocal, stress, intubation…).
47 Ces informations permettent d’inclure ou d’exclure des patients en fonction des
finalités de l’étude.
3.2.3. Informations symptomatiques
48 Les symptômes du patient et les signes observés par le médecin doivent également être
indiqués (ex : dysphonie, dysarthrie, tremblements, fuite glottique, trouble cognitif,
trouble du traitement auditif), ainsi que la date à laquelle ils ont été observés, donnant
éventuellement une indication de certitude et si nécessaire, la localisation anatomique
(par exemple mâchoires, membre supérieur droit / gauche-supérieur, membre droit /
gauche-inférieur…).
3.2.4. Informations pathologiques
49 Les diagnostics posés par le médecin (ex : nodule, polype, maladie de Parkinson,
maladie de Charcot, traumatisme crânien…), la date de leur établissement, avec une
indication possible de certitude, et si nécessaire, leur anatomie la localisation (par
exemple, à gauche/droite, lobe frontal, lobe pariétal…) doit également être indiquée.
3.2.5. Informations contextuelles
50 Le contexte clinique dans lequel le patient est enregistré représente une information
importante à collecter afin d’effectuer des analyses rigoureuses et significatives. Voici
quelques-uns des contextes expérimentaux à collecter :
• Statut pharmacologique (par exemple, la date et l’heure du dernier médicament, la nature et
la quantité habituelle du médicament et la médication pendant l’enregistrement du
patient…)
• État de neurostimulation activé et désactivé
• Situation pré/post-opératoire (par exemple la date de l’opération…)
• Informations complémentaires (par exemple « le patient a une bronchite, porte un corset, a
eu son médicament il y a 4 heures, a oublié ses lunettes… »)
3.2.6. Protocole
51 En raison de la diversité des caractéristiques acoustiques liées aux troubles de la voix et

de la parole, nous proposons de distinguer d’une part les tâches d’élocution vocale
produites par les locuteurs (ex : chant, voyelle soutenue, lecture d’un texte, répétition,
description d’image, discours spontané…) et d’autre part le contenu linguistique (ex :
voyelle /a/, jours de la semaine, Rainbow Passage…). De plus, il est intéressant et
pertinent de stocker les instructions données pour les différentes tâches (ex : rapide,
lent, cadence habituelle…). Si l’utilisation d’un système de gestion de base de données
est recommandée pour la traçabilité et l’exploitation des métadonnées, la
standardisation du protocole qui vise à collecter des données sonores ou physiologiques
est difficilement compatible avec le contexte clinique. En fait, un protocole complet
comprenant la production de voyelles tenues, d’efforts vocaux, de phrases, de
répétitions, de textes lus, de parole spontanée, est difficilement réalisable en raison de
la fatigabilité causée par de trop longs efforts. Il est donc préférable d’adapter les
Corpus, 22 | 2021
104
tâches d’élocution à l’état de dysfonctionnement du locuteur. Par exemple, une étude

sur la nasalité est particulièrement intéressante dans le cas de la dysarthrie paralytique
en raison de l’immobilité du voile du palais mais moins importante dans la maladie de
Parkinson pour laquelle les exercices phonatoires peuvent être préférés en raison de
l’hypophonie.
3.2.7. Document
52 Dans la table « document », les noms de fichiers d’enregistrement, les caractéristiques

(par exemple la fréquence d’échantillonnage, le format, la qualité d’un fichier de
signal…), ainsi que le nom de l’expérimentateur sont stockés. Un document peut être
un fichier signal mais également être composé de transcriptions orthographiques,
d’annotations ou d’images associées à la tâche. Les questions de format de fichiers de ce
type de données sont détaillées dans Ghio et al. (2012). Concernant les noms de fichiers,
il n’est pas pertinent de coder toutes les informations lors de la dénomination d’un
fichier car il peut générer des noms extrêmement complexes. Il faut cependant
normaliser ces noms et obtenir une dénomination unique, non ambiguë et si possible
universelle non dépendante de la spécificité du corpus. Le principe que nous proposons
est le suivant :
53 (FRA-)MTO-000052-03-L02.wav dont le nom est suffisamment informatif pour déduire
que les données proviennent du corpus MTO, locuteur n° 52. Le document est le fichier
wave relatif à la troisième session d’enregistrement de ce locuteur, exécutant la
deuxième tâche de lecture (L) pendant la session. Pour obtenir des informations sur le
contexte, la pathologie, l’âge, l’origine géographique, la catégorie socioprofessionnelle,
les traitements, le contexte pharmacologique, il est nécessaire d’interroger la base de
données créée à cet effet.
3.2.8. Évaluations
54 Les évaluations perceptives ou instrumentales sont des ressources informatives qui

doivent être stockées.
3.3. Aspects juridiques
55 Nous ne nous intéressons pas ici à la protection des bases de données c.-à-d. ni au droit
d’auteur reposant sur la structure originale de la base de données, ni au droit sui generis
destiné à protéger l’investissement financier, matériel et humain entrepris par le
producteur de la base de données.
56 Comme décrit plus haut, une base de données dédiée aux troubles de la voix et de la
parole est amenée à être alimentée par différentes sources9 de données de natures
diverses (clinique, sonore, physiologique…) collectées auprès de patients et de sujets
contrôles. Cette approche multicentrique oblige le producteur de base de données à
s’assurer au respect des conditions de collecte et de cessation des différents corpus qui
la composent. Cette obligation est d’autant plus essentielle que la plupart des données
des corpus sont dites « sensibles »10 car elles informent sur l’état de santé des patients
enregistrés durant leur parcours de soins courants.
Corpus, 22 | 2021
105
3.3.1. Quelles obligations à l’égard du producteur de données ?
57 La livraison d’un corpus en vue d’être migré dans une base de données, doit être
formalisée sous une forme contractuelle ou conventionnelle, entre le service
hospitalier collecteur des données et le producteur de la base de données. Cet acte
juridique bilatéral permet d’organiser la cession des droits de propriété intellectuelle,
et plus particulièrement des droits d’auteur, dans le respect des exigences légales. Il
permet également de définir la gestion des aspects relatifs à la confidentialité et à la
gouvernance des données.
58 Tel que décrit au paragraphe « Une reconnaissance interdisciplinaire des
contributions » et même si cela n’est pas une obligation à respecter, nous préconisons
fortement de conditionner la diffusion d’un jeu de données pour un requérant avec
l’accord du producteur des données et la délivrance d’une licence d’utilisation. Cette
licence permet de fixer les modalités spécifiques de la mise à disposition des données,
ainsi que l’obligation de citer l’investigateur clinique dans tous les travaux publiés et
fondés sur les données collectées sous son égide.
3.3.2. Peut-on anonymiser une BD dédiée aux troubles de la voix et de la parole ?
59 De par le caractère « sensible » des données collectées dans les services hospitaliers,
l’anonymisation des données doit s’imposer avant leur migration dans la base de
données et ce, même si le consentement éclairé est recueilli auprès des patients en
préambule de la passation hospitalière. L’objectif est que le producteur de la base de
données n’ait aucune possibilité de pouvoir identifier nominativement les personnes
enregistrées dans celle-ci. Le renforcement de la protection des données et des
personnes (RGPD, loi Jardé) nous impose d’adopter des solutions limitant l’usage de
texte libre pour préférer l’utilisation de listes à choix forcé, de cases à cocher, ce qui
impacte directement le modèle conceptuel de la base de données.
60 Afin de ne pas diffuser d’informations permettant d’identifier (in)directement les
personnes, différentes techniques d’anonymisation peuvent être appliquées sur la base
de données :
• Hachage du nom et du prénom (algorithme SHA-2 i.e. Secure Hash Algorithm) 11
• Minimisation des données (suppression de l’anamnèse, de l’histoire personnelle…)
• Généralisation des lieux de résidence au département, de la date de naissance à l’année, de la
profession à la catégorie socio-professionnelle…
61 Cependant certaines de ces techniques présentent des limites ne permettant pas
d’atteindre une anonymisation complète des données. Un risque résiduel pour les
personnes concernées peut encore exister. Tout d’abord, l’anonymat par hachage ne
peut être garanti de façon absolue en raison de risques d’attaque par « force brute »
consistant à tester toutes les solutions possibles pour établir une table de
correspondance. Ensuite, l’anonymisation des données sonores ne peut être envisagée
dans le cadre de la recherche scientifique. En effet, même si la CNIL définit la voix 12
comme une donnée personnelle permettant d’identifier indirectement une personne
physique, le bruitage ou la déformation des enregistrements sonores entraverait
considérablement toute recherche en linguistique et plus particulièrement en
phonétique clinique. C’est la raison pour laquelle le terme pseudonymisation 13 est plus
approprié dans ce cadre (Lalain et al., 2020).
Corpus, 22 | 2021
106
3.3.3. Comment gérer l’accès et la diffusion des données ?
62 La mise en œuvre d’une base de données scientifiques répond aux besoins de la

recherche en offrant une meilleure mutualisation et partage des connaissances
destinées aux chercheurs pour réaliser leurs travaux. Un chercheur doit donc pouvoir
accéder à la base de données, la consulter et requérir la mise à disposition de
collections de données extraites par des interrogations multicritères. Pour cela,
l’implémentation d’une stratégie d’accès sécurisé et de confidentialité est indispensable
pour
63 [1] garantir le contrôle par modération des utilisateurs autorisés à accéder à la base de
données et
64 [2] définir les conditions d’accès aux données qui dépendent de leur caractère
« sensible » et des objectifs des utilisateurs.
65 Nous préconisons de soumettre la gestion des comptes de connexion à la base de
données, à une modération « scientifique » conduite par le producteur de la base de
données c.-à-d. un contrôle préalable visant à s’assurer de la validité de l’identité
déclarée et des finalités de recherche. Cette modération pourra éventuellement
associer le producteur des données.
66 Concernant les demandes de mise à disposition de collections de données, celles-ci
doivent être encadrées par un contrat ou une licence qui, en raison du caractère
« sensible » des données, doit être adapté aux risques d’utilisations des données non
conformes à la loi et à l’éthique. Concrètement, pour établir ce type de licence, nous
nous sommes appuyés sur la licence du Speech and Language Data Repository (Figure 2)
adaptée au contexte clinique en intégrant notamment la reconnaissance des
producteurs hospitaliers. Hormis le fait de garantir l’intégrité, la sécurité et la
confidentialité des données, le demandeur devra aussi s’engager à ne pas « dés-
anonymiser » les données transmises, ni à les diffuser.
Figure 2. Licence du Speech and Language Data Repository (SLDR/Ortolang ; www.sldr.fr/)
Corpus, 22 | 2021
107
67 De plus, en cas d’un transfert de données hors de l’Union Européenne 14, il faudra
prévoir un encadrement contractuel spécifique si le pays de destination n’offre pas « un
niveau de protection adéquate reconnu par l’UE »15.
4. Conclusion
68 Bien que l’état de l’art fasse apparaître d’importantes avancées dans la compréhension
des mécanismes de production de la voix et de la parole, il existe un besoin continu
d’améliorer l’analyse des locuteurs sains et pathologiques. Une collecte de données à
grande échelle est nécessaire pour prendre en compte la variabilité « normale » et
« pathologique » de la parole. Une base de données structurée de la parole pathologique
représente un jalon dans la progression vers ces objectifs.
69 Une telle base de données peut fournir aux développeurs et aux utilisateurs de logiciels
cliniques des données de référence pour former la base sur laquelle différentes
méthodes peuvent être comparées. Les bases de données ont été au cœur du
développement des dispositifs automatiques de reconnaissance de la parole et des
locuteurs. Une base de données des troubles de la parole peut permettre de fournir un
élan similaire pour les applications cliniques.
70 À ce jour, il existe une réalisation technique développée au Laboratoire Parole et
Langage à Aix-en-Provence baptisée Speedi DB16 (speech disorders database). La genèse
de ce projet est détaillée dans Ghio et al. (2006). On y trouve notamment les difficultés
rencontrées dans le rassemblement des données et les arbitrages qui ont dû être fait. Ce
serveur de base de données intègre pour le moment les corpus français AHN, MTO et
CCM décrits précédemment. Une interface utilisateur permet de faire des requêtes
complexes telles que « je cherche les extraits de lecture de la chèvre de monsieur
Seguin de locuteurs masculins de plus de 60 ans, francophones natifs, droitiers, atteint
de la maladie de Parkinson ». Si la vocation de ce serveur de base de données de parole
pathologique n’a pas vocation à accueillir toutes les données, il peut servir de modèle
de référence pour des initiatives pouvant revêtir une couverture nationale. À ce
propos, cet outil a été utilisé pour les projets ANR DESPHO-APADY (2009-2012),
TYPALOC (2012-2015) et RUGBI (2019-2023).
71 À l’image de ce qui s’est fait dans divers autres pays, il serait important que la
communauté française, voire francophone, se mobilise de façon fédératrice pour se
doter de bases de données de parole pathologique permettant aux neurologues, ORL,
phoniatres, orthophonistes, phonéticiens et informaticiens de la parole de faire
progresser les connaissances, les procédures d’évaluations ou les technologies vocales
adaptées au handicap. L’implication de la communauté française dans une dynamique
européenne telle que DELAD17 (« Database Enterprise for Language And speech
Disorders ») serait aussi la bienvenue.
Corpus, 22 | 2021
108
BIBLIOGRAPHIE
Bechet M. (2011). Perturbation de la production des occlusives chez des locuteurs présentant une division
palatine ou labio-palatine, Thèse de doctorat, Univ. Strasbourg.
Crevier-Buchman L. (2005). « La modélisation de la parole normale ». In Ozsancak C.,

Auzou P. (éd.), Les troubles de la parole et de la déglutition dans la maladie de Parkinson, Solal, 63-93.
Crevier-Buchman L. (2019). « Clinical Illustrations of Voice Quality ». In Esling J.H., Moisik S.R.
(éd.), Voice Quality The Laryngeal Articulator Model, Cambridge University Press.
Didirkova I. (2016). Parole, langues et disfluences : une étude linguistique et phonétique du bégaiement.
Thèse de Doctorat, Univ. Montpellier.
Didirkova I., Hirsch F. & Luxardo G. (2017). « Paroles disfluentes : corpus de parole produite par
des personnes qui bégaient », Colloque Corpus oraux, corpus écrits : pratiques croisées. Montpellier.
Fauth C. (2012). Perturbation de la production de la parole suite à une opération de la glande thyroïde,
Thèse de doctorat, Univ. Strasbourg.
Fougeron C., Crevier-Buchman L., Fredouille C., Ghio A., Meunier C., Chevrie-Muller C. et al.
(2010). « Developping an acoustic-phonetic characterisation of dysarthric speech in French ».
Proceed. LREC, 2831-2838.
Ghio A., Teston B., Viallet F., Jankowski L., Purson A. et al. (2006). « Corpus de parole
pathologique, état d’avancement et enjeux méthodologiques », TIPA, Laboratoire Parole et
Langage, 25 : 109-126.
Ghio A., Pouchoulin G., Teston B., Pinto S., Fredouille C., De Looze C., Robert D., Viallet F. &
Giovanni A. (2012). « How to manage sound, physiological and clinical data of 2500 dysphonic and
dysarthric speakers ? », Speech Communication, 54(5) : 664‑679.
Ghio A., Lalain M., Giusti L., Pouchoulin G., Robert D. et al. (2018). « Une mesure d’intelligibilité
par décodage acoustico-phonétique de pseudo-mots dans le cas de parole atypique », JEP, Aix-en-
Provence, France, 285-293.
Hirano M. (1981). Clinical Examination of Voice. Springer Verlag.
Hirsch F. (2007). Le bégaiement : Perturbation de l’organisation temporelle de la parole et conséquences

spectrales, Thèse de doctorat, Univ. Strasbourg.
Jan M. (2007). « L’évaluation instrumentale de la dysarthrie en France », In Les dysarthries,

Auzou P., Rolland-Monnoury V., Pinto S., Ozsancak C. (éd.), Solal, 119- 122.
Laaridh I., Fredouille C., Ghio A., Lalain M., Woisard V. (2018). « Automatic Evaluation of Speech
Intelligibility Based on i-vectors in the Context of Head and Neck Cancers », Interspeech :
2943-2947.
Lalain M., Pouchoulin G. (2020). « De la protection des données à la protection de la personne :

Réflexions sur l’impact des nouvelles réglementations sur la collecte des corpus », Revue Corpus,
22.
Mattei A., Desuter G., Roux M., Lee B.-J., Louges M.-A., … A. Giovanni, (2018). « International
consensus (ICON) on basic voice assessment for unilateral vocal fold paralysis », European Annals
of Otorhinolaryngology, Head and Neck Diseases, 135(1S).
Corpus, 22 | 2021
109
Nocaudie O., Astésano C., Ghio A., Lalain M., Woisard V. (2018). « Évaluation de la
compréhensibilité et conservation des fonctions prosodiques en perception de la parole de
patients post traitement de cancers de la cavité buccale et du pharynx », JEP, Aix-en-Provence,
196-204.
Parsa V., Donald G.J. (2001). « Acoustic Discrimination of Pathological Voice : Sustained Vowels
Versus Continuous Speech », J Speech Hear Res. 44(2): 327-339.
Pinto S., Ghio A., Teston B., Viallet F. (2010). « La dysarthrie au cours de la maladie de Parkinson.
Histoire naturelle de ses composantes : dysphonie, dysprosodie et dysarthrie », Revue
Neurologique, 166(10) : 800-810.
Schuepbach W.M.M., Rau J., Knudsen K., Volkmann J., Krack P., Timmermann L., Hälbig, …
Deuschl G. (2013). « Neurostimulation for Parkinson’s Disease with Early Motor Complications »,
New England Journal of Medicine, 368(7) : 610‑622.
Schuller B.W. (2015). « Speech Analysis in the Big Data Era ». In : Král P., Matoušek V. (éd.), Text,
Speech, and Dialogue. TSD 2015. Lecture Notes in Computer Science, vol. 9302. Springer.
Woisard V., Astésano C., Balaguer M., Farinas J., Fredouille C. et al. (2020). « C2SI corpus : a
database of speech disorder productions to assess intelligibility and quality of life in head and
neck cancers », Language Resources and Evaluation, Springer Verlag.
Xiu N. (2018). Perturbation de la production de la parole chez le patient atteint d’une paralysie laryngée :
Données acoustiques et aérodynamiques, Thèse de doctorat, Univ. Strasbourg.
Zaouali H. (2019). Etude acoustique de la production de la parole chez des patients glossectomisés, Thèse
de doctorat, Univ. Strasbourg.
NOTES
1. Loi n° 2016-1321 du 7 octobre 2016 Pour une République numérique. [En ligne]
2. Axe 2 du CoSO : structuration et ouverture « autant que possible » des données de la recherche.
[En ligne]
3. Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016. [En ligne]
4. Loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés. [En ligne]
5. Partie extraite de notre article en anglais (Ghio et al., 2012).
6. https://www.irit.fr/parolotheque/
7. Partie extraite de notre article en anglais (Ghio et al., 2012).
8. https://www.recherchecliniquepariscentre.fr/wp-content/uploads/2016/12/DIU-CP-
CRF-09-12-2016-partie-1-et-2-S.-Makhlouf.pdf
9. Une source de données correspond à un corpus produit par un service hospitalier appelé
« producteur de données » ; chaque corpus est identifié à un centre au sein de la base de données.
10. Catégorie particulière des données personnelles. [En ligne]
11. Le hachage n’est pas réversible c.-à-d. la reconstitution de l’entrée hachée n’est plus possible.
Néanmoins, il est utilisé pour l’appariement de données entre une nouvelle source et la base de
données, et ainsi éviter les doublons qui seraient susceptibles de constituer un biais scientifique.
12. Définition de la donnée personnelle. [En ligne]
13. « La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci
de façon directe. En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à
des données tierces. », https://www.cnil.fr/fr/lanonymisation-de-donnees-personnelles. Par
exemple, il est aisé de comprendre que l’identification d’un notaire de village dont on connait
l’âge et dont on a un extrait de parole est possible en regroupant ces sources d’information.
Corpus, 22 | 2021
110
14. Attention, une simple consultation des données à distance constitue un transfert !
15. La liste des pays offrant une protection adéquate figure sur le site internet de la CNIL. [En
ligne]
16. https://speedi-db.lpl-aix.fr/physio
17. https://delad.ruhosting.nl
RÉSUMÉS
L’étude des troubles de la voix et de la parole est sortie du cadre de la recherche clinique. Par
l’observation des dysfonctionnements, les chercheurs non cliniciens confrontent les résultats de
leur recherche établis sur des corpus de parole « normale » à des situations de
dysfonctionnement. Le défi est immense car le cadre « pathologique » induit une variation
considérable dans ses manifestations de surface. Toute généralisation à une population clinique
particulière nécessite l’observation d’un grand nombre de patients du fait de la très forte
variation interindividuelle. Il est donc important de capitaliser et mutualiser les enregistrements
existants. Or pour être utilisables, ces enregistrements doivent répondre à de fortes exigences. Le
maillon faible reste la normalisation et la structuration des données sur les locuteurs et leurs
productions langagières. Concrètement, si les données sonores sont souvent accessibles, elles ne
présentent au final aucun intérêt si les liens entre les enregistrements et les caractéristiques
cliniques du locuteur sont rompus ou erronés. L’objectif de ce travail est de présenter différentes
actions de terrain et de proposer des recommandations pour la structuration des données
sonores, physiologiques et cliniques dans le cas de corpus de parole issue de patients atteints de
troubles de la voix et de la parole.
Voice and speech disorders are now studied beyond the framework of clinical research. By
observing dysfunctions, non-clinical researchers compare the results of their research
established on "normal" speech with dysfunctional situations. The challenge is important
because the "pathological" framework induces a great variation in its audible manifestations.
Any generalization to a particular clinical population requires the observation of a large number
of patients due to the very strong interindividual variation. It is therefore important to capitalize
and share existing records. However, to be usable, these recordings require a high level of
quality. The main problem remains the standardization and structuring of data on speakers and
speech productions. Concretely, if the audio data is accessible, it is useless if the links between
the recordings and the speaker’s clinical characteristics are broken or erroneous. The objective
of this work is to present various actions in the field and to propose recommendations for the
structuring of sound, physiological and clinical data in the case of speech corpus from patients
with voice and speech disorders.
INDEX
Keywords : clinical phonetics, voice speech disorders, database
Mots-clés : phonétique clinique, troubles de la voix, troubles de la parole, base de données
Corpus, 22 | 2021
111
AUTEURS
ALAIN GHIO
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
GILLES POUCHOULIN
FRANÇOIS VIALLET
Service de neurologie, Centre Hospitalier du Pays d’Aix, France
ANTOINE GIOVANNI
CHU Timone-Conception, APHM, Marseille, France
VIRGINIE WOISARD
CHU Toulouse, Oncopole Toulouse, France
LISE CREVIER-BUCHMAN
Laboratoire de Phonétique et Phonologie, UMR7018, Hôpital Foch, Paris, France
FABRICE HIRSCH
Praxiling, Université de Montpellier 3, France
CAMILLE FAUTH
LILPA, Université de Strasbourg, France
CORINNE FREDOUILLE
LIA, Université d’Avignon, France
Corpus, 22 | 2021
112
Réduction des segments en français

spontané :
apports des grands corpus et du
traitement automatique de la parole
Yaru Wu et Martine Adda-Decker
1. Introduction
1 La variation de la parole est souvent observée en parole continue (Kohler, 1990 ; Duez,
1997 ; Ernestus, 2000 ; Johnson, 2004 ; Adda-Decker et al., 2005 ; Adda-Decker et al.,
2007 ; Dilley et Pitt, 2010 ; Meunier et Espesser, 2011 ; Nguyen et Adda-Decker, 2013 ;
Meunier et Bigi, 2016). Manifestée par des changements phonétiques, la variation
phonologique soulève des questions linguistique et extralinguistique intéressantes.
Grâce aux travaux en reconnaissance automatique de la parole, nous avons à
disposition de grands corpus de parole transcrite et ces corpus peuvent être exploités à
des fins de recherche en phonétique et en linguistique de l’oral de manière plus
générale. Avec les outils technologiques, nous avons aujourd’hui la possibilité d’étudier
cette variation à grande échelle et d’examiner des phénomènes de réduction, qui ont
été peu étudiés jusqu’à présent, à l’aide de grands corpus.
2 L’objectif de cette étude est d’examiner la variation de la parole à l’aide de nouvelles
méthodes qui proviennent de la reconnaissance automatique de la parole, et d’apporter
de nouvelles connaissances sur la variation des prononciations, et en particulier les
phénomènes de réduction, en parole continue. Cette étude comporte deux volets : un
volet méthodologique dans le but de répondre à la question « Comment étudier la
variation de la parole naturelle à partir de grands corpus oraux ? » et un volet plus
linguistique motivé par la question : « Qu’observons-nous dans le signal de la parole en
ce qui concerne la réduction ? ».
Corpus, 22 | 2021
113
2. Méthodologie
3 Dans cette section, nous présenterons la méthode de recherche qui servira à étudier
différents phénomènes en linguistique en utilisant l’alignement automatique issu de la
reconnaissance automatique de la parole. Nous allons également y résumer quelques
détails techniques concernant cette méthode, ainsi que décrire le corpus utilisé pour
notre étude.
2.1. Alignement forcé
4 La méthodologie utilisée dans notre étude repose sur l’alignement forcé entre le signal
de parole et sa transcription manuelle. Lors de l’alignement forcé, la suite de mots à
mettre en face du signal est connue, imposée (d’où le terme « forcé ») par opposition à
la reconnaissance automatique où la suite de mots est inconnue et doit être déterminée
par le système qui se sert dans ce cas-là du modèle de langue. L’alignement forcé
permet de segmenter automatiquement le signal acoustique en mots et en phones 1
composant ces mots. Les frontières des segments2 sont obtenues par le meilleur
appariement entre le signal de parole et sa transcription à l’aide de modèles ou de
références acoustiques correspondant à cette transcription et d’un algorithme de mise
en correspondance.
5 La modélisation acoustique de la parole consiste à établir des représentations
statistiques du signal sous forme de séquences de vecteur de paramètres – typiquement
des paramètres MFCC3 (Bridle et al., 1974 ; Davis & Mermelstein, 1980) ou PLP 4
(Hermansky, 1990) – calculés à un pas régulier (en général toutes les 10 ms) à partir du
signal acoustique. Ces représentations simulent la sensibilité de la perception humaine.
Dans cette étude, nous ne parlerons pas des vecteurs issus des approches
d’apprentissage profond (deep learning) qui ont permis de réaliser un saut qualitatif
important dans la modélisation acoustique des systèmes de reconnaissance
automatique de la parole depuis le début des années 2000 (Bengio, 2009 ; Lecun et al.,
2015). Pour les travaux impliquant l’alignement forcé, nous resterons avec le
formalisme des modèles acoustiques de phones par les modèles de Markov cachés
(Rabiner, 1989) qui a prévalu dans les systèmes de reconnaissance automatique à grand
vocabulaire (~ 100 000 mots) autour des années 1990-2010. N’importe quel mot de la
langue se trouve facilement modélisé d’un point de vue acoustique dès lors que sa
prononciation est spécifiée dans le dictionnaire du système : il suffit de concaténer les
modèles HMM de phones correspondant à cette prononciation. Un modèle HMM de
phone comporte typiquement trois états pour rendre compte de l’évolution du son au
cours du temps (début, milieu, fin) : le début est influencé par le contexte gauche (les
sons précédents), la fin par le contexte droit (les sons suivants) et le milieu est
considéré comme l’état stable le plus spécifique du son modélisé. Chaque état d’un
HMM peut boucler sur lui-même. Cette boucle peut être vue comme un point d’orgue
(en notation musicale) sur chaque état : un état dans le modèle peut correspondre à un
seul vecteur ou une séquence plus ou moins longue de vecteurs dans le signal de parole
à aligner, avant de le quitter pour l’état voisin. Ainsi, les modèles HMM combinés à
l’algorithme de Viterbi (Forney, 1973 ; Rabiner, 1989) permettent de rendre compte des
déformations temporelles dans la parole qui sont inévitables en raison des variations de
débit et de rythme. L’instant de passage du dernier état d’un modèle de phone au
Corpus, 22 | 2021
114
premier état du modèle de phone suivant détermine la position de la frontière

segmentale. De manière analogue, la frontière de mot est déterminée par l’instant de
passage du dernier état du modèle du mot au premier état du mot suivant.
6 La figure 1 illustre l’implémentation des différents niveaux de modélisation impliqués
pour aligner le mot « cinéma » sur le signal représenté sous forme de séquence de
vecteurs acoustiques. Le mot en forme orthographique obtient une représentation
phonémique via le dictionnaire de prononciation. Chaque symbole phonémique est
associé à un modèle acoustique (un modèle HMM ou Hidden Markov Model à 3 états)
qui synthétise les caractéristiques des sons telles que observées dans les corpus
d’apprentissage. Lors de l’alignement, chaque état doit générer (ou absorber suivant le
point de vue) au moins un vecteur acoustique, ce qui va correspondre à une durée
minimale de 10 ms par état et donc à une durée minimale de 30 ms pour un modèle de
phone. Les frontières de phone (de mot) correspondent aux endroits de passage d’un
modèle de phone (de mot) à l’autre. Nous obtenons ainsi en sortie un signal segmenté
en mots et en phones avec des informations sur la durée des mots et des phones. Il faut
cependant garder à l’esprit que l’alignement forcé ne peut produire que des étiquetages
en phones qui sont prévus par le dictionnaire de prononciation.
Figure 1. Illustration de la modélisation de la parole à travers les différents niveaux de

représentation dans un système d’alignement automatique de la parole (Adda-Decker et Lamel,
2018).
7 L’alignement forcé et le dictionnaire de prononciation peuvent être utilisés pour

étudier différentes hypothèses linguistiques et pour analyser de grands corpus (Adda-
Decker et al., 1999 ; Boula de Mareüil et Adda-Decker, 2002 ; Van Bael et al., 2007 ;
Schuppler et al., 2014 ; Wu et al., 2017 ; Tahon et al., 2018). Avec cette méthode, l’absence
ou la présence du segment en question est décidée automatiquement par l’alignement
forcé. Même si la décision automatique de présence/absence ne possède pas la finesse
d’une oreille phonétique experte, le fait de pouvoir exploiter facilement de grands
corpus permet de dégager des tendances, si possible en fonction de différents facteurs,
comme le style de parole. Des études comparatives de ces tendances sont très
instructives et permettent souvent des interprétations linguistiques.
2.2. Prononciation de référence et variantes
8 D’un point de vue méthodologique, nous voulions retenir comme prononciation de

référence des prononciations telles que définies et utilisées par les chercheurs en
Corpus, 22 | 2021
115
linguistique et psycholinguistique. Ainsi, nous avons choisi le dictionnaire de

prononciation de référence Lexique380 (New et al., 2007), afin d’examiner nos résultats
indépendamment du dictionnaire de prononciation d’un système d’alignement
spécifique (en l’occurrence celui du LIMSI). Ce choix entraîne cependant de ne
considérer que les mots qui sont présents à la fois dans Lexique380 et dans le
dictionnaire de prononciation du système d’alignement. Ce dernier a une couverture de
100% par rapport aux corpus de parole traités (par construction) alors que Lexique380
ne couvre pas l’ensemble, et en particulier, il n’inclut pas les noms propres. Ainsi, pour
notre étude sur la propension à la réduction des segments, 3% des mots-tokens ont été
exclus, concernant notamment des noms propres qui n’ont pas été répertoriés dans
Lexique380.
9 Le dictionnaire de prononciation du système d’alignement contient ces prononciations
de référence, appelées aussi formes canoniques (ou formes sous-jacentes suivant le
contexte). Si un mot n’est représenté que par sa prononciation canonique, l’étiquetage
du système d’alignement ne sera pas capable de révéler des différences phonétiques. En
effet, l’alignement automatique découpera le signal du mot en autant de segments que
de phonèmes dans la forme canonique. Les segments résultants, nommés d’après les
étiquettes phonémiques de la forme canonique, sont de durées nécessairement plus
courtes que si cette réalisation pouvait être alignée avec une variante réduite
(impliquant moins de phonèmes). Afin de pouvoir produire des étiquetages
automatiques révélant des différences de réalisation, il est nécessaire d’introduire des
variantes (Boula de Mareüil et Adda-Decker, 2002 ; Schuppler et al., 2008 ; Schuppler et
al., 2014). Pour la langue française, les variantes ajoutées dans le dictionnaire du
système concernent essentiellement la présence optionnelle de schwa et de consonnes
de liaison. Certaines variantes supplémentaires ont été introduites pour prendre en
compte des phénomènes de réduction connus et fréquents, comme par exemple la
réalisation du mot « il » comme [i] permettant ainsi la présence ou absence du segment
[l] en fonction du signal de parole à aligner.
10 Pour examiner nos résultats d’alignement quant à la présence/absence d’un segment,
nous comparerons la prononciation alignée (et qui reflète au mieux la production des
locuteurs) avec la prononciation de référence (celle donnée dans Lexique380). Ainsi,
nous aurons une prononciation alignée (forme de surface) et une prononciation de
référence (forme sous-jacente) pour chaque mot examiné. Par exemple, le mot
« quatre » /katʁ/ admet comme variante réduite [kat] dans le dictionnaire du système.
Si une occurrence de ce mot est alignée comme [kat], nous pourrons détecter que le
segment /ʁ/ est « absent » par comparaison des deux formes de prononciation
(Figure 2).
Corpus, 22 | 2021
116
Figure 2. Le mot « quatre » /katʁ/ avec (a) et sans (b) /ʁ/ ou schwa, aligné par le système de
transcription du LIMSI.
2.3. Méthode de recherche proposée : méthode ascendante
11 La démarche traditionnelle en linguistique consiste à formuler une hypothèse précise

et ensuite à vérifier si cette hypothèse est confirmée. Cette démarche est tout à fait
pertinente, mais se limite de fait aux hypothèses que nous sommes capables de
formuler. Dans ce cas, on peut introduire des variantes spécifiques dans le dictionnaire
de prononciation du système d’alignement afin de tester leur pertinence dans les
corpus de parole à disposition. La réalisation (ou non) du schwa, de la liaison ou du /ʁ/
dans différents contextes rentrent bien dans ce paradigme d’analyse, que nous
nommons méthode descendante (Wu et al., 2017, 2019 ; Wu, 2018 ; Boula de Mareüil et
al., 2003 ; Adda-Decker et al., 2012).
12 Nous pensons que, en ce qui concerne la réduction en parole spontanée, il reste de
nombreuses zones d’ombre pour lesquelles nous sommes en mal de formuler des
hypothèses claires. En effet, en parole spontanée, beaucoup de facteurs pourraient être
en interaction et influencer la production réelle des locuteurs. Par conséquent, il est
difficile de prévoir précisément les moments et les endroits où les réductions
pourraient avoir lieu. Pour cette situation, nous proposons la « méthode ascendante »
qui vise à exploiter ce qui est en général considéré comme un point faible de
l’alignement automatique. En effet, comme nous l’avons décrit plus haut, à l’issu de
l’alignement automatique, les zones de parole réduite se caractérisent par des
séquences de segments de courte durée (typiquement de 30 ou 40 ms) et par un manque
de précision phonétique, à la fois concernant l’identité du segment et la localisation des
frontières.
Corpus, 22 | 2021
117
13 La méthode ascendante se veut être une méthode généraliste capable de détecter

n’importe quelle séquence de parole temporellement réduite par rapport à une
prononciation canonique (ou complète). En fait, Meunier et Bigi (2016) ont appliqué
une méthode similaire pour l’étude de segments courts, mais sans ajouter une
contrainte sur le nombre de segments réduits consécutifs comme nous le proposons ici.
Nous l’utilisons ici pour non seulement localiser les segments courts, mais aussi pour
détecter des suites de segments courts. Nous avons évoqué précédemment le fait que la
parole spontanée comprend de nombreuses occurrences d’articulation affaiblie, réduite
incluant éventuellement des prononciations raccourcies. Si, lors de l’alignement forcé,
nous obtenons des suites de segment de phones de 30 (ou 40) ms, de telles séquences
révèlent un « mismatch », c’est-à-dire une inadéquation entre le modèle acoustique
prévu par le dictionnaire et l’articulation en effet réalisée. Il se peut qu’une variante de
prononciation réduite typique ne soit pas incluse dans le dictionnaire de
prononciation. Dans tous les cas, cette situation de « mismatch » est suspecte, soit du
point de vue du système d’alignement et des techniques de modélisation, soit du point
de vue linguistique : une séquence de segments courts pointe potentiellement sur des
zones de réduction temporelle avec des productions peu décrites dans la littérature.
14 Un exemple typique en parole spontanée concerne la suite de mots « je (ne) sais pas »
souvent prononcée par une séquence monosyllabique à peu près comme [ʃpa]. Dans cet
exemple, la réduction englobe une suite de mots courts avec un même segment
pouvant chevaucher deux ou plusieurs mots : la fricative [ʃ] produite peut s’expliquer à
la fois par la fricative théoriquement voisée du mot « je » dont elle garde le lieu
d’articulation que par la fricative [s] du mot « sais » dont elle garde le trait de
voisement – on est en présence d’une assimilation régressive de voisement et
progressive du lieu d’articulation. Pour la reconnaissance automatique de la parole, il
est envisageable d’agglutiner les mots concernés afin de former une nouvelle entrée
lexicale dans le dictionnaire « je_sais » à laquelle on peut attribuer les prononciations
réduites [ʃɛ] et [ʃ]. Cependant, de telles formes réduites ne sont en général pas
modélisées correctement dans les dictionnaires des systèmes, et le résultat de
l’alignement forcé sera dans ce cas une suite de segments de durée minimale de 30 ms
afin de placer tous les phones de son modèle acoustique trop long correspondant à la
prononciation complète [ʒənəsɛpa] ou [ʒəsɛpa] en omettant la particule de négation
« ne ».
15 En dehors d’hypothèses linguistiques précises, nous pourrons profiter du fait que des
suites de segments courts sont produites automatiquement par l’alignement forcé dans
les zones de forte réduction, peu importe leur origine ou leur nature précise. Grâce à
l’alignement forcé, nous obtenons des suites de segments courts de 30 (ou 40) ms.
L’approche ascendante permet ainsi de filtrer les données en deux parties : une partie
avec des séquences de segments considérés de durée « normale » et une partie avec des
séquences de segments courts considérés comme pointant potentiellement sur des
phénomènes de réduction. Contrairement à l’approche descendante où nous pouvons
espérer une segmentation et un étiquetage plus précis, avec l’approche ascendante,
nous focalisons notre intérêt sur des zones dont les qualités de segmentation et
d’étiquetage sont fortement suspectées de poser problème et ainsi, de nous révéler des
phénomènes de réduction peu connus et rarement décrits dans la littérature.
Corpus, 22 | 2021
118
2.4. Corpus
16 Le corpus Nijmegen Corpus of Casual French (NCCFr) (Torreira et Ernestus, 2010) a été
utilisé pour cette étude. Il contient 35 heures de conversations familières entre amis,
incluant au total 46 locuteurs répartis en 24 femmes et 22 hommes. Tous les locuteurs
sont des étudiants à l’université âgés d’environ 20 ans, sauf deux locutrices de 40 et de
50 ans. Les enregistrements ont été effectués dans le studio d’enregistrement du
Laboratoire de Phonétique et Phonologie (UMR7018, CNRS – Sorbonne Nouvelle) à
Paris. L’alignement forcé automatique a été effectué à l’aide du système de
reconnaissance automatique de la parole du LIMSI (Gauvain et al., 2005).
3. Analyses et résultats sur la propension à la

réduction des segments
17 Dans cette section, nous nous focaliserons sur les résultats obtenus en utilisant la
méthode ascendante définie dans la section 2.3 qui consiste à localiser les séquences
d’au moins trois segments consécutifs de 30 ou 40 ms et d’étudier l’identité des
segments impliqués.
18 Afin de tenir compte du fait que notre dictionnaire utilisé pour l’alignement peut
inclure des variantes réduites, nous discuterons la propension à la réduction des
segments en prenant en compte non seulement les segments réduits tels que mis en
évidence par l’alignement automatique dans la forme de surface, mais également les
segments absents (en comparant la prononciation de référence ou sous-jacente avec la
prononciation alignée ou de surface). Au-delà d’une analyse au niveau des segments,
nous aimerions apporter de nouvelles connaissances sur la propension à la réduction
de séquences de segments en analysant des « suites » (>= 3 segments) de segments
courts et des segments qui sont absents dans l’alignement. Nous aimerions identifier les
phones qui ont le plus tendance à être réduits et inversement ceux qui résistent le plus
à la réduction.
19 La figure 3 illustre la distribution de la durée des segments dans le corpus NCCFr. Plus
de 20% des segments ont une durée de 30 ms dans ce corpus, ce qui est la durée
minimum permise par l’alignement. Il est cependant intéressant de noter que ce taux
sous-estime la proportion de segments sujets à réduction, dans la mesure où un certain
nombre de réductions est directement pris en compte par l’alignement d’une variante
de prononciation plus courte. Outre ces segments de durée minimale, le sommet de la
distribution se trouve à 50 ms. Cette distribution du corpus NCCFr composé de
conversations entre amis est similaire à celle du corpus téléphonique en parole
spontanée illustrée par Adda-Decker et Lamel (2018), avec les mêmes caractéristiques
de réduction temporelle (fort taux de segments de 30 ms > 20%, valeur modale de la
distribution localisée très à gauche, à 50 ms).
Corpus, 22 | 2021
119
Figure 3. Distribution de la durée des segments dans le corpus conversationnel NCCFr (Torreira et
Ernestus, 2010). L’abscisse concernant la durée segmentale est donnée en secondes. L’ordonnée
indique le pourcentage de cette durée dans le corpus.
20 Le dictionnaire de prononciation inclut des variantes réduites pour des phénomènes

fréquents et récurrents, comme la prononciation de surface [i] pour le mot « il » (chute
du -l final). De ce fait, si nous voulons identifier si un mot est réduit en nous basant
uniquement sur les suites de segments courts, nous risquons d’ignorer les mots pour
lesquels la prononciation réduite a été utilisée lors de l’alignement forcé (cf. figure 4).
Figure 4. Illustration de l’effet de l’alignement sans ou avec variantes de prononciation sur le

résultat de segmentation. Si le dictionnaire inclut des prononciations réduites (ici [i] en plus de [il]
pour « il »), l’alignement forcé pourra utiliser ces variantes réduites et aura moins tendance à
produire des segments courts (ici 60 ms pour [i], au lieu de 30 ms avec prononciation de référence
[il]).
Dans la prononciation de surface obtenue par l’alignement automatique, certains

segments de la prononciation de référence peuvent être absents (« Abs ») et d’autres de
durée qu’on considère comme normale ou longue (> 40 ms, que nous nommons
« Nrm ») ou courts que nous nommons « Alrt » (s’il s’agit de suites d’au moins trois
segments consécutifs de 30 ou 40 ms). Ces différents étiquetages ont été attribués
automatiquement. Notons que pour les suites limitées à seulement un ou deux
segments courts, les segments en question ne sont pas retenus dans notre catégorie
« Alrt », mais sont également catégorisés comme « Nrm ». Ce choix est motivé par le
fait que l’alignement forcé peut avoir de multiples raisons de générer de temps en
temps un segment court (notamment lorsque le modèle acoustique ne correspond pas
Corpus, 22 | 2021
120
bien au signal de parole en présence, ce qui peut être lié à divers bruits de bouche,
bruits de fonds, parole superposée…). En revanche, plus le nombre de segments dans la
séquence de segments courts est élevé, plus il y a de raisons de s’intéresser à la zone
ainsi localisée : soit il y a une erreur due à l’alignement, et il est intéressant d’en
connaître la cause ; soit la zone en question pointe sur un cas de décalage entre la
prononciation de référence et la réalisation de surface. C’est ce dernier cas qui nous
intéresse plus particulièrement. Ainsi, afin de ne retenir que des zones de parole où la
présomption de réduction est élevée, notre critère de sélection vise les séquences d’au
moins trois segments courts consécutifs, soit à l’intérieur d’un mot, soit au-delà des
frontières de mot.
21 Le tableau 1 illustre un exemple selon différents cas que nous pouvons rencontrer à
l’issue de l’alignement.
Tableau 1. Exemple du mot « ministre » sur la catégorisation des segments dans cette étude
Ex. /stʁ/ du mot « ministre » /ministʁ/
→ [s] segment en alerte : « Alrt »

• Si les segments [s], [t] et [ʁ] (qui se suivent) sont alignés
→ [t] segment en alerte : « Alrt »
chacun avec une durée courte (30 ou 40 ms)
→ [ʁ] segment en alerte : « Alrt »
• Si les segments [s] et [t] sont alignés → [s] segment sans alerte : « Nrm »
chacun avec une durée courte (30 ou 40 ms) → [t] segment sans alerte : « Nrm »
et le [ʁ] est aligné avec une durée de 50 ms → [ʁ] segment sans alerte : « Nrm »
22 Les segments « Abs » et « Alrt » seront utilisés comme indice pour identifier les
segments qui ont une propension à la réduction et les segments « Nrm » seront utilisés
comme indicateurs de segments « stables ».
23 Afin de découvrir quels sont les segments qui ont tendance à mieux résister à la
réduction (en tenant compte de la chute des segments préalablement détectés par le
système5 et la réduction potentielle non prévue par le système), nous avons décidé de
recourir à la prononciation de référence (Lexique380) de New et al., 2007. La
comparaison entre prononciation de référence et prononciation alignée nous permet
d’affiner la mesure objective du taux de segments réduits.
24 Nous avons également établi une stop list6 qui inclut les mots fréquents ayant 2000
mots-tokens ou plus dans le corpus (voir tableau 2). Cette stop list inclut plus de 55% des
mots-tokens du corpus NCCFr (207309 occurrences sur 378515). Elle contient 41 mots-
types. Nous comparerons nos résultats avant et après la suppression des mots de la stop
list, ce qui permet d’illustrer l’importance relative des mots les plus fréquents sur la
propension à la réduction.
25 Nous présenterons tout d’abord nos résultats sur la propension à la réduction des
segments sans considérer le fait que certains segments soient absents (« Abs ») dans
l’alignement. Dans un deuxième temps, nous présenterons nos résultats sur la
propension à la réduction des segments en regroupant les segments « Alrt » et les
segments « Abs », et nous comparerons ces segments avec les segments « Nrm ». Nous
Corpus, 22 | 2021
121
comparerons également les résultats avant et après la suppression des mots de la stop
list.
Tableau 2. Mots d’au moins 2000 occurrences inclus dans la stop list
Orthographe est je tu que pas de ça
Prononciation de référence ɛ ʒə ty kə pa də sa
Occurrences 16381 10178 9685 8804 8439 8345 8228
Orthographe mais et il le ouais la a
Prononciation de référence mɛ e il lə wɛ la a
Occurrences 8135 7114 6524 6175 5981 5820 5654
Orthographe les on non à un sais des
Prononciation de référence le ɔ̃ nɔ̃ a ɛ̃ sɛ de
Occurrences 5305 4856 4839 4794 4607 4185 3986
Orthographe quoi fait l' en elle moi y
Prononciation de référence kwa fɛ l ɑ̃ ɛl mwa i
Occurrences 3915 3671 3637 3634 3547 3521 3519
Orthographe qui ils une oui enfin ai là
Prononciation de référence ki il yn wi ɑ̃ fɛ̃ ɛ la
Occurrences 3302 3282 2982 2902 2688 2591 2494
Orthographe dans pour t' si plus vois
Prononciation de référence dɑ̃ puʁ t si ply vwa
Occurrences 2477 2376 2365 2278 2062 2031
26 Dans ce qui suit, nous tenterons d’identifier quels segments ont le plus tendance à
disparaître en parole spontanée familière. Pour cela nous calculons le taux de segments
réduits par type de segment. Par exemple, le taux de segments réduits pour le phonème
/t/ est donné par le rapport entre le nombre de segments de la consonne /t/ ayant été
étiquetés comme « Alrt » (et éventuellement « Abs ») et le nombre total de segments de
la consonne /t/. Toutes les figures montrant les taux de segments réduits par voyelles
ou par consonnes gardent une échelle fixe sur l’axe des ordonnées (entre 0 et 40% de
réduction).
27 La figure 5 illustre les taux de segments réduits de chaque voyelle sans prendre en
compte l’absence des segments dans l’alignement7 et la figure 6 illustre les taux de
segments réduits de chaque consonne. Notons que nous avons regroupé les /e/ et les /
Corpus, 22 | 2021
122
ɛ/ en raison de l’alternance parfois « libre » entre ces deux phonèmes en français 8.

Nous avons également procédé au regroupement des /o/ et des /ɔ/ pour la même
raison. Les schwas et les /œ/ ont été regroupés car ces deux segments sont représentés
par le même symbole dans l’alignement (c.-à-d. prononciation de surface). Ici, le taux
de segments réduits représente les segments qui font partie des suites de segments
courts (segment « Alrt ») par rapport à tous les segments de la forme de référence :
Figure 5. Taux de segments réduits pour les voyelles (schwa exclu) sans prendre en compte
l’absence des segments dans l’alignement. Le nombre d’occurrences de ces segments est illustré
sur les barres.
Figure 6. Taux de segments réduits pour les consonnes sans prendre en compte l’absence des
segments dans l’alignement. Le nombre d’occurrences de ces segments est illustré sur les barres.
28 Dans la figure 5 les voyelles sont triées par taux de segments réduits décroissant. Tous
les taux restent inférieurs à 15% et il n’y a pas de voyelle dont le taux soit
remarquablement élevé. Les voyelles orales ont des taux plutôt autour de 10%. Nous
remarquons que les voyelles nasales ont tendance à être moins réduites que les voyelles
orales, avec des taux autour de 5%. D’après cette figure, il n’y a pas de tendance
spécifique remarquable parmi les voyelles orales.
Corpus, 22 | 2021
123
29 Contrairement à la figure des voyelles, la figure des consonnes (figure 6) montre

quelques taux dépassant les 15%. Ainsi, nous remarquons que les segments qui résistent
le moins à la réduction sont les semi-consonnes /ɥ, j, w/ et la fricative labiale voisée /
v/. Arrivent ensuite les liquides dont les taux de segments réduits sont cependant
inférieurs à ceux observés pour les semi-consonnes et le /v/, et qui sont plutôt proches
des consonnes obstruantes alvéolaires /z/ et /d/.
30 Ces premiers résultats ne comptabilisent pas les réductions prises en charge lors de
l’alignement forcé par les variantes réduites. Il nous paraît donc plus juste d’inclure
dans les taux de segments réduits également les segments omis lors de l’alignement du
fait que la prononciation réduite est déjà connue du système (typiquement, [i] pour
« il ») et qu’elle a été utilisée (cf. figure 4). Dans la suite, nous allons recalculer les taux
de segments réduits par type de segment en prenant en compte à la fois les segments
localisés dans les suites de segments courts et les segments qui n’ont pas été alignés en
raison de la présence de variantes. Pour ce faire, nous devrons tout d’abord calculer la
différence entre les occurrences observées de la forme de référence et celle de la forme
de surface. Le taux de segments réduits représentera ainsi les segments « Abs » et ceux
qui font partie des suites de segments courts (segment « Alrt ») par rapport à tous les
segments de la forme de référence :
Figure 7. Taux de segments réduits pour les voyelles (schwa exclu) en prenant en compte l’absence
des segments dans l’alignement
Corpus, 22 | 2021
124
Figure 8. Taux de segments réduits pour les consonnes en prenant en compte l’absence des
segments dans l’alignement
31 La figure 7 reprend le cas des voyelles comme dans la figure 5. Mais dans le cas présent,
nous comptabilisons non seulement les séquences « Alrt » comme relevées uniquement
par l’alignement de séquences de segments courts, mais on tient compte également du
cas des segments manquants (par le biais des prononciations réduites comme expliqué
dans la figure 4). On remarque clairement une différence entre l’ordre des voyelles
dans les deux figures 5 et 7 : le /y/ perd sa première position au profit du /ø/. Nous
observons une augmentation considérable des taux de segments réduits pour ces deux
voyelles, dépassant maintenant 15% par rapport à ce qui a été observé dans la figure 5.
Cela est lié au fait que des variantes existent pour quelques mots fréquents dans le
dictionnaire de prononciation, comme par exemple, « peut-être » [ptɛtʁ] sans /ø/.
32 La figure 8 illustre le taux de segments réduits pour les consonnes en prenant en
compte l’absence des segments dans l’alignement. Nous remarquons que l’allure de la
courbe s’est déformée en accentuant les taux pour les consonnes les plus sujettes à
réduction. Les semi-consonnes /ɥ, j, w/ et le /v/ ont toujours des taux très élevés.
Néanmoins, nous observons une augmentation considérable des taux de segments
réduits pour le /ɥ/, le /l/ et le /v/ ; le /l/ ayant un taux plus élevé que le /v/ et les
semi-consonnes /j,w/ cette fois-ci. Le fait que les /ɥ/ et /l/ aient un taux de segments
réduits nettement plus élevé dans cette figure (par rapport à ce qui a été observé dans
la figure 6) suggère que les mots ayant un /ɥ/ ou un /l/ dans la forme de référence sont
souvent alignés avec la variante réduite par l’alignement automatique, dès lors que
cette variante existe.
33 Pour que nos résultats sur la propension à la réduction des segments soient moins
influencés par les mots extrêmement fréquents dans le corpus (c.-à-d. les mots de la
stop list), nous avons décidé d’exclure ces mots de nos données et de voir si cela change
les résultats observés dans les figures 7 et 8.
Corpus, 22 | 2021
125
Figure 9. Taux de segments réduits pour les voyelles (schwa exclu) en prenant en compte l’absence
des segments dans l’alignement et en excluant les voyelles provenant des mots de la stop list
34 La figure 9 illustre le taux de segments réduits pour les voyelles en prenant en compte
l’absence des segments dans l’alignement et en éliminant les mots de la stop list. Nous
remarquons sur la figure 9 que le taux de segments réduits des /y/ et celui des /a/ ont
baissé davantage après la suppression des occurrences qui concerne les mots de la stop
list par rapport à ce qui a été observé dans la figure 7. Cela indique que le taux de
segments réduits pour les voyelles /y/ et /a/, illustré dans la figure 9, a été fortement
influencé par les mots de la stop list ; notamment le mot « tu » pour la voyelle /y/ et le
mot « la » pour la voyelle /a/. Le taux de segments réduits pour la voyelle /ø/ reste le
plus élevé dans la figure 9 (comme dans la figure 7). Cela provient fréquemment des /ø/
réduits dans les mots tels que « peut-être » et « veut » en parole spontanée. Nous nous
apercevons que les phonèmes ayant les taux de segments réduits les plus élevés (c.-à-d.
qui résistent le moins à la réduction) sont des voyelles orales arrondies /ø/, /u/, /o, ɔ/
et /y/ (χ2 = 3173,3 ; df = 1 ; p < 0,001). Les taux de segments réduits les moins élevés
restent toujours les voyelles nasales (χ2 = 15,446 ; df = 1 ; p < 0,001).
Figure 10. Taux de segments réduits pour les consonnes en prenant en compte l’absence des
segments dans l’alignement et en excluant les consonnes provenant des mots de la stop list
35 La figure 10 illustre le taux de segments réduits pour les consonnes en prenant en

compte l’absence des segments dans l’alignement et en éliminant les mots de la stop list.
La différence entre la figure 8 et la figure 10 se trouve surtout sur le taux de segments
Corpus, 22 | 2021
126
réduits de la semi-consonne /w/. Cela est majoritairement dû aux mots « quoi »,

« moi », « oui » et « vois » de la stop list. D’après les différentes figures de consonnes, les
glides (dans une moindre mesure le /w/) et les liquides sont enclines à la réduction (p <
0,001), et la consonne fricative post-alvéolaire non-voisée /ʃ/ a le « taux d’alerte » le
moins élevé parmi les consonnes. La fricative labiale voisée /v/ a un statut spécial : le
taux de segments réduits du phonème (≈ 20%) est beaucoup plus élevé que ceux des
autres fricatives (entre 2 et 13%).
36 Nous avons d’ailleurs effectué des tests statistiques avancés (avec des modèles linéaires
mixtes généralisés) afin de tester si la fréquence de mots était un facteur qui pourrait
favoriser la réduction. Nous avons observé effectivement une influence significative de
la fréquence de mots sur la réduction (p < 0,01).
4. Discussion
37 Cette étude sur la propension à la réduction des segments montre qu’il est possible
d’utiliser des grands corpus de parole et des systèmes de traitement automatique de la
parole pour y rechercher et quantifier des phénomènes linguistiques, comme la
réduction des segments, peu décrits dans la littérature. Avec la méthode ascendante
proposée, il n’est pas nécessaire d’avoir des hypothèses très précises sur le phénomène
retenu. Il est cependant important de savoir le caractériser objectivement de manière à
pouvoir utiliser l’instrument de mesure (ici le système d’alignement forcé) afin de
rechercher des extraits de parole dont les mesures objectives sont particulièrement
intéressantes (par exemple, déviantes ou au contraire dans la norme) pour le
phénomène étudié. Dans notre cas, nous utilisons la caractérisation de durée des
segments alignés des mots ou de suites de mots. Des durées jugées « trop courtes » par
rapport à la durée attendue (étant donnée la forme phonologique sous-jacente)
révèlent très probablement des phénomènes de réduction.
38 Nous avons considéré comme séquence réduite non seulement des suites d’au moins 3
segments consécutifs alignés avec des durées courtes de 30 ou 40 ms, mais nous avons
également pris en compte des segments de durée effective de 0 ms correspondant à des
phonèmes présents dans la prononciation de référence (la forme sous-jacente) mais
absents de l’alignement à cause de l’utilisation d’une variante de prononciation réduite
lors de l’alignement (forme de surface). Ceci nous a permis de mettre en évidence
l’importance des segments absents/non-alignés lors de l’utilisation de cette méthode.
39 Grâce à la méthode ascendante, nous avons pu observer que les liquides, les semi-
consonnes (glides) et la fricative voisée /v/ sont particulièrement sujettes à réduction,
ce qui est cohérent avec le fait que leurs durées intrinsèques sont relativement courtes.
Ceci pourrait être lié au fait que leurs caractéristiques acoustiques ressemblent
davantage à celles des voyelles que celles des obstruantes (hors /v/) par exemple. Au
contact des voyelles, les liquides et les glides auront tendance à fusionner avec les
voyelles environnantes, particulièrement en parole rapide ou peu articulée et pour des
syllabes non-accentuées. Concernant les voyelles, les voyelles nasales résistent mieux à
la réduction que les voyelles orales. Les voyelles nasales ont une durée intrinsèque plus
longue. Un segment de voyelle nasale est composé typiquement d’une première partie
orale suivie d’une partie nasalisée. Les voyelles nasales ont à leur disposition la nasalité
en plus et, de ce fait, elles seraient intrinsèquement renforcées. Les voyelles orales
arrondies, quant à elles, résistent moins à la réduction que d’autres voyelles orales. Ceci
Corpus, 22 | 2021
127
pourrait éventuellement être lié au fait que le trait arrondi qui est très saillant entraîne
une coarticulation forte avec les consonnes qui l’entourent. Ces voyelles, quand elles
deviennent très courtes, se trouvent souvent dévoisées ou peuvent être vues comme
partie intégrante de fricatives ou du burst d’occlusives qui les précèdent. L’absence
d’un segment autonome vocalique ne gêne en général pas l’intelligibilité du mot,
notamment le mot dans son contexte. Dans le futur, des tests perceptifs peuvent être
envisagés sur des échantillons de parole étiquetée comme réduite afin de tester l’effet
de cette réduction sur la perception humaine.
40 Nos résultats en ce qui concerne la réduction des consonnes sont conformes à ce qui a
été observé dans les données de Meunier et Bigi (2016) : les liquides et les glides ont
plus tendance à être réduites que d’autres consonnes. En plus de ce qui a été montré
par Meunier et Bigi (2016), nous remarquons que la consonne fricative voisée /v/ a un
« taux d’alerte » très élevé, au niveau de celui des liquides et des glides.
41 Au-delà de ce qui a été montré par Meunier et Bigi (2016) en ce qui concerne la
propension à la réduction des voyelles9, nous observons que les voyelles orales ont
davantage tendance à être réduites que les voyelles nasales. Parmi les voyelles orales,
les voyelles orales arrondies (/ø/, /u/, /o, /ɔ/ et /y/) ont plus tendance à être réduites
que les autres voyelles orales dans notre corpus.
42 La tendance de réduction illustrée dans cette étude met en évidence une grande
variabilité dans les productions orales, non seulement au niveau paradigmatique
(segmental) mais également au niveau syntagmatique (séquences de segments) :
concernant la production de mots, on observe des différences importantes entre les
formes de surface et les formes sous-jacentes, qui peuvent aller bien au-delà des
phénomènes communément décrits pour le français (schwa, liaison, simplification de
clusters obstruante-liquide). L’écart entre forme sous-jacente et forme de surface
semble d’autant plus facilement toléré qu’il n’altère pas l’intelligibilité de l’information
linguistique en cours de transmission. Par exemple, si le mot « plus » (/ply/ ou /plys/)
est prononcé sans le /l/ ([py] ou [pys]), il y a certes de nombreux homophones en
français possibles pour un mot prononcé [py] ou [pys], mais il n’y a pas d’autres mots
de la même fonction syntaxique et sémantique qui pourraient interférer avec
l’intelligibilité du mot : les mots « pu » (participe passé du verbe « pouvoir ») ou « pus »
(nom commun) /py/ n’ont pas les mêmes fonctions syntaxiques que le mot « plus » /
ply/ prononcé [py] en parole continue. De même le mot « puce » /pys/ n’a pas la même
fonction syntaxique que le mot « plus » /plys/ prononcé [pys].
43 Nos résultats sur la propension à la réduction des segments peuvent aider à développer
davantage les dictionnaires de prononciation spécifiques à la parole spontanée, utiles à
la fois pour les systèmes de reconnaissance et de synthèse automatiques comme pour
l’apprentissage du français langue étrangère. Ils peuvent également offrir des pistes
intéressantes à tester pour des recherches expérimentales de laboratoire. Enfin, nos
résultats posent des questionnements sur les différents processus phonologiques et
cognitifs à l’œuvre dans la communication verbale, permettant en production la
réalisation de formes raccourcies (formes de surface) et perçues complètes ou
restaurées (forme sous-jacente) par l’auditeur.
Corpus, 22 | 2021
128
BIBLIOGRAPHIE
Adda-Decker M., Boula de Mareüil P. B., Adda G. & Lamel L. (2005). « Investigating syllabic
structures and their variation in spontaneous French », Speech Communication 46(2) : 119-139.
Adda-Decker M., Boula de Mareüil P. & Lamel L. (1999, August). « Pronunciation variants in
French: schwa & liaison », XIVth International Congress of Phonetic Sciences : 2239-2242.
Adda-Decker M., Fougeron C., Gendrot C., Delais-Roussarie E. & Lamel L. (2012). « French Liaison
in Casually Spoken French, as Investigated in a Large Corpus of Casual French Speech », Revue
française de linguistique appliquée 17(1) : 113-128.
Adda-Decker M., Gendrot C. & Nguyen N. (2008). « Contributions du traitement automatique de la

parole à l’étude des voyelles orales du français », Traitement Automatique des Langues ATALA 49 :
13-46.
Adda-Decker M. & Lamel L. (2018). « Discovering speech reductions across speaking styles and
languages », Rethinking reduction - Interdisciplinary perspectives on conditions, mechanisms, and
domains for phonetic variation : 101-128.
Bengio Y. (2009). « Learning deep architectures for AI ». Foundations and trends® in Machine
Learning 2(1) : 1-127.
Boula de Mareüil P. & Adda-Decker M. (2002). « Studying pronunciation variants in French by

using alignment techniques », Seventh International Conference on Spoken Language Processing 2002.
Boula de Mareüil P. B., Adda-Decker M. & Gendner V. (2003). « Liaisons in French : a corpus-based
study using morpho-syntactic information », ICPhS 2003.
Bridle J. S. & Brown M. D. (1974). « An experimental automatic word recognition system ». JSRU
report 1003(5) : 33.
Davis S. & Mermelstein P. (1980). « Comparison of parametric representations for monosyllabic

word recognition in continuously spoken sentences ». IEEE Transactions on Acoustics, Speech, and
Signal Processing 28(4) : 357-366.
Dilley L. C. & Pitt M. A. (2010). « Altering context speech rate can cause words to appear or
disappear », Psychological Science 21(11) : 1664-1670.
Duez D. (1997). « Acoustic markers of political power », Journal of Psycholinguistic Research 26(6) :
641-654.
Ernestus M. (2000). Voice assimilation and segment reduction in casual Dutch, a corpus-based study of
the phonology-phonetics interface, thèse de doctorat, Vrije Universiteit Amsterdam, Utrecht : LOT.
Forney G. D. (1973). « The Viterbi algorithm ». Actes IEEE 1973, 61(3) : 268-278.
Gauvain J. L., Adda G., Adda-Decker M., Allauzen A., Gendner V., Lamel L. & Schwenk H. (2005).
« Where are we in transcribing French broadcast news ? », Ninth European conference on speech
communication and technology, Interspeech 2005.
Hermansky H. (1990). « Perceptual linear predictive (PLP) analysis of speech ». Journal of the
Acoustical Society of America 87(4) : 1738-1752.
Johnson K. (2004). « Massive reduction in conversational American English », Spontaneous speech :

Data and analysis. 1st session of the 10th international symposium : 29-54.
Corpus, 22 | 2021
129
Kohler K. J. (1990). « Segmental reduction in connected speech in German : Phonological facts

and phonetic explanations », Speech production and speech modelling 55 : 69-92.
LeCun Y., Bengio Y. & Hinton G. (2015). « Deep learning ». Nature 521(7553) : 436-444.
Meunier C. & Bigi B. (2016). « Répartition des phonèmes réduits en parole conversationnelle.
Approche quantitative par extraction automatique ». Actes de la conférence conjointe JEP-TALN-
RECITAL 2016 : 615-623.
Meunier C. & Espesser R. (2011). « Vowel reduction in conversational speech in French : The role
of lexical factors », Journal of Phonetics 39(3) : 271-278.
New B., Brysbaert M., Veronis J. & Pallier C. (2007). « The use of film subtitles to estimate word
frequencies », Applied psycholinguistics 28(4) : 661-677.
Nguyen N. & Adda-Decker M. (2013). Méthodes et outils pour l’analyse phonétique des grands corpus
oraux. Hermès-Lavoisier.
Rabiner L. R. (1989). « A tutorial on hidden Markov models and selected applications in speech
recognition ». Actes IEEE 1989 : 257-286.
Schuppler B., Adda-Decker M. & Morales-Cordovilla J. A. (2014). « Pronunciation variation in read

and conversational austrian german ». Interspeech 2014 : 1453-1457.
Schuppler B., Ernestus M., Scharenborg O. & Boves L. (2008). « Preparing a corpus of Dutch
spontaneous dialogues for automatic phonetic analysis », Interspeech 2008 : 1638-1641.
Tahon M., Lecorvé G. & Lolive D. (2018). « Can we Generate Emotional Pronunciations for
Expressive Speech Synthesis ? », IEEE Transactions on Affective Computing, Institute of Electrical and
Electronics Engineers 2018.
Torreira F. & Ernestus M. (2010). « The Nijmegen Corpus of Casual Spanish », LREC 2010 :
2981-2985.
Van Bael C., Boves L., Van Den Heuvel H. & Strik H. (2007). « Automatic phonetic transcription of
large speech corpora », Computer Speech & Language 21(4) : 652-668.
Wu Y. (2018). Étude de la réduction segmentale en français parlé à travers différents styles : apports des
grands corpus et du traitement automatique de la parole à l’étude du schwa, du /ʁ/et des réductions à
segments multiples, thèse de doctorat, Université Sorbonne Nouvelle – Paris 3.
Wu Y., Adda-Decker M., Fougeron C. & Lamel L. (2017). « Schwa Realization in French : Using
Automatic Speech Processing to Study Phonological and Socio-Linguistic Factors in Large
Corpora », Interspeech 2017.
Wu Y., Gendrot C., Adda-Decker M. & Fougeron C. (2019). « Post-consonantal Word-final /ʁ/
Realization in French : Contributions of Large Corpora », ICPhS 2019.
NOTES
1. Réalisation d'un phonème.
2. Dans la suite de l'article, nous utiliserons le terme « segment » pour désigner un segment
phonétique, comme c'est l'usage en phonétique.
3. Mel frequency cepstral coefficients.
4. Perceptual linear predictive.
Corpus, 22 | 2021
130
5. Les variantes de production sur les mots extrêmement fréquents tels qu’ « il », qui peut être
produit comme [i] tout court sans le /l/ en parole spontanée, sont incluses dans le système,
comme mentionné ci-dessus.
6. Liste de mots ou d'autres éléments qui devraient être ignorés dans le traitement des données
pour une raison spécifique. Ici, il s'agit des mots extrêmement fréquents en parole continue.
7. Segments non-alignés en raison des variantes spécifiques introduites dans le dictionnaire de
prononciation du système de reconnaissance.
8. Ex. Le mot « sérieux » /seʁjø/ peut être prononcé [sɛʁjø].
9. Meunier et Bigi (2016) montrent que les voyelles fermées ont tendance à être réduites.
RÉSUMÉS
Ce travail sur la réduction segmentale (c.-à-d. la suppression ou réduction temporelle de
segments) en français spontané nous a permis de proposer une méthode de recherche pour les
études en linguistique, ainsi que d’apporter des connaissances sur la propension à la réduction
des segments à l’oral. Cette méthode, appelée méthode ascendante, nous permet de travailler
sans hypothèse spécifique sur la réduction. Les résultats suggèrent que les liquides, les glides et
la fricative voisée /v/ sont plus facilement réduites que les autres consonnes et que les voyelles
nasales résistent mieux à la réduction que les voyelles orales. Parmi les voyelles orales, les
voyelles orales arrondies ont tendance à être plus souvent réduites que les autres voyelles orales.
This study on segmental reduction (i.e. deletion or temporal reduction of segments) in

spontaneous French allows us to propose a research method for linguistic studies on large
corpora and to bring new insights on the propensity of segmental reduction. We applied the so-
called bottom-up method while we do not have specific hypotheses. Results suggest that liquids,
glides and /v/ fricative tend to be more often reduced than other consonants whereas nasal
vowels are less prone to reduction than oral vowels. Among the latter ones, rounded oral vowels
tend to be reduced more often than other oral vowels.
INDEX
Mots-clés : réduction, élision, parole spontanée, grands corpus oraux, alignement forcé,
segments courts
Keywords : reduction, elision, spontaneous speech, large speech corpora, forced alignment,
short segments
AUTEURS
YARU WU
Université Paris-Saclay, CNRS, LIMSI, 91400, Orsay, France
Laboratoire de Phonétique et Phonologie (UMR7018, CNRS-Sorbonne Nouvelle), France
yaru.wu@sorbonne-nouvelle.fr
Corpus, 22 | 2021
131
MARTINE ADDA-DECKER
Université Paris-Saclay, CNRS, LIMSI, 91400, Orsay, France
Laboratoire de Phonétique et Phonologie (UMR7018, CNRS-Sorbonne Nouvelle), France
madda@limsi.fr
Corpus, 22 | 2021
132
De la protection des données à la

protection de la personne :
Réflexions sur l’impact des
nouvelles réglementations sur la
collecte des corpus
Muriel Lalain, Gilles Pouchoulin, Béatrice Priego-Valverde et Serge Pinto
Ce document de synthèse émane des réflexions et discussions menées dans le cadre du groupe
éthique du Laboratoire Parole et Langage ; nous remercions nos collègues pour les riches
échanges et débats autour de ces nouvelles réglementations dont les traces écrites sont
téléchargeables sur le site du LPL : http://www.lpl-aix.fr/recherche/ethique/
1. Introduction
1 Les travaux de recherche en linguistique nécessitent le recueil de données langagières,
sélectionnées et rassemblées pour former ce que l’on appelle un corpus. La diversité des
approches, des pratiques et des objectifs a complexifié cette notion de corpus.
Cependant, qu’il s’agisse de données textuelles, orales, ou multimodales, que le recueil
permette la collecte de données authentiques, écologiques, ou de laboratoire, que
l’étude suive une méthodologie empirico-déductive ou inductive, les données
langagières émanent nécessairement de locuteurs. Ainsi en linguistique, mais aussi
dans les différents champs de son interdisciplinarité (sociolinguistique,
psycholinguistique, etc.), nos travaux nous conduisent à impliquer la personne
humaine et à utiliser les données de cette dernière, à des fins de recherche et/ou de
formation. La constitution d’un corpus implique alors nécessairement la contribution
de locuteurs dont nous recueillons la parole (donnée primaire) qui fera l’objet
d’analyse(s) linguistique(s) (données secondaires) mais aussi d’éléments d’informations
Corpus, 22 | 2021
133
complémentaires qui permettront d’interpréter les résultats des analyses

(métadonnées).
2 La récente mise en application des deux cadres réglementaires du Règlement Général
sur la Protection des Données Personnelles (RGPD 2018) et de la Loi Jardé (Jardé 2012)
est venue bousculer les habitudes de la communauté scientifique en SHS de manière
générale, puisque ces réglementations s’appliquent finalement à tous les secteurs
faisant intervenir la personne humaine. En linguistique, l’impact de ces nouvelles
réglementations est appréciable dès la collecte des données langagières. Cependant, il
n’est que difficilement mesuré tant les expériences et témoignages de terrain, ou tout
simplement les informations claires en matière de protection des données et des
personnes sont rares, imprécises et parcellaires. Pour pallier ce manque, les auteurs
présentent à travers cet article l’ensemble des questions et réflexions soulevées autour
de ces deux nouveaux cadres réglementaires par un groupe de travail mis en place au
sein du Laboratoire Parole et Langage (LPL 2020).
3 Le RGPD définit les principes juridiques et l’obligation de sécurité qui garantissent les
droits et les libertés des personnes. L’application de ce règlement européen dans les
établissements de recherche nécessite ainsi la mise en place d’actions de
sensibilisation, d’informations permettant d’en comprendre les enjeux et d’en clarifier
le cadre juridique applicable depuis le 25 mai 2018. Sa mise en œuvre exige de répondre
à de nombreuses questions très diverses telles que : Ai-je le droit de collecter ces
données ? Dans quel but ? Sur qui ? Pour qui ? Quelles données ? Où et comment les
stocker ? Pour quelle durée ? S’agit-il d’un traitement dit « à risque » ? Quels sont les
acteurs traitant les données ? Cette approche réflexive vise à amener la communauté
scientifique à s’interroger et à réfléchir sur ses pratiques et usages en matière de
collecte et de traitement des données personnelles. Les réponses apportées à ces
interrogations décriront la documentation du traitement des données à caractère
personnel qui devra être enregistrée auprès du service du Délégué à la Protection de
Données (DPD1) dont dépend le responsable du traitement.
4 La loi Jardé (Jardé 2012) est née d’une volonté de simplification de la loi de protection
des personnes, jusque-là régie par la loi Huriet-Serusclat (Huriet 1988), spécifiquement
applicable aux « personnes se prêtant à la recherche biomédicale ». Entrée en vigueur
en novembre 2016, la loi Jardé fixe les dispositions réglementaires relatives aux
recherches impliquant plus largement la personne humaine. Dès lors, la première
interrogation concerne le champ d’application de la loi Jardé. La diversité des
recherches en SHS ainsi que l’interdisciplinarité des laboratoires, rendent ce
questionnement à la fois crucial et complexe. Viennent ensuite les questions relatives
aux « catégories de recherche », aux « risques de la recherche », aux démarches, aux
acteurs, aux modalités de consentement, etc.
2. Le règlement général sur la protection des données

5 En préambule de cette partie dédiée au RGPD, nous tenons à distinguer deux grandes
natures de dossier à instruire dans une structure de recherche :
1. Les traitements dits de « fonctionnement », i. e. tout ce qui concerne l’administration de la
recherche : gestion du personnel, achats, missions…
2. Les traitements dits de « recherche », i. e. mis en œuvre pour des raisons de recherche, avec
une finalité de recherche.
Corpus, 22 | 2021
134
6 Dans cet article, nous nous intéresserons uniquement aux traitements de recherche
concernant les données personnelles. Le texte Européen (RGPD 2018) évoque à
plusieurs endroits des spécificités autorisées pour les traitements à finalité de
recherche, à travers l’expression « à des fins de recherche scientifique ». Notre objectif
initial était de cerner la portée de ces références afin de proposer en premier lieu aux
chercheurs de notre laboratoire des pratiques sécurisées et conformes à la protection
des droits fondamentaux des personnes contribuant à la fiabilité du travail scientifique.
7 En outre, les auteurs clarifient ici la portée du terme « donnée » utilisé dans cette
partie. En effet, il est d’usage courant en linguistique de corpus de distinguer
différentes catégories de données selon leur degré d’élaboration :
• primaire i. e. expérimentale, observable, mesurable… qui est issue directement du terrain
• secondaire i. e. dérivée de la donnée primaire… qui enrichit, annote, interprète…
• métadonnée i. e. information technique, descriptive, administrative… qui caractérise une
autre donnée.
8 Qu’elle soit qualifiée de primaire ou de secondaire, l’information véhiculée par une
donnée peut concerner une personne physique et est donc susceptible de porter
atteinte à sa vie privée. Or il est important de souligner qu’une métadonnée 2 peut
représenter une sensibilité en matière de protection de la vie privée aussi forte que
celle de la donnée qu’elle caractérise. Le texte Européen du RGPD ne fait aucune
distinction entre ces différentes catégories de données, si ce n’est de redéfinir le
caractère personnel de la donnée. Pour cette raison et afin de lever toute ambiguïté et
confusion pour le lecteur, le terme « donnée » utilisé dans cette partie englobera toute
donnée soumise à la protection du RGPD et ce, quelle que soit son appartenance à l’une
des 3 catégories décrites ci-dessus. Elle sera alors qualifiée de « personnelle » ou « à
caractère personnel » afin de la différencier de la donnée sans caractère personnel.
2.1. Applicable dès le 25 mai 2018
9 Depuis l’entrée en vigueur du RGPD en mai 2018, de nombreux chercheurs s’inquiètent

des répercussions induites par la mise en conformité du RGPD sur leurs activités de
recherche utilisant des données à caractère personnel. D’autres perçoivent son
application complexe et contraignante pour leur travail de chercheur. Ces craintes et
appréhensions sont légitimes et compréhensibles car en SHS, il est d’usage courant
dans la collecte de corpus oraux et multimodaux d’utiliser des données personnelles à
des fins de recherche et comme il est stipulé dans le considérant 159 du RGPD :
Lorsque des données à caractère personnel sont traitées à des fins de recherche
scientifique, le présent règlement devrait également s’appliquer à ce traitement.
10 Pourtant, la France a su être précurseur en matière de droit des données personnelles
en adoptant le 6 janvier 1978 la loi relative à « l’informatique, aux fichiers et aux
libertés », plus connue sous l’appellation de loi « informatique et libertés » (LIL 1978).
Toujours en vigueur en France dans une nouvelle rédaction simplifiée, la LIL (LIL 2019) :
[…] comporte notamment les dispositions relatives aux « marges de manœuvre
nationales » autorisées par le Règlement général sur la protection des données
(RGPD) que le législateur a choisi d’exercer […]
11 L’entrée en vigueur du RGPD ne peut pas être vue comme une nouveauté majeure si
l’on considère que 70 à 80% des exigences posées par la LIL ont été reprises, voire
Corpus, 22 | 2021
135
renforcées pour certaines, et ce même si de nouvelles règles y ont été introduites au

niveau européen.
12 En revanche, la nouveauté est que d’une part, le RGPD amplifie le pouvoir coercitif de la
CNIL3, instituée en 1978 pour veiller au respect de la LIL, et que d’autre part, le RGPD
oblige au principe de responsabilité4 (« accountability »), à l’exigence de documentation
et de renversement de la charge de la preuve : c’est au responsable de traitement, y
compris au chercheur, de prouver que le traitement de données personnelles est
conforme au règlement et documenté. De plus, même si les personnes bénéficiaient
déjà de droits et de protections inhérents à la LIL, ces engagements sont renforcés par
le RGPD.
13 Conscient de la difficulté pour la communauté scientifique de proposer des projets
impliquant des traitements de données personnelles, le législateur a prévu un régime
dérogatoire pour les activités de recherche scientifique. Abrogées au 1 er juin 2019, ces
dérogations apparaissent dans le règlement (Dérogations 2019) comme des alternatives
activables dans la législation nationale de chacun des États-membres de l’Union
Européenne. Il faudra donc se référer à la nouvelle rédaction (LIL 2019) pour s’informer
sur les dispositions applicables en France en matière de recherche scientifique.
2.2. Champ d’application de la réglementation
14 Le RGPD encadre le traitement et la circulation des données à caractère personnel sur

le territoire de l’Union Européenne. C’est-à-dire toute opération, informatisée ou non,
effectuée sur des données à caractère personnel, quel que soit le procédé ou le support.
L’article 4.2 du RGPD définit la notion de traitement par
[…] la collecte, l’enregistrement, l’organisation, la structuration, la conservation,
l’adaptation ou la modification, l’extraction, la consultation, l’utilisation, la
communication par transmission, la diffusion ou toute autre forme de mise à
disposition, le rapprochement ou l’interconnexion, la limitation, l’effacement ou la
destruction
15 d’une donnée à caractère personnel. Il apparaît clairement que le traitement ne se
limite pas à la simple analyse ou exploitation de la donnée personnelle. Bien au
contraire, son champ d’intervention s’applique à l’ensemble du cycle de vie de la
donnée.
16 À titre informatif concernant les métadonnées, il faut préciser que leur cycle de vie
s’étend très fréquemment au-delà de celui des données qu’elles décrivent. En effet, il
faut savoir que :
• elles doivent être créées avant le traitement de collecte/production des données qu’elles
décrivent afin d’informer (qui, quand, comment, où…)
• elles peuvent aussi être conservées même si les données qu’elles décrivent, sont détruites.
17 Il apparaît clairement ici que la qualité et la pertinence des métadonnées jouent un rôle
primordial sur la visibilité et la réutilisation des données qu’elles caractérisent.
18 À propos des données à caractère personnel, le RGPD les définit comme tout élément
qui, de manière directe ou indirecte, permet d’identifier un individu : nom, prénom,
NIR5, date de naissance, courriel nominatif, téléphone, adresse IP, photo, voix, vidéo,
empreinte digitale… Il faudra aussi considérer avec la même attention et vigilance,
l’identification d’individus par recoupement d’informations issues de diverses sources
comme par exemple reconnaître précisément un individu en corrélant les différentes
Corpus, 22 | 2021
136
informations « artisan boulanger de tel âge », « propriétaire de son local commercial

situé dans telle commune » et « membre de tel club sportif ».
19 Dans la phase initiale d’élaboration d’un projet de recherche, la première question à se
poser est de savoir si le RGPD s’applique et si le projet implique un traitement de
données personnelles ? Est-ce que des opérations telles que collecter, enregistrer,
analyser, consulter, conserver, archiver… sont opérées sur des données à caractère
personnel ? Si tel est le cas alors le traitement est soumis au RGPD. Par exemple, le
traitement effectué au LPL dans le cadre de « l’étude des sourires lors des transitions
thématiques de la conversation » a nécessité, pour atteindre la finalité déclarée, la
collecte directe de données sur l’état civil de la personne (nom, prénom, âge, lieu de
naissance, adresse mail) et de données audio/vidéo sur lesquelles porteront les analyses
linguistiques. De ce fait, le traitement de cette étude entre bien dans le cadre de la
réglementation sur la protection des données à caractère personnel et doit faire l’objet
d’une inscription au registre du DPD.
20 Ensuite, il faut s’assurer que parmi les données personnelles, il n’y a pas de données
« sensibles » telles que définies dans la réglementation, c’est-à-dire des données
pouvant relever directement ou indirectement de « l’origine raciale ou ethnique, les
opinions politiques, les convictions religieuses ou philosophiques ou l’appartenance
syndicale, ainsi que le traitement des données génétiques, des données biométriques
aux fins d’identifier une personne physique de manière unique, des données
concernant la santé ou des données concernant la vie sexuelle ou l’orientation sexuelle
d’une personne physique sont interdits. » (Article 9 du RGPD).
21 Par principe, ces données sont interdites à la collecte et à l’exploitation. Cependant des
exceptions existent au regard de la loi et du règlement. L’article 9, paragraphe 2, du
RGPD énonce les différentes conditions pour lesquelles cette interdiction ne s’applique
pas, et plus particulièrement :
(a) la personne concernée a donné son consentement explicite au traitement de ces
données à caractère personnel pour une ou plusieurs finalités spécifiques, sauf
lorsque le droit de l’Union ou le droit de l’État membre prévoit que l’interdiction
visée au paragraphe 1 ne peut pas être levée par la personne concernée ;
(j) le traitement est nécessaire à des fins archivistiques dans l’intérêt public, à des
fins de recherche scientifique ou historique ou à des fins statistiques,
conformément à l’article 89, paragraphe 1, sur la base du droit de l’Union ou du
droit d’un État membre qui doit être proportionné à l’objectif poursuivi, respecter
l’essence du droit à la protection des données et prévoir des mesures appropriées et
spécifiques pour la sauvegarde des droits fondamentaux et des intérêts de la
personne concernée.
22 Lorsque le traitement de données sensibles est autorisé, sa mise en conformité est
soumise à un certain nombre de dispositions complémentaires, bien plus dures et
protectrices. Ce qui justifie ce renforcement de la loi est que les traitements contenant
des données sensibles sont susceptibles de porter atteinte aux droits et libertés des
personnes concernées. Leur mise en œuvre peut aboutir à une demande d’autorisation
à la CNIL.
23 Des dispositions juridiques spécifiques sont prévues par le législateur pour les
traitements de données de santé à caractère personnel ayant pour finalité l’évaluation
ou l’analyse des pratiques ou des activités de soins et de prévention. Ces traitements
sont autorisés s’il y a [1] information et non-opposition de la personne concernée [2],
Corpus, 22 | 2021
137
avis du CEREES6 [3], et anonymisation des données à caractère personnel ou garanties

suffisantes pour sécuriser et assurer la confidentialité des données.
2.3. Les nouveaux acteurs de contrôle
24 Parmi les acteurs majeurs du RGPD, le responsable de traitement (RT) joue un rôle
central puisqu’il est en charge du respect de l’application du règlement dans une
entreprise, un organisme, une association, etc. Le RGPD le définit dans l’article 4
comme « la personne physique ou morale, l’autorité publique, le service ou un autre
organisme qui, seul ou conjointement avec d’autres, détermine les finalités et les
moyens du traitement ».
25 Un autre acteur important est le sous-traitant (ST). L’article du RGPD le définit comme
« la personne physique ou morale, l’autorité publique, le service ou un autre organisme
qui traite des données à caractère personnel pour le compte du responsable du
traitement ». Lié par un contrat ou un acte juridique écrit au RT, un sous-traitant est un
prestataire qui intervient pour conserver la donnée, la stocker, la transmettre, la
diffuser, etc. Il collabore avec le RT pour garantir le respect de ses diverses obligations
(droits des personnes, violations des données, analyses d’impact…) et engage sa
responsabilité à l’égal de celle du RT.
2.4. L’inscription au registre des traitements de données

personnelles
26 Dans chacune de nos tutelles, un Délégué à la Protection des Données (DPD) est désigné
pour s’assurer du respect des obligations du RGPD et pour gérer le registre dédié aux
traitements des données à caractère personnel. Sur les conseils et avec l’assistance du
DPD, il est d’usage courant que ce soit le responsable scientifique du projet qui réalise, à
la place du RT, la procédure formalisée7 d’inscription de son traitement au registre.
27 Il est important de préciser que les traitements de données personnelles doivent être
inscrits, avant leur mise en œuvre, au registre du DPD dont dépend le responsable de
traitement.
28 À la réception d’un formulaire d’inscription d’un traitement, le service à la protection
des données (SPD) l’analyse en portant une attention toute particulière à la finalité
définie et la nature des données traitées. Le SPD peut soit autoriser la mise en œuvre du
traitement et l’inscrire au registre, soit informer le RT de la nécessité de réaliser une
étude d’impact sur la vie privée (EIVP) des personnes concernées.
29 Hormis l’obligation d’inscrire au registre les traitements mis en œuvre dans son unité,
le RT doit s’assurer de leur mise à jour : leur suppression si le traitement est terminé et
leur modification si d’éventuels changements sont apportés au traitement.
2.5. Les principes clés du RGPD
30 Afin de légitimer la collecte, le traitement et la conservation des données à caractère

personnel, le RGPD s’appuie sur 6 principes juridiques8 que le RT doit obligatoirement
respecter et dont il doit être capable de prouver leur respect.
Corpus, 22 | 2021
138
2.5.1. Principe de limitation des finalités du traitement de données

personnelles
31 Avant toute chose, le chercheur doit déterminer « à quoi » va servir son traitement de
données personnelles. Quels sont les objectifs à atteindre ? Quelle est la finalité du
traitement ? Tel que mentionné au considérant 33 du RGPD, le législateur accepte le fait
qu’il soit parfois difficile pour le scientifique « de cerner entièrement la finalité du
traitement » avant sa mise en œuvre :
Souvent, il n’est pas possible de cerner entièrement la finalité du traitement des
données à caractère personnel à des fins de recherche scientifique au moment de la
collecte des données. […] Les personnes concernées devraient pouvoir donner leur
consentement uniquement pour ce qui est de certains domaines de la recherche ou
de certaines parties de projets de recherche, dans la mesure où la finalité visée le
permet.
32 Ainsi le chercheur doit décrire la finalité de son traitement à travers un bref résumé 9 de
2 à 3 lignes expliquant l’objectif scientifique visé. Parfois, il peut être nécessaire de
définir des sous-finalités pour des projets organisés en plusieurs axes d’investigation.
Le cas échéant, le chercheur devra les détailler directement sous la finalité principale
du traitement.
33 Quoi qu’il en soit, le règlement qualifie la finalité de « déterminée, explicite et
légitime ». Cela oblige à ce que la donnée personnelle collectée soit en adéquation
directe avec la finalité préalablement définie, clairement comprise et licite. À savoir
que si les conditions d’utilisation de la donnée étaient amenées à changer pour d’autres
fins incompatibles avec la finalité initiale, le chercheur devrait en avertir son DPD,
réinformer les personnes concernées et, le cas échéant, leur refaire signer un
consentement. On apprécie ici l’importance de déterminer clairement la finalité d’un
traitement avant sa mise en œuvre.
34 Aborder ce principe en préalable est particulièrement pertinent lorsque l’on inscrit son
traitement au registre du DPD car toutes les questions inhérentes aux autres principes
seront interprétées au regard de la finalité, des objectifs visés. Ce principe pose les
règles d’utilisation et de réutilisation des données personnelles, intra et post-
traitement.
2.5.2. Principe de minimisation des données à caractère personnel
35 Le principe de minimisation oblige le RT à ne collecter que les données personnelles

utiles et pertinentes pour atteindre les objectifs fixés et déclarés. L’idée ici, c’est la
proportionnalité, la minimisation des données personnelles : je ne collecte que ce qui
est strictement nécessaire au regard de la finalité de mon traitement. Ai-je vraiment
besoin de ces données à caractère personnel dans le cadre de mon projet ? Est-ce que je
collecte ces données personnelles car je pourrais en avoir besoin un jour ?
36 Une fois que le chercheur a déterminé l’ensemble des données personnelles nécessaires
à ses besoins, il doit s’assurer que son traitement obéit à des garanties conformes aux
droits et libertés des personnes concernées. Ai-je vraiment le droit de collecter ces
données à caractère personnel ? Est-ce que les personnes concernées seraient
d’accord ? Est-ce que les données sont sensibles ?
37 Par principe, la collecte des données sensibles est interdite. Néanmoins si celles-ci sont
indispensables pour atteindre les objectifs du traitement à finalités de recherche,
Corpus, 22 | 2021
139
l’article 9 du RGPD mentionne des exceptions autorisant le traitement des données

sensibles : [9-a] le consentement explicite [9-e] les données manifestement rendues
publiques [9-j] le traitement est nécessaire à des fins de recherche scientifique 10. Pour
cette dernière, l’État Français a introduit une condition assujettie à un avis préalable de
la CNIL.
38 En conséquence, le chercheur doit documenter et justifier par tout moyen de l’intérêt
de la donnée personnelle collectée. On est vraiment dans un processus de renversement
de la charge de la preuve, c’est au chercheur de prouver qu’il est en conformité avec la
loi, qu’il documente et justifie par tout moyen qu’il a besoin de cette information-là
pour atteindre tel objectif scientifique.
2.5.3. Principe de limitation de la conservation des données à caractère

personnel
39 Un autre point discuté dans la réglementation, et pourtant déjà prévu dans la LIL,
concerne le principe de la durée de conservation des données à caractère personnel qui
doit être définie par le RT au préalable de leur traitement.
40 Le RGPD11 précise que les données à caractère personnel doivent être
[…] conservées sous une forme permettant l’identification des personnes
concernées pendant une durée n’excédant pas celle nécessaire au regard des
finalités pour lesquelles elles sont traitées ; […]
41 Ce principe de conservation soulève trois aspects importants qui interrogent sur la
durée, les moyens à employer et le devenir des données personnelles à l’issue de cette
étape.
2.5.3.1. La détermination de la durée de conservation des données à caractère personnel
42 Premièrement, la durée de conservation détermine la période d’utilisation des données

à caractère personnel c.-à-d. la période nécessaire pour atteindre la finalité du
traitement. Généralement, l’accès aux données personnelles est restreint aux seuls
membres du projet scientifique durant cette période. Les durées peuvent être très
variables selon les projets. Par exemple, un projet de recherche qui propose le suivi
longitudinal d’enfants de leur naissance jusqu’à leur majorité, aura une durée de
conservation très longue. À la différence d’un corpus collecté dans le cadre d’une thèse,
celle-ci ne sera que de quelques années au-delà desquelles les données personnelles
permettant l’identification (in)directe des personnes devront être « anonymisées » 12 ; le
corpus ainsi « anonymisé » pourra être préservé au-delà de cette période pour une
réutilisation ou être archivé. L’idée est de conserver les données à caractère personnel
tant qu’elles sont nécessaires pour atteindre l’objectif fixé.
43 Actuellement, la durée peut être déterminée ou déterminable. L’intérêt de la rendre
déterminable est que si le chercheur est amené à prolonger la durée de conservation
initialement prévue, il n’est pas tenu d’en informer les personnes si celle-ci respecte la
valeur initiale et la règle de gestion13 associée, mentionnées dans la notice
d’informations. En effet, la durée de conservation des données personnelle doit être
mentionnée dans la notice d’informations à remettre aux personnes concernées.
Corpus, 22 | 2021
140
44 Quoi qu’il en soit, l’important est de définir cette durée en considérant d’éventuelles
obligations concernant certaines données, de se l’approprier et de la justifier dans la
documentation.
2.5.3.2. Les moyens à mettre en œuvre sur la période de conservation
45 Le second point concerne les moyens, matériels et techniques, à mettre en œuvre pour
assurer l’effectivité de la période de conservation. Qui reçoit une alerte prévenant du
dépassement de la période de conservation ? Y a-t-il un outil automatique qui gère la
datation des données à caractère personnel, leur effacement… ? Comment gérer la
particularité des durées déterminables ? Ces questions importantes doivent être
abordées en concertation entre le chercheur et le RT.
46 Comme rappelé dans (Ghio et al. 2020), et tel que proposé par le RGPD et les guides de
bonnes pratiques comme le guide pour la recherche en SHS du CNRS (CNRS-InSHS
2019), nous préconisons fortement aux chercheurs de notre laboratoire de
pseudonymiser14 les données personnelles de leurs traitements dès la collecte.
Rappelons ici que le RGPD ne s’applique pas sur des données personnelles anonymes ou
anonymisées c.-à-d. sur des données personnelles à partir desquelles la personne
concernée n’est pas ou plus identifiable.
47 Parmi les différentes techniques de pseudonymisation (chiffrement, généralisation,
agrégation, bruitage…), la substitution consiste à remplacer dans un corpus chaque
ensemble de données permettant d’identifier (in)directement un individu par une clé
d’identification arbitraire. En pratique, les données telles que nom, prénom, mail,
téléphone… sont retirées du jeu initial de données personnelles pour être isolées dans
une table de correspondance. Pour chacune des entrées de la table de correspondance,
une clé d’identification est ajoutée sous une forme normalisée 15, respectant des règles
de nommage et de codage établies par le chercheur. Cette clé doit aussi être reportée
dans le jeu initial de données personnelles (nettoyé des données identifiantes) afin de
garantir le lien entre les données personnelles pseudonymisées et la personne
concernée. Ici l’utilisation du terme de pseudonymisation est en parfaite adéquation
avec la définition faite dans l’article 4.5 du RGPD où la table de correspondance
constitue « ces informations supplémentaires » permettant d’attribuer à « une
personne concernée précise » des données personnelles.
48 En pratique, la table de correspondance permet de ré-identifier les personnes des
données pseudonymisées afin de faire valoir leurs droits, de les informer de
modifications majeures dans le traitement les concernant, de les avertir en cas de
violation/perte de leurs données personnelles… Pour garantir un niveau de protection
optimal, elle devra être conservée séparément des autres données (personnelles,
sonores, vidéos…) et faire l’objet de mesures de sécurités et de confidentialités,
appropriées à la sensibilité des données. À la fin de la période de conservation, il suffira
alors de détruire la table de correspondance (le cas échéant, les autorisations ou
consentements obtenus auprès des personnes concernées) pour permettre la
réutilisation et préservation du corpus « anonymisé ».
49 Cette recommandation de bonnes pratiques s’inscrit dans une démarche visant d’une
part à renforcer la sécurité des données personnelles et d’autre part, à gérer les
traitements arrivant au terme de leur durée de conservation.
Corpus, 22 | 2021
141
2.5.3.3. Le devenir des données à caractère personnel à l’issue de la période de

conservation
50 À l’issue du traitement, le RGPD oblige à ce que les données personnelles soient

détruites, anonymisées ou archivées. Néanmoins l’article 5.1 du RGPD précise que
« […] les données à caractère personnel peuvent être conservées pour des durées plus
longues dans la mesure où elles seront traitées exclusivement à des fins de recherche
scientifique […] ». De surcroît, en tant qu’unité publique de recherche, les données
arrivant à échéance de leur période de conservation légitime, doivent être archivées
« conformément aux règles applicables en matière d’archives publiques et d’archives
privées ».
51 Toujours est-il qu’il incombe au responsable du traitement de notifier au service dédié
à la protection des données dont il dépend, l’ensemble des traitements arrivant au
terme de leur période de conservation.
52 Au LPL, nous préconisons à nos chercheurs de déposer leurs données « anonymisées »
dans des entrepôts nationaux tels que Nakala16 pour les SHS ou Ortolang 17 pour les
sciences du langage. Garantissant un haut niveau de sécurité et de disponibilité, ces
plateformes d’archivage proposent à l’ensemble de la communauté scientifique des
services permettant le dépôt, la documentation, la diffusion et la valorisation de leurs
ressources numériques.
53 Néanmoins, du fait de la diversité des recherches en SHS et de l’interdisciplinarité des
laboratoires, il existe des données personnelles qui ne sont ni partageables, ni
anonymisables en raison de leur nature « sensible » ou même, des risques de perdre
leur utilité scientifique18. Comment gérer cet état de fait lorsque les chercheurs
reçoivent l’injonction de travailler en Open Data et de publier en Open Science ? Pour
répondre à cela, il revient au chercheur de définir les modalités de partage, de
conservation et d’archivage des données collectées/produites en définissant leurs
conditions d’accès et de réutilisation, tout en appliquant le paradigme de l’Open Data
« Aussi ouvert que possible, aussi fermé que nécessaire ».
2.5.4. Principes d’intégrité et de confidentialité
54 Le responsable de traitement doit préserver la sécurité et la confidentialité des données

à caractère personnel traitées. À ce titre, il doit prendre toutes les mesures nécessaires,
adaptées à la nature des données et aux risques liés au traitement, pour interdire toutes
intrusions hostiles et empêcher l’altération ou la perte des données. Il doit s’assurer
que la confidentialité des données personnelles est respectée et que seules les
personnes habilitées accèdent à celles-ci.
55 L’analyse des risques, réalisée sur la base (i) de l’identification de leurs sources qu’elles
soient d’origine humaine ou non (ii) et de l’évaluation de leurs impacts sur les droits et
libertés des personnes concernées, facilite grandement la mise en œuvre des moyens
techniques et organisationnels garantissant l’intégrité et la confidentialité des données
personnelles traitées.
56 Sans négliger l’importance du risque lié au facteur humain, les postes de travail
informatique constituent une des principales failles pour les intrusions illégales et les
tentatives de piratage. Il est donc essentiel de les sécuriser pour empêcher les
tentatives d’accès malveillants, la perte ou altération de données, les virus, etc.
Corpus, 22 | 2021
142
57 Voici quelques recommandations de sécurité :

• verrouillage automatique de session
• arrêt complet de l’ordinateur en cas d’absence de surveillance
• antivirus régulièrement mis à jour
• pare-feu pour le contrôle des entrées/sorties du réseau
• moyens de chiffrement (clé USB, disque amovible, portable)
• protocoles garantissant la confidentialité et l’authentification (SFTP, HTTPS)
• fonction de hachage pour assurer l’intégrité des données
• signatures numériques pour vérifier l’origine et l’authenticité de l’information
• chiffrement pour garantir la confidentialité des données et des messages
•…
2.5.5. Principes de licéité, de loyauté et de transparence
58 Il est essentiel de définir la base juridique sur laquelle repose un traitement de données
à caractère personnel. L’identification du fondement juridique assure que le traitement
est conforme à la loi et oblige le RT à un devoir de documentation attestant de la
conformité des traitements dont il est responsable.
59 Le RGPD précise qu’il faut qu’au moins une des conditions parmi les 6 proposées soit
remplie, pour que le traitement soit licite : (extrait de l’Article 6.1 du RGPD)
a) la personne concernée a consenti au traitement de ses données à caractère
personnel pour une ou plusieurs finalités spécifiques ;
b) le traitement est nécessaire à l’exécution d’un contrat auquel la personne
concernée est partie ou à l’exécution de mesures précontractuelles prises à la
demande de celle-ci ;
c) le traitement est nécessaire au respect d’une obligation légale à laquelle le
responsable du traitement est soumis ;
d) le traitement est nécessaire à la sauvegarde des intérêts vitaux de la personne
concernée ou d’une autre personne physique ;
e) le traitement est nécessaire à l’exécution d’une mission d’intérêt public ou
relevant de l’exercice de l’autorité publique dont est investi le responsable du
traitement ;
f) le traitement est nécessaire aux fins des intérêts légitimes poursuivis par le
responsable du traitement ou par un tiers, à moins que ne prévalent les intérêts ou
les libertés et droits fondamentaux de la personne concernée qui exigent une
protection des données à caractère personnel, notamment lorsque la personne
concernée est un enfant.
60 Dans le domaine des sciences humaines et sociales, le fondement d’un traitement de
recherche repose le plus souvent sur (6.1.a) le consentement, (6.1.e) l’exécution d’une
mission d’intérêt public ou (6.1.f) les intérêts légitimes.
61 Il faut noter que le consentement n’est pas uniquement un fondement juridique. Il
apparaît aussi comme une des exceptions pour collecter des données sensibles. À titre
informatif, au LPL si la loi n’exige pas le recueil du consentement pour un traitement de
données personnelles, nous demandons à nos chercheurs d’obtenir l’autorisation
d’enregistrement de la voix et/ou de l’image auprès des personnes susceptibles d’être
filmées, photographiées ou enregistrées vocalement.
62 Une fois la base juridique d’un traitement identifiée, elle doit être obligatoirement
communiquée à la personne concernée, complétée par les informations mentionnées
dans le chapitre III du RGPD19 « Droits de la personne concernée ». La loi impose que
Corpus, 22 | 2021
143
l’information à la personne concernée doit être faîte d’une façon « concise,

transparente, compréhensible et aisément accessible ». Il est fortement recommandé
qu’elle soit fournie par écrit, voire par voie électronique lorsque la situation est
appropriée. De plus, elle doit être faite préalablement à la collecte des données (voir les
articles 13 et 14 du RGPD) et devra être adaptée en fonction du fondement juridique du
traitement :
• sur les intérêts légitimes du RT, l’information doit spécifier ces intérêts légitimes ;
• sur le consentement, l’information doit mentionner à la personne concernée le droit de
retirer son consentement à tout moment, ainsi que le droit à la portabilité de ses données ;
• sur l’exécution d’une mission d’intérêt public ou sur l’intérêt légitime du RT, l’information
doit mentionner à la personne concernée le droit d’opposition.
63 Un point important à souligner concerne la manière dont d’information doit être
divulguée. Informer ne veut pas dire obtenir le consentement. Il n’est donc pas
nécessaire de conserver la manifestation expresse de la volonté de la personne
informée. Ce qu’il faut, c’est conserver la manière dont l’information a été faite auprès
des personnes, être capable de prouver que les personnes ont bien été informées. À une
information orale, il faudra privilégier l’affichage, le mailing ou la remise directe d’un
document d’informations.
64 Lorsque les données personnelles sont collectées directement auprès de la personne, la
réglementation RGPD précise que les personnes doivent être informées au moment où
les données sont obtenues. Par contre, lorsque celles-ci ne sont pas collectées
directement auprès de la personne, le RT doit fournir les informations légales à la
personne dans un délai d’un mois à compter du début du traitement.
65 De plus, le RGPD impose que l’information soit claire et compréhensible, et comporte
plusieurs mentions d’information (coordonnées du RT/DPD, finalités du traitement,
destinataires des données personnelles, durée de conservation, droits 20 21applicables…).
2.5.6. Principe d’exactitude
66 Ce dernier principe impose que les données personnelles soient exactes et, le cas
échéant, tenues à jour (actualisées, corrigées, effacées…). Cela signifie qu’il faut
expliquer, clairement et formellement, à la CNIL que les données personnelles utilisées
dans le traitement, sont exactes et mises à jour. Par exemple, que toutes les adresses
électroniques des personnes utilisées dans un traitement sont valides et correctes.
67 Ce principe est adapté au traitement de fonctionnement comme la gestion du personnel
ou un annuaire, mais pas pour les traitements de recherche où les données
personnelles collectées n’ont pas vocation à être mises à jour après leur collecte ou
pour une utilisation ultérieure.
2.6. Pour conclure cette partie…
68 Hormis le cadre juridique, fondamental et essentiel, l’articulation de RGPD avec la

recherche scientifique conduit le chercheur à s’interroger sur son travail en matière de
gouvernance, de protection et d’usages des données traitées. Cette réflexion
épistémologique, propre à chaque discipline, devrait contribuer à l’amélioration des
pratiques dans le respect des normes éthiques et scientifiques. Concernant le cadre
Corpus, 22 | 2021
144
législatif, ces réflexions pourront être complétées par l’attention portée à la

réglementation de la recherche impliquant la personne humaine.
3. La loi relative aux recherches impliquant la

personne humaine dite loi Jardé
69 Dans cette partie consacrée à la loi Jardé, nous présenterons les éléments de sa genèse
qui selon nous, sont à l’origine des difficultés rencontrées dans sa lecture et son
interprétation au regard des recherches menées en sciences humaines et sociales et en
particulier pour la collecte de données en linguistique. Nous exposerons ensuite le
travail de réflexion mené par le groupe éthique du LPL et l’évolution de notre
compréhension de la loi au fil de la parution des différents arrêtés et décrets relatifs à
celle-ci. Enfin, nous en donnerons une grille de lecture issue de nos réflexions fondées
sur les différents textes de loi et documents de nos tutelles.
3.1. Quid Act Jardé ?
70 Pour bien comprendre pourquoi la publication et la mise en application de la loi Jardé

ont tellement pu émouvoir les différentes communautés de chercheurs, tant en SHS
que dans d’autres disciplines, il convient de se pencher sur sa genèse.
71 La loi Jardé, relative aux recherches impliquant la personne humaine (RIPH) a été votée
en 2012 et est entrée en vigueur en 2016, suite à la parution de son décret d’application.
Cette loi, comme toutes finalement, est née dans un contexte socio-politique national et
européen animé de divers événements et changements – l’affaire du Mediator® ou la
transposition de la directive Européenne aux essais cliniques de médicaments à usage
humains, par exemple, constituent deux événements notables dans son histoire.
72 Au-delà de ce contexte, cette loi est présentée par son auteur lui-même, Olivier Jardé,
comme une nécessaire révision de la loi Huriet-Sérusclat, qui avait déjà été modifiée
par la loi de Santé Publique de 2004, et qui depuis 1988 constituait le cadre
réglementaire pour la protection des personnes qui se prêtaient à des recherches
biomédicales. La loi Jardé s’inscrit donc, et ce n’est pas anodin, dans la lignée de lois
précédentes, qui posaient le cadre des recherches interventionnelles liées aux essais
cliniques médicamenteux, autorisant et encadrant la recherche sur l’homme. Au sujet
de la loi Huriet-Sérusclat, Lemaire et Matei (2012) précisent :
… [qu’elle] avait été conçue pour encadrer la recherche sur le médicament.
73 La loi Huriet-Sérusclat de 1988, modifiée par la loi de Santé Publique de 2004 est donc la
première loi de protection de la personne humaine se prêtant à des recherches
biomédicales, dont l’encadrement est assuré par des responsabilités reparties entre
promoteur, investigateur et CCPPRB (Comité Consultatif de Protection des Personnes
dans la Recherche Biomédicale). Rédigée par des pharmacologues (Jaillon & Demarez
2008), elle est clairement inscrite dans le domaine médical. Elle présentait 2 limites
essentielles qui concernaient (i) la distinction entre les recherches avec et sans bénéfice
direct et (ii) les recherches avec les personnes « hors d’état de consentir » ; Ces deux
limites rendaient de fait certaines recherches impossibles à conduire.
74 La loi de Santé Publique de 2004 a constitué une première évolution de la loi Huriet en
proposant des modifications sur les notions de « bénéfice », en modifiant les missions
Corpus, 22 | 2021
145
des CCPPRB devenus les CPP (Comités de Protection des Personnes) et en retravaillant
les modalités de consentement. Cette première révision est, au même titre que la loi
Huriet, inscrite dans le domaine de la recherche médicale avec notamment un cadre
spécifique pour les « recherches portant sur les soins courants ».
75 C’est alors également dans le domaine de la santé que s’inscrit la deuxième révision de
la loi Huriet, proposée par O. Jardé. Ses propositions émanent d’une volonté de
renforcement de la protection de la personne mais souhaitent surtout répondre à trois
écueils principaux qui ont résisté aux précédentes révisions :
• La restriction de la réglementation à la recherche sur les médicaments, c’est-à-dire aux
recherches interventionnelles
• Les dispositions de consentement inadaptées (pourtant révisées en 2004) qui rendaient
impossibles certaines recherches
• L’absence de validation éthique pour les recherches hors champs qui rendait la publication
des résultats de ces études impossibles dans les revues internationales
76 La loi Jardé de 2012 propose ainsi un cadre réglementaire pour toutes les recherches
impliquant la personne humaine avec des modifications majeures :
• L’intégration des recherches non interventionnelles dans le champ d’application de la loi (de
laquelle découle la classification des RIPH en trois catégories, définies dans la section
suivante)
• Une réflexion basée sur la notion de risque (et non plus sur celle de bénéfice)
• Une obligation de demande d’autorisation au CPP (pour toutes les catégories de recherche)
• La création de la Commission Nationale des Recherches Impliquant la Personne Humaine
(CNRIPH)
77 On se rendra aisément compte en examinant précisément les articles de cette loi de
2012, et en particulier le décret d’application du 16 novembre 2016 ainsi que les arrêtés
de décembre 2016 et mai 2017, que tout comme les lois Huriet-Sérusclat et de Santé
Publique, la loi Jardé est également une loi qui s’adresse prioritairement aux acteurs la
recherche clinique médicale.
78 En témoigne le lexique utilisé, non seulement dans les textes réglementaires suscités
(diagnostic, traitement, surveillance Art. 1121-1), mais également dans les articles de
revue dont la loi a pu faire l’objet ; par exemple, au sujet des recherches impliquant la
personne humaine, Rat et collègues (2017) précisent :
Dans le cadre de ces recherches, les actes pratiqués sur les personnes participantes
(traitement, décision de traiter ou non, moyen de surveillance et de suivi médical)
sont définis par un protocole de recherche qui doit être respecté par les médecins
investigateurs.
79 Ou encore concernant les catégories de recherches :
Une notion clé, véritable pivot de la loi et critère majeur de qualification des
recherches, est l’intervention que la recherche ajoute au soin ou à la prise en
charge habituelle. (Matei & Lemaire 2013)
80 Le champ lexical utilisé n’a cependant pas permis de cantonner la loi Jardé au domaine
de la santé, puisque portant dans son titre la mention « personne humaine », son
champ d’application s’est vu étendu à l’ensemble des recherches impliquant l’humain.
Corpus, 22 | 2021
146
3.2. Quae Act Jardé ?
81 La loi Jardé n° 2012-300 du 5 mars 2012 modifie l’article L. 1121-1 du code de la santé
publique en précisant que les recherches organisées et pratiquées sur l’être humain en
vue du développement des connaissances biologiques ou médicales sont autorisées
dans les conditions prévues par la loi et sont désignées par les termes « Recherches
Impliquant la Personne Humaine » (RIPH).
82 Comme précisé plus haut, la loi Jardé est organisée à partir de la notion de « risque »
dont découlent 3 catégories de recherches :
• 1° Les Recherches Interventionnelles (RI) qui comportent une intervention sur la personne
non justifiée par sa prise en charge habituelle
• 2° Les Recherches Interventionnelles qui ne comportent que des Risques et des Contraintes
Minimes (RICRM), dont la liste est fixée par arrêté du ministère de la santé, après avis du
directeur de l’Agence Nationale de Sécurité du Médicament et des produits de Santé (ANSM)
• 3° Les recherches Non Interventionnelles (RNI) qui ne comportent aucun risque ni
contrainte et dans lesquelles tous les actes sont pratiqués et les produits utilisés de manière
habituelle.
83 La liste des recherches mentionnées au 2° et au 3° de l’article L. 1121-1 sont par ailleurs
fixées par l’arrêté du 12 avril 2018.
84 Ainsi, la loi Jardé propose un cadre réglementaire qui préserve la personne se prêtant à
la recherche et catégorise les recherches en fonction du risque encouru par la
personne. Ceci constitue la première grande modification de la loi de Santé Publique
puisqu’à présent, les recherches qui ne présentent aucun risque, i. e. les recherches non
interventionnelles, entrent dans le champ d’application de la loi. De ce fait, et c’est
aussi la deuxième modification majeure, les recherches des 3 catégories sont soumises à
l’autorisation d’un CPP (Art. L. 1123-6 et L. 1123-7), la constitution du dossier de
demande et la procédure d’évaluation étant d’autant plus allégée que le risque encouru
est faible.
85 Concernant les CPP, des modifications sont également apportées (Lemaire 2019) ; elles
concernent l’attribution des dossiers à évaluer qui se font à présent par tirage au sort
(voir Rat et al. 2017 pour le parcours de constitution et de dépôt des dossiers au CPP).
Les missions des CPP sont également augmentées puisqu’à l’évaluation éthique et
scientifique des dossiers s’ajoute la mission de vérification de la protection des données
personnelles des participants. Enfin, la coordination des CPP est confiée à la
Commission Nationale des Recherches Impliquant la Personne Humaine (CNRIPH),
dernière grande modification apportée par la loi de 2012.
86 Les modifications sont donc nombreuses, initialement nées d’une volonté de
simplification du cadre réglementaire relatif aux recherches impliquant la personne
humaine. De nombreuses modifications qui ont fait l’effet d’un raz de marée sur la
communauté des chercheurs en sciences humaines et sociales, puisque de fait, nos
recherches impliquent la personne humaine.
3.3. Regards sur la loi Jardé et les SHS
87 Dès lors, comment situer nos recherches en sciences humaines et sociales ? Comment
mener nos travaux dans le respect de la réglementation en vigueur qui a priori nous
Corpus, 22 | 2021
147
concerne puisque notre objet d’étude est l’humain. Et tout comme les sciences du
vivant, les sciences humaines recouvrent plusieurs disciplines, la question se pose alors
de savoir si toutes sont concernées au même titre.
88 Depuis 2017, la direction du LPL a souhaité mettre en place une cellule de réflexion
autour de cette nouvelle réglementation. Ce groupe s’est constitué de plusieurs
membres du laboratoire, représentants de la diversité des champs de recherche et des
méthodes utilisées dans cette unité réunissant des membres de l’INSHS, de l’INS2I et de
l’INSB. Nous avons entrepris d’examiner et comprendre les termes de la loi Jardé, ce
dans le but de pouvoir l’appliquer, tout en tenant compte de la diversité des recherches
menées au LPL. Notre groupe s’est donc penché sur les textes officiels (loi, décrets,
arrêtés) ainsi que sur les documents de support préparés par nos institutions 22.
89 À partir de ces documents, nous avons, pas à pas, questionné les termes de la loi pour
répondre à la première interrogation : nos recherches, menées au LPL, sont-elles
concernées par ce nouveau cadre réglementaire ? Une première interrogation à
laquelle se sont ajoutées les nombreuses suivantes : Si oui, quel sera l’impact sur nos
pratiques habituelles ? Comment nos travaux s’inscrivent-ils dans ce champ législatif ?
Comment déterminer si telle ou telle étude rentre dans telle ou telle catégorie ?…
90 Pour répondre à ces questions, nous avons dans un premier temps tâché de définir les
RIPH : « recherches organisées et pratiquées sur l’être humain en vue d’améliorer les
connaissances biologiques ou médicales ».
91 Nous avons ainsi pu déterminer, à l’appui des documents que :
• L’expression « recherches organisées » implique le recrutement de sujets et l’existence d’un
protocole.
• L’expression « pratiquées sur l’être humain » implique la réalisation d’actes pouvant porter
atteinte à l’intégrité physique ou psychique de la personne.
• L’expression « en vue du développement des connaissances biologiques ou médicales »
implique la connaissance de la vie, au sens de l’étude du développement de la physiologie,
du comportement… sans qu’il y ait de frontière entre les disciplines.
92 À ce stade, les études menées en linguistique, en psycholinguistique et en
neurolinguistique dans notre laboratoire semblaient répondre à la définition des RIPH.
93 Cette dernière expression « en vue du développement des connaissances biologiques ou
médicales » soulève la question de la finalité de la recherche qui semble alors
déterminante pour situer nos travaux dans ou hors du champ d’application de la loi
Jardé. Par ailleurs, la notice explicative de l’INSB du CNRS insiste sur les données de la
recherche, en particulier le type de données et les modalités de recueil. Nous avons
longuement débattu afin de déterminer laquelle de ces deux entrées « finalité » ou
« données » nous permettrait d’avancer sur notre première interrogation, alors encore
sans réponse. En filigrane, le sentiment du groupe était que cette loi concernait surtout
les recherches cliniques médicales.
94 Nous avons pris connaissance des arrêtés du 12 avril 2018, fixant la liste des recherches
mentionnées au 2° et au 3° de l’article L. 1121-1 (c’est-à-dire les recherches de catégorie
2 et 3, respectivement les RIRCM et les RNI). Encore une fois, le lexique utilisé est ancré
dans la médecine. Pour autant, le 7e point de l’arrêté fixant la liste des recherches de
catégorie 2, portant sur les
Techniques de recueil et de collecte de données au moyen de capteurs ou de
méthodes d’imagerie
Corpus, 22 | 2021
148
95 nous interpelle puisque sont couramment utilisés au LPL les dispositifs de recueil de
données biodermales, électro-encéphalographiques, électro-magnéto-
articulographiques.
96 Dans ce même Arrêté, la liste des actes et procédures pouvant être réalisés dans le
cadre d’une recherche de catégorie 3 (RNI) comprend au 4e point le
Recueil par capteurs extra-corporels non invasifs, notamment […] enregistrement
par […] électroencéphalogramme […] capteurs de mouvement […].
97 Puis au 5e point les
Enregistrements audio, vidéos, photographiques hors imagerie médicale.
98 Et enfin en 8e point les
Entretiens, observations, tests et questionnaires […].
99 Après l’examen de cet Arrêté, nous admettons que toutes les recherches menées au LPL
relèvent de la loi Jardé et que toutes les recherches devront faire l’objet d’une demande
d’autorisation au CPP. Nous mesurons l’ampleur du changement à venir dans nos
pratiques (constitution de dossier, soumission et délai de réponse), puisque jusque-là,
un petit nombre seulement de chercheurs avait eu à demander un avis au CPP.
100 Forts de cette conclusion, nous abordons la question des catégories de recherche dans
le but de proposer un guide qui nous permettrait (i) de situer nos recherches dans l’une
des trois catégories de la loi et (ii) d’identifier le parcours des demandes d’autorisations
à suivre. Ce travail nous a conduits à répartir nos recherches essentiellement entre les
catégories 2 (RICRM) et 3 (RNI), à l’appui de l’Arrêté d’avril 2018 qui précisait la nature
des données et les conditions de recueils. Notre répartition était donc basée sur les
méthodologies de la recherche.
101 Ce guide a été restitué aux membres du laboratoire et nous avons poursuivi notre
travail de « veille législative » au cours de nos réunions mensuelles.
3.4. Parce que nous le valons bien…
102 Soucieux de suivre l’évolution de la réglementation en vigueur, nous assistons à une

conférence donnée par O. Jardé et F. Lemaire invités par l’université Paris Nanterre 23 ;
l’occasion pour nous de questionner directement les auteurs de la loi et des décrets
relatifs à son application. C’est à cette occasion que nous apprenons qu’au-delà de notre
groupe de réflexion, une réaction s’est faite plus musclée : une grande industrie du
cosmétique, inquiète de voir son activité de recherche paralysée, a saisi le conseil d’État
pour que soient définies comme n’étant pas des recherches impliquant la personne
humaine les recherches
qui bien qu’organisées et pratiquées sur des personnes saines ou malades, n’ont pas
pour finalités celles mentionnées au I, et qui visent :
a) Pour les produits cosmétiques, conformément à leur définition mentionnée à
l’article L. 5131-1, à évaluer leur capacité à nettoyer, parfumer, modifier l’aspect,
protéger, maintenir en bon état le corps humain ou corriger les odeurs corporelles
103 Ceci sera en effet mentionné dans le décret de mai 2017 modifiant certaines
dispositions réglementaires relatives aux recherches impliquant la personne humaine.
104 Nous pourrons également lire, dans ce même décret :
Ne sont pas des recherches impliquant la personne humaine au sens du présent
titre les recherches qui, bien qu’organisées et pratiquées sur des personnes saines
Corpus, 22 | 2021
149
ou malades, n’ont pas pour finalités celles mentionnées au I et qui visent : […]
d) À réaliser des expérimentations en sciences humaines et sociales dans le
domaine de la santé (Art. R. 1121-1.-II-1°d)
105 La parution du décret de 2017 a clairement modifié notre lecture de la loi Jardé. En
reprenant notre réflexion initiale, nous avons pu proposer une nouvelle ventilation des
recherches menées au laboratoire qui fait apparaître les recherches en fonction des
méthodes de recueil des données et selon qu’elles entrent ou pas dans le champ
d’application de la loi. Conformément au décret de 2017, toutes nos recherches en
Sciences humaines et sociales, dont la finalité concerne cette discipline n’entrent pas
dans le champ d’application de la loi, qu’elles impliquent des personnes saines ou
malades.
106 Lors de cette conférence à Nanterre, les auteurs O. Jardé et F. Lemaire ont clairement
expliqué à l’assemblée que ce qui déterminait l’appartenance de la recherche au champ
d’application de la loi était sa finalité.
107 Cependant, les recherches couramment menées au LPL, et en particulier les recherches
impliquant des questions cliniques et/ou des populations de patients se situent, selon
les membres du groupe, à la frontière du champ d’application de la loi. Nous en avons
conclu, qu’en plus de la finalité, il conviendra le cas échéant de s’interroger sur la
méthode de recueil des données et la population visée. En effet, au-delà de la finalité, ce
seront ces deux points qui pourront être déterminants pour conclure. Prenons trois
exemples de travaux menés au LPL :
108 [1] Caractéristiques de l’humour réussi (Priego-Valverde 2018) : cette étude est menée
afin de clarifier le concept d’« humour réussi ». Elle propose une analyse de séquences
humoristiques dans des interactions en face-à-face. Les données sont constituées de
l’enregistrement audio-visuel de 3 interactions. Cette étude, dont la finalité concerne
une meilleure connaissance de l’humour dans les interactions au travers d’une analyse
linguistique est sans conteste positionnée dans le champ des SHS. Les participants et les
méthodes de recueil des données le sont également. Le décret de 2017 situe donc cette
étude en dehors du champ d’application de la loi Jardé.
109 [2] Contribution des paramètres intonatifs et temporels à la réalisation de certaines
variations mélodiques (Petrone, Lalain & Mattei) L’objectif de cette étude est de mieux
comprendre la contribution relative des paramètres intonatifs et temporels dans la
réalisation de certains patrons prosodiques. L’étude est menée auprès de sujets sains et
de patients porteurs d’une paralysie laryngée. Les données sont constituées
d’enregistrements audio de productions de phrases. On pourrait être plus hésitants que
dans le cas précédent pour qualifier cette étude, notamment parce qu’elle implique des
patients ; pourtant, parce que sa finalité concerne l’amélioration des connaissances
concernant la réalisation de contrastes prosodiques, et que l’enregistrement audio est
une méthode de recueil des données classiquement utilisée, cette étude s’inscrit bien
dans le champ des SHS. Conformément au décret de 2017, cette étude se situe en dehors
du champ d’application de la loi Jardé.
110 [3] Production de la parole et dysarthrie parkinsonienne (Sarr et al. 2009) Cette étude
est conduite auprès de patients parkinsoniens afin de déterminer si la production de la
parole de ces patients est améliorée par un traitement neurochirurgical particulier, la
stimulation cérébrale profonde. Des analyses des valeurs de pression intra-orale
permettent de caractériser cet effet potentiel sur le contrôle pneumo-phonatoire.
L’étude est menée par des chercheurs de SHS, auprès de patients ; la méthode de recueil
Corpus, 22 | 2021
150
de données est non invasive (enregistrements aérodynamiques). Les données sont

recueillies dans deux conditions : lorsque les patients ont la stimulation cérébrale en
marche, ou à l’arrêt. Pour cette étude, la finalité concerne la production de la parole ;
elle entre donc bien dans le champ des SHS. Cependant, les conditions de recueil de
données impliquent une modification du soin courant. Dans cet exemple donc, bien
qu’elle consistait à « réaliser des expérimentations en sciences humaines et sociales
dans le domaine de la santé », cette recherche serait qualifiée aujourd’hui de
« recherche[s] Interventionnelle[s] (RI) qui comporte[nt] une intervention sur la
personne non justifiée par sa prise en charge habituelle ».
111 Les trois exemples ci-dessus, illustrent 3 catégories de cas pour lesquels nous nous
sommes interrogés au LPL. Un premier cas, pour lequel le décret de 2017 a levé tout
doute concernant la qualification de ce type de recherche.
112 Un second cas, pour lequel, tout en nous appuyant sur le décret de 2017, nous avons
porté notre vigilance sur la population et le mode de recueil de données.
113 Enfin le dernier cas montre bien que la question de la finalité ne peut être en réalité le
seul et unique argument pour qualifier la recherche et qu’il convient de considérer, le
cas échéant, précisément le risque que la personne encourt.
114 Au-delà de ces cas de figure plutôt simples, il peut arriver que le doute subsiste dans la
qualification de la recherche, en particulier, comme nous l’avons illustré plus haut,
lorsque la recherche présente des questions en lien avec la santé. Lorsque c’est le cas,
nous l’avons précisé, c’est l’analyse de la finalité, de la population et de la méthodologie
de recueil des données qui permettra de lever le doute et de conclure sur
l’appartenance ou non de la recherche au champ d’application de la loi. Lorsqu’une
recherche en SHS relève de la loi Jardé, en général, elle entre essentiellement dans la
catégorie 3 de la loi (les RNI) et la liste des actes et procédures pouvant être réalisés
dans ce cadre est fixée par l’arrêté de 2018. Cette liste comprend notamment le recueil
de données par capteurs extra-corporels non invasifs par exemple : EEG, capteurs de
mouvement, enregistrements audio, vidéo, entretiens et questionnaires. Que la
recherche relève de la catégorie 3 est un moindre mal puisque dans ce cas, l’avis au CPP
sera nécessaire, mais la procédure pour les RNI est une procédure allégée qui permet
d’obtenir un no IRB et ne nécessite pas d’assurance.
115 Finalement, dans la grande majorité des cas, nos recherches en SHS sont des recherches
n’impliquant pas la personne humaine au sens de la loi Jardé et sont donc hors champs,
ou bien sont bien des RIPH et entrent généralement dans la catégorie 3 des RNI pour
lesquelles le parcours d’autorisation est considérablement allégé.
116 Dans les deux cas, les responsables des recherches peuvent demander l’avis d’un comité
éthique et de recherche scientifique ; pour les recherches n’impliquant pas la personne
humaine, cette démarche permettra de valider la recherche d’un point de vue éthique
et scientifique et permettra l’obtention d’un numéro qui pourra être fourni lors de la
soumission des résultats à une revue.
117 Pour les recherches dont les responsables sont dans l’incertitude, le comité éthique
pourra donner un avis consultatif et préciser si oui ou non la recherche doit faire l’objet
d’une demande de CPP.
118 Pour les recherches qui entrent dans le champ d’application de la loi Jardé, la demande
d’un CPP permettra d’assurer la validité de la recherche d’un point de vue légal,
éthique et scientifique.
Corpus, 22 | 2021
151
119 Nous soulignons ici la différence entre le cadre éthique et le cadre légal : demander une
validation éthique et scientifique de sa recherche devient indispensable pour répondre
aux exigences éditoriales des revues. Mais une recherche éthique n’entre pas
nécessairement dans le champ d’application de la loi Jardé et ne nécessite pas
forcément un avis du CPP. C’est précisément aux comités éthique et de recherche
scientifique des universités qu’est dévolue cette mission.
3.5. L’impact de la loi Jardé sur les recherches en SHS, en bref
120 Le contexte et les raisons qui ont vu naître la loi Jardé, ainsi que les qualifications et
professions de ses auteurs constituent une part d’explication au désarroi que l’on a vu
naître chez les acteurs de la recherche en sciences humaines et sociales : la loi Jardé est
en définitive une loi proposée par des médecins, pour encadrer la recherche clinique
(Lemaire 2019) ; le champ lexical de la loi elle-même est, nous l’avons vu, très spécifique
au domaine médical et ce sont en particulier les termes cliniques qui sont utilisés dans
les publications traitant de la loi Jardé, des recherches interventionnelles, etc.Toute
l’ambiguïté à laquelle chacun a pu être confronté à la lecture des textes réglementaires
a disparu à la publication du décret de mai 2017.
121 En SHS, pour le recueil des données linguistiques, il s’agira dans un premier temps
d’identifier clairement la finalité de la recherche afin de pouvoir la situer hors ou dans
le champ d’application de la loi Jardé, en se référant aux articles R. 1121-1.I et
R. 1121-1.-II.-1°-d du décret n° 2017-884 du 9 mai 2017. Nous pensons également
nécessaire l’examen, outre la finalité, de la population impliquée et de la méthode de
recueil des données. Puis, le cas échéant, il conviendra de situer sa recherche dans l’une
des trois catégories RI, RIRCM ou RNI et d’accomplir les démarches de rigueur.
122 La loi Jardé, nous l’avons vu, propose un cadre réglementaire et inclut dans les
attributions des CPP la prise en charge les dispositions d’information et de
consentement des personnes volontaires se prêtant à la recherche. Cependant, ce point
concerne toutes les recherches impliquant la personne humaine ; ainsi, les questions
d’information et de consentement restent une préoccupation obligatoire et
réglementée du responsable du projet de recherche. Elle est définie cette fois par le
cadre réglementaire de la protection des données à caractère personnel codifié par le
RGPD dont les nouvelles dispositions ont fait l’objet de la première partie de cet article.
4. Conclusion
123 Les nouveaux cadres réglementaires pour ce qui concerne la protection des données et
la protection des personnes ont généré beaucoup d’inquiétudes chez les différentes
communautés de chercheurs qui ont senti leur pratique sur le point d’être
bouleversées.
124 Ces inquiétudes n’ont pas épargné les membres du groupe éthique du LPL. Mais après
deux années à prendre connaissance des textes et débattre de leur contenu, nous avons
progressé dans la compréhension de ces nouveaux cadres réglementaires et avons pu
poser un regard plus positif sur les changements, finalement moindres, qu’ils
entraînent dans notre pratique courante.
Corpus, 22 | 2021
152
125 En réalité, en SHS, la nouvelle réglementation sur la protection de la personne n’a pas
d’impact majeur, puisque dans la majorité des cas, les recherches en SHS n’entrent pas
dans le champ de la loi Jardé. En définitive, le dossier que l’on peut avoir à déposer de
manière plus certaine, constitue la demande d’approbation d’un comité éthique et de
recherche des universités qui nous permettra de valider nos questionnements éthiques
et satisfaire les exigences éditoriales des revues. Le nouveau règlement de protection
des données n’est finalement pas non plus une nouveauté en ce sens que les contraintes
qu’il impose existaient pour la plupart déjà et étaient seulement méconnues des
chercheurs, ces derniers n’ayant alors pas conscience que leurs données pouvaient être
concernées.
126 Plus qu’un frein à nos pratiques, ces nouvelles réglementations peuvent être vues de
manière positive puisque par les réflexions qu’elles nous conduisent à avoir sur nos
projets, elles nous permettent d’élaborer, de manière sans doute plus précise, les
notions relatives à la protection des personnes impliquées dans nos études, et à
prendre en considération de façon plus systématique les possibles écueils et biais
méthodologiques relatifs au traitement et à la protection de données. Les formulaires
que nous sommes amenés à remplir peuvent ainsi être vus comme des outils
d’amélioration de nos pratiques professionnelles. Peu à peu, nos tutelles ont mis en
place des supports d’aide (documents en ligne, personnel dédié) qui rendent la tâche
plus facile. Enfin, l’énergie que nous mettons pour être en conformité avec la loi Jardé,
le RGPD et l’éthique de la recherche n’est pas vaine puisqu’elle est maintenant amenée
à être réinvestie pour répondre aux nouvelles demandes de Data Management Plan
(DMP) qui émanent des organismes financeurs tels que l’ANR.
BIBLIOGRAPHIE
Arrêté (2018). Arrêté du 12 avril 2018 fixant la liste des recherches mentionnées au 3° de
l’article L. 1121-1 du code de la santé publique. NOR : SSAP1810240A. https://
www.legifrance.gouv.fr/eli/arrete/2018/4/12/SSAP1810240A/jo/texte.
CNRS-InSHS (2019). André-Poyaud I., Astor S., Baude O., Boudjaaba F., Bujan G., Collignon B.,
Dubois F., Kessous E., Maurel L. & Roger M. Les sciences humaines et sociales et la protection des
données à caractère personnel dans le contexte de la science ouverte. InSHS – Guide pour la recherche,
juin 2019. Récupéré sur https://inshs.cnrs.fr/sites/institut_inshs/files/pdf/guide-rgpd_2.pdf.
Décret (2017). Décret n° 2017-884 du 9 mai 2017 modifiant certaines dispositions réglementaires
relatives aux recherches impliquant la personne humaine NOR : AFSP1706303D https://
www.legifrance.gouv.fr/eli/decret/2017/5/9/AFSP1706303D/jo/texte.
Dérogations (2019). Article 100-1, abrogé au 1er juin 2019. Section 5 : Garanties et dérogations
applicables au traitement à des fins de recherche scientifique ou historique ou à des fins
statistiques. Récupéré sur https://www.legifrance.gouv.fr/affichTexte.do?
cidTexte=LEGITEXT000006052581&dateTexte=20180812#LEGISCTA000037282494.
Corpus, 22 | 2021
153
Ghio A., Pouchoulin G., Viallet F., Giovanni A., Woisard V., Crevier-Buchman L., Hirsch F., Fauth C.
& Fredouille C. (2020). « Du recueil à l’exploitation des corpus de parole “pathologique” :
comment accéder à la variation physiopathologique ? », Corpus 22.
Huriet (1988) loi n° 88-1138 du 20 décembre 1988 dite Huriet relative à la protection des
personnes qui se prêtent à des recherches biomédicales NOR : SPSX8810045L.
Jaillon P. & Demarez J.-P. (2008). « L’histoire de la genèse de la loi Huriet-Sérusclat de décembre
1988 », Médecine/Sciences 24(3) : 323-327 ; DOI : 10.1051/medsci/2008243323.
Jardé (2012). Loi n° 2012-300 du 5 mars 2012 relative aux recherches impliquant la personne
humaine. Version consolidée au 26 janvier 2020. Récupéré sur https://www.legifrance.gouv.fr/
affichTexte.do?cidTexte=JORFTEXT000025441587.
Lemaire F. (2019). « La loi Jardé : ce qui change », La Presse Médicale 48(3) Part. 1 : 238-242.
Lemaire F. & Matei M. (2012). « De la loi Huriet à la loi Jardé », Réanimation 21 : 373-374.
Matei M. & Lemaire F. (2013). « La loi Jardé facilitera-t-elle la recherche clinique ? », La lettre du
Cardiologue, 464-465.
LIL (1978). Loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés.
Récupéré sur https://www.legifrance.gouv.fr/affichTexte.do?
cidTexte=JORFTEXT000000886460&categorieLien=id.
LIL (2019). La loi « Informatique et Libertés », nouvelle édition du 17 juin 2019. Récupéré sur
https://www.cnil.fr/fr/la-loi-informatique-et-libertes.
Loi de Santé Publique (2004). Loi n° 2004-806 du 9 août 2004 relative à la politique de santé
publique, NOR : SANX0300055L https://www.legifrance.gouv.fr/eli/loi/2004/8/9/SANX0300055L/
jo/texte.
LPL (2020). GT éthique. Récupéré sur http://www.lpl-aix.fr/recherche/ethique/.
Priego-Valverde B. (2018). « Sharing a laugh at others : Humorous convergence in French

conversation ». European Journal of Humour Research, International Society for Humor Studies, 6(3),
DOI : 10.7592/ejhr2018.6.3.priego, HAL : hal-01923354.
Rat C., Tudrej B., Kinouani S., Guineberteau C., Bertrand P., Renard V., Saint-Lary O. & le Comité
d’éthique du Collège national des généralistes enseignants (2017). « Encadrement réglementaire
des recherches en médecine générale », Exercer 135 : 327-334.
RGPD (2018). Le règlement général sur la protection des données - RGPD, 23 mai 2018. Récupéré
sur https://www.cnil.fr/fr/reglement-europeen-protection-donnees.
Sarr M.M., Pinto S., Jankowski L., Teston B., Purson A., Ghio A., Régis J., Peragut J.C. & Viallet F.
(2009). « Contribution de la mesure de la pression intra-orale pour la compréhension des troubles
de la coordination pneumophonique dans la dysarthrie parkinsonienne », Revue Neurologique 165 :
1055-1061, [IF: 1.762] DOI : 10.1016/j.neurol.2009.03.012.
NOTES
1. Appelé aussi DPO pour Data Protection Officer.
2. Citons par exemple, la métadonnée qualifiant le type de dysarthrie d’un corpus constitué
d’enregistrements sonores comme des extraits du texte de « La chèvre de Mr Seguin » lus par des
personnes souffrantes de maladie neurologique.
3. Commission Nationale de l’Informatique et des Libertés.
Corpus, 22 | 2021
154
4. Passage d’une logique déclarative ou d’autorisation préalable à une logique de

responsabilisation et de contrôle du responsable de traitement.
5. Numéro d'Inscription au Répertoire (INSEE) ou encore appelé Numéro de Sécurité Sociale.
6. Comité d’Expertise pour les Recherches, les études et les évaluations dans le domaine de la
santé.
7. Par exemple, le formulaire d’inscription au registre du CNRS accessible depuis l’intranet
https://intranet.cnrs.fr/.
8. Article 5 du RGPD, paragraphe 1 (a-f).
9. En général, il correspond à une description plus explicite que le titre du projet.
10. Au sens de l'article L. 112-1 du code de la recherche [En ligne].
11. Article 5 du RGPD, paragraphe 1 (e).
12. Voir « L’anonymisation des données, un traitement clé pour l’Open Data », CNIL, 17 octobre
2019, https://www.cnil.fr/fr/lanonymisation-des-donnees-un-traitement-cle-pour-lopen-data.
13. Par exemple, une durée de 7 années (+ l’année en cours) à laquelle se cumule 2 années
supplémentaires après chaque publication de résultats scientifiques utilisant les données.
14. « La pseudonymisation permet de traiter les données d’individus sans pouvoir identifier
ceux-ci de façon directe », CNIL.
15. Par exemple, une clé codée sur 7 caractères correspondant à la concaténation de l’initiale en
majuscule du nom et du prénom, du caractère tiret et d’un nombre incrémental sur 4 chiffres.
16. https://www.nakala.fr/
17. https://www.ortolang.fr/
18. Par exemple, le bruitage ou la déformation d’enregistrements sonores rendrait impossible
toute recherche en linguistique ou en phonétique clinique.
19. https://www.cnil.fr/fr/reglement-europeen-protection-donnees/chapitre3
20. Droit à l’information, d’accès, de rectification, à l’effacement, à la limitation, d’opposition, à
la portabilité, au retrait du consentement…
21. Droit de définir des directives relatives au sort de ses données à caractère personnel après sa
mort (Chap. II Art. 48 LIL 17 juin 2019).
22. http://www.lpl-aix.fr/recherche/ethique/
23. https://www.parisnanterre.fr/agenda/olivier-jarde-francois-lemaire-les-recherches-
impliquant-la-personne-humaine-ce-que-change-la-loi-jarde--907338.kjsp
RÉSUMÉS
Dans le cadre de la collecte des corpus oraux et multimodaux en Sciences Humaines et Sociales
(SHS), le respect de l’application du nouveau Règlement Général sur la Protection des Données à
caractère personnel provoque un profond bouleversement dans l’organisation et les méthodes de
travail des chercheurs. C’est aussi le cas de la Loi Jardé, relative aux recherches impliquant la
personne humaine, qui a étendu la notion de protection des personnes au-delà du champ de la
recherche biomédicale. Ces deux importants changements de cadre législatif obligent
aujourd’hui la communauté scientifique à s’interroger à la fois sur la protection de la personne et
sur la protection des données à caractère personnel.
En définitive, avant d’initier un travail de recherche, un important travail de réflexion et
d’actions est à mettre en place pour collecter des données dans le respect de la réglementation de
Corpus, 22 | 2021
155
protection des données et du cadre législatif de protection de la personne humaine. Identifier les
difficultés pour envisager les solutions les plus adaptées est la mission que s’est fixée le groupe de
réflexion constitué autour de la question « éthique » au Laboratoire Parole et Langage (LPL 2020).
Nous proposerons dans cet article les réflexions argumentées de notre groupe sur l’impact de ces
nouvelles réglementations sur les recherches en linguistique.
The new legal regulations for personal data protection (in France, Règlement Général sur la
Protection des Données - RGPD) have had a profound impact on the organization and
methodology concerning the collection of oral and multimodal corpora for human science
research. This was also the case with the Jardé law for research involving human beings, which
extended the concept of individual protection beyond the field of biomedical research to include
research in the humanities. These two important changes to the French legislative framework
bring the scientific community to question the protection of participants and personal data.
In compliance with the legislative framework, important reflection and actions are necessary
before initiating any research or data collection. To deal with these ethical questions, the think
tank at the Laboratoire Parole et Langage (LPL 2020) set out to identify the difficulties in
determining the most suitable solutions. In this article, we will share the documented reflections
of our group on the impact of these new legal regulations on linguistic research.
INDEX
Mots-clés : RGPD, données personnelles, Loi Jardé, recherche impliquant la personne humaine
Keywords : RGPD, personal data, Jardé law, research involving human beings
AUTEURS
MURIEL LALAIN
GILLES POUCHOULIN
BÉATRICE PRIEGO-VALVERDE
SERGE PINTO
Corpus, 22 | 2021
156
Varia
Corpus, 22 | 2021
157
Des discours authentiques singuliers

aux scénarios de formation pour les
médecins : quelle méthode
d’exploitation pragmatique du
corpus DECLICS2016 ?
From authentic original speech to pedagogical medical conversation scenarios:
which kind of methodological pragmatic exploitation of DECLICS2016 corpus?
Emmanuèle Auriac-Slusarczyk et Aline Delsart
Contexte introductif
1 La linguistique de ou sur corpus (Léon, 2008) prend sens, pour partie, dans ses
applications. C’est le cas des analyses politiques, par exemple, fort utiles pour
comprendre les phénomènes pragmatiques de distorsions possibles des opinions via un
usage langagier singulier (Trognon & Larrue, 1997). Les études de linguistes ont
d’ailleurs peu à peu migré vers l’utilisation, par les journalistes, d’outillages facilitant
leur accès aux techniques de fouille automatisée, via des logiciels dédiés, gratuits, libres
de droit (Marchand, 1998). Les travaux de Mayaffre sont à cet égard exemplaires d’une
application utile et judicieuse au champ de l’analyse politique (Mayaffre, 2012 ;
Mayaffre, Pincemin & Poudat, 2019, pour exemples). À l’heure où nous écrivons cet
article, c’est-à-dire en pleine effervescence sanitaire mondiale de la Covid-19, la portée
du corpus DECLICS2016 peut même être interrogée quant à ses retombées sur la
politique de santé publique. Ainsi, pourquoi faire un corpus, et quel usage envisager dès
sa conception ?
2 Initialement et structurellement, le projet DECLICS1 (Dispositif d’Etude CLInique des Corpus
en Santé), dans lequel s’inscrit notre contribution, visait à faire dialoguer différents
partenaires : des laboratoires de SHS et des laboratoires de médecine, associant des
Corpus, 22 | 2021
158
chercheurs francophones (Poitiers, Rennes, Nancy-Metz, Genève, Lyon). La valeur

ajoutée de la collaboration concourait à présenter un nouveau corpus verbal dédié,
DECLICS20162, pour réfléchir sur les relations soignants-patients à l’hôpital (Blasco et al.,
2019). La linguistique appliquée (Auriac-Slusarczyk & Blasco, 2019) contraint à sortir de
son confort pour étudier des milieux divers, variés. Qu’en est-il du milieu médical ? À
l’international (notamment Angleterre, USA, Allemagne, Québec) puis en France,
l’évolution historique des méthodes en médecine jusqu’à la loi de modernisation du
système de santé de 2016 (Berthod-Wurmser et al., 2017) a engagé un infléchissement
progressif du modèle paternaliste (Préau & Siméone, 2018). Ce dernier, reposant sur la
confiance en l’autorité médicale jusqu’à l’usage même du mensonge (Faizang, 2006),
recule au profit du modèle biopsysocial (Billon-Descarpentries, 2000) ; la direction de
l’OMS installe dès 2006 la notion de people-centredness. À noter qu’en Angleterre, les
groupes Balint (1957), d’orientation psychanalytique, prônaient déjà la méthode des
focus groups entre médecins pairs généralistes, intégrant la verbalisation du vécu par les
patients. La France s’est distinguée, pour sa part, en s’appuyant davantage sur les
associations de patients, investiguant le contexte hospitalier plus que la médecine
générale (Bousquet & Ghadi, 2017). Ainsi, la pertinence des SHS en médecine est
reconnue (Louis-Courvoisier, 2015) et l’étude de la conversation située en contexte
médical est régulièrement retenue (Piot, 2018), notamment en contextes de suivi de
maladies chroniques (Do & Bissières, 2018 ; Balcou-Debussche & Autier, 2018 ; Balcou-
Debussche, 2016a/b).
3 Que peut apporter la linguistique contemporaine à l’aune de ce tournant en santé ? La
linguistique ne cesse, de son côté, de roder ses méthodes, tant théoriquement
qu’empiriquement. Pour ce qui concerne notre orientation pragmatique, allant de la
philosophie du langage à l’actualisation des travaux d’Austin, plusieurs équipes ont fait
école : les écoles genevoise, lyonnaise, nancéienne ont chacune développé des
méthodes d’analyse de discours. Par ailleurs, au plan empirique, le développement de la
linguistique de et sur corpus a occasionné un nombre impressionnant de travaux dont
la revue Corpus se fait justement l’écho (Mellet, 2002). La question se décale alors un
peu. Est-ce qu’une étude particularisée de paroles authentiques, recueillies, transcrites
et analysées par des linguistes a des chances d’intéresser le monde professionnel de la
médecine, sachant que depuis les années 90 le genre de la consultation médicale est
abordé (Lacoste et al., 1993) à partir de matériau ad hoc (Batt & Trognon, 2012, pour
exemple) ? De quelle manière épauler les médecins ? Comment introduire auprès des
médecins une vision de la linguistique renouvelant leur intérêt quasi exclusif pour le
vocabulaire, en relevant plutôt les conséquences de leurs emplois verbaux au mot près
(Mayaffre, 2017) ?
1. Cadre référentiel
4 Adaptée à la spécificité du corpus DECLICS2016, qui comprend un dispositif expérimental
impliquant des thérapeutes pour le suivi de malades chroniques, notre question
centrale est la suivante : la linguistique contemporaine peut-elle aider à une
reconfiguration communicationnelle de la relation médecin-patient (cf. Berthod-
Wurmser et al., 2017, ci-dessus) ?
Corpus, 22 | 2021
159
1.1. La notion de corpus en linguistique : généralités
5 En annonçant que nous abordons ce champ sous l’angle assumé des généralités, nous
reprenons une citation, un peu longue figurant sur le premier volume de la revue
Corpus :
[l]a notion de corpus paraît, de prime abord, assez simple et bien ancrée dans
certaines traditions des sciences humaines et sociales, philologique ou juridique par
exemple. Il s’agit d’un recueil, formé d’un ensemble de données sélectionnées et
rassemblées pour intéresser une même discipline. Néanmoins, dans le champ
linguistique, la notion s’est complexifiée au cours des dernières décennies en
fonction de la diversité des pratiques et des objectifs assignés à la constitution et à
l’exploitation des corpus. Or le moment semble venu d’expliciter ces pratiques, de
les questionner et de tenter de mettre au jour leur impact épistémologique sur
l’évolution de la discipline, tant il est vrai – comme l’écrit Damon Mayaffre – que la
qualité première d’une démarche scientifique est d’être une démarche qui
s’explicite. (Mellet, 2002 :1).
6 Nous nous situons, quasiment 20 années plus tard, sur cette identique volonté de porter
explicitement les choix de constitution, les méthodes d’exploitation, ce, sans cacher les
soucis que rencontrent les linguistes dans le traitement interdisciplinaire de données
en termes de retombées professionnelles (Kébir et al., 2020). C’est dans cette
perspective épistémologique de la linguistique que nous situons les enjeux de cette
contribution.
1.2. L’exercice de la médecine : quel lien avec la linguistique ?
7 Sur le volet professionnel, Lussier et Richard (2008) ont proposé un modèle assez
normatif en contexte québécois (cité par Richard et al., 2010, cf. figure en annexe)
polarisant la relation médecin-patient depuis le rôle de prise en charge jusqu’à la celui de
facilitateur. Dès 1951, Parsons proposait une nomenclature, qui fut progressivement
révisée, amendée, transformée (Szasz & Hollender, 1956 ; Freidson, 1984 ; Emanuel &
Emanuel, 1992 ; Moumjid & Carrère, 2000, cf. tableau en annexe). Par ailleurs, le modèle
structurel de la consultation de type « étapiste » subsiste ; il a servi de référence aux
travaux des années 80-90 (Richard et al., 2010). Des 3 aux 10 étapes décrites et
préconisées aux médecins en formation, on note un décalage avec la description que
Cosnier et al. (1993) avaient construite à partir de données verbales authentiques.
Différemment de Richard et Lussier, nous considérons, pour notre part, que la relation
est au cœur du système d’interlocution (Trognon, 1995 ; Auriac, 2007), le social
construisant la relation, l’intercompréhension savante dépendant du système de places
interlocutives (Kerbrat-Orecchioni, 1987). Gagne-t-on à faciliter la parole des patients
chroniques (Piot, 2018) ? Le linguiste peut-il, à ce niveau, être utile à former à la
relation de soin ?
1.3. Linguistique et médecine : quels ponts, quelle(s) méthode ?
8 Si l’enjeu de soin est important, on ne minimise pas les effets de distance entre la
culture des médecins et celle des chercheurs en sciences sociales (Louis-Courvoisier,
2015) ; on se garde de toute naïveté. La pédagogie médicale n’est pas facile à installer
(Boelen, 2014). Le modèle délibératif (Ericsson, 2004 ; Côté, 2015) pourrait paraitre le
plus idoine aux prescriptions actuelles en santé (cf. plus haut). Nous prendrons comme
Corpus, 22 | 2021
160
ancrage la référence à la clinique de l’activité de Clot (2007), préférant déléguer la

question du métier directement aux médecins hospitaliers spécialistes, plutôt
qu’imposer un style pensé comme préférable a priori en matière de santé. Nous
délaissons de même les modèles de formation à la consultation (Lussier & Richard,
2008 ; Fournier & Kerzanet, 2007) au profit d’une centration sur les souhaits des
intéressés, proposant aux médecins des scénarios-type communicationnels à discuter.
Rétroagir sur ses propres pratiques de consultations (Côté, 2015) via l’insertion de
modules de SHS en 1re année de formation en santé (Gaillard & Lechopier, 2015) est
possible, à partir de données linguistiques. Un premier focus group avec trois/quatre
médecins experts fut envisagé à partir des données de DECLICS2016 : nous les
soumettions à des données verbales aménagées, en tentant de séparer le spécialiste de
ses habitudes de raisonnement clinique médical (Jouquand et al., 2013 ; Audétat et al.,
2011) ; nous changions le lexique employé, les références authentiques au traitement.
Notre intérêt était à terme de pouvoir aider les internes en médecine à appréhender
l’espace de la consultation médicale. On souhaitait court-circuiter le raisonnement
médical activé via l’expérience professionnelle des spécialistes qui nous semblait peu
transmissible en formation initiale. Mais, quelle marge de progression professionnelle
peut-on attendre des représentations des médecins (Nguyen-Khac, 2017) quant à divers
scénarios communicationnels ?
2. Petit et grand corpus : intérêt et limite du corpus

DECLICS2016
9 La notion de corpus n’est pas stabilisée. Doit-on considérer l’utilité d’un corpus via a) sa
taille (Danino, 2018), sa dimension applicative à un secteur professionnel - le soin
(Cosnier, Grosjean & Lacoste, 1993), - l’éducation (Henrion-Latché & Auriac-Slusarczyk,
2020), - les sciences politiques (cf. Trognon, Mayaffre, op. cit.), ou via b) son intérêt pour
renouveler l’étude d’objets historiquement analysés - la métaphore (Cameron & Deignan,
2003), ou encore via c) son ambition de dévoilement de nouveaux paramètres - la multi-
modalité, la gestuelle (Ferré, 2016a/b), enfin via d) son genre comme langue de spécialité
révélant usages et contextes inédits (Blasco & Cappeau, 2018 ; Blasco et al., 2019) ?
L’ensemble de ces questions vise à caractériser l’objectif de constitution d’un corpus,
cas de DECLICS2016. La qualification d’un corpus n’intervient en fait qu’une fois qu’il est
finalisé et diffusé ; DECLICS2016 ne peut pour l’instant faire l’objet d’une diffusion, eu
égard au caractère personnel des données contenues3, le partage des données restant
restreint à un archivage au sein des MSH contributives4/5 jusqu’à plus ample
anonymisation.
2.1. Optiques/visées et caractéristiques de DECLICS2016
10 DECLICS2016 a été prévu pour permettre l’exploitation des données en tant que corpus-
based, pour confirmer/infirmer des hypothèses préalables, mais aussi comme corpus-
driven engageant à des procédures plus inductives, pour explorer les données sans a
priori (Williams, 2005 : 13 ; Danino, 2020 : 5). C’est un corpus de paroles authentiques,
enregistrées pour exploiter, si ce n’est des hypothèses de recherches préalables, les
intentions qui ont prédéterminé sa constitution. Son exploitation prévoyait des études
en syntaxe, suivant la méthode de corpus-driven (Advocat & Blasco, à paraître) et en
Corpus, 22 | 2021
161
pragmatique, croisant dans ce cadre la double méthode corpus-based (Delsart, 2020) et

corpus-driven (Advocat & Delsart, 2018).
11 DECLICS2016 comporte un total de 31 heures 20 minutes réparties sur 42 séquences
déclinées sous trois formats : 1) des consultations médicales entre un médecin
hospitalier spécialisé et un patient, 2) des entretiens cliniques entre un thérapeute
d’orientation psychanalytique et un patient, 3) des présentations cliniques (à la
manière des présentations de Charcot, voir Clavurier, 2014) entre un thérapeute et un
patient, placés face à un auditoire composé d’une équipe médicale spécialisée et de
chercheurs en SHS. Comparativement à d’autres corpus (Chevalier, 2007, 2008 ; Chanet,
2003), c’est un petit corpus. Il pourra à terme entrer comme un corpus exploitable pour
révéler des faits de langues liés à l’authenticité des paroles recueillies (Chevalier, 2008) et
permettre des exploitations croisées (cf. Chevalier, 20076; Chanet, 20037). Il est pour
l’heure à catégoriser comme corpus spécifique lié à une langue de spécialité,
particularisant le genre de l’échange médical (Cosnier et al., 1993), composé d’emplois
reliés a priori aux conditions singulières de sa situation de production (Roiné et al., à
paraître).
12 L’exploitation de DECLICS2016 se fait actuellement au fil de l’eau, l’ensemble des données
n’étant pas totalement transcrit, la rigueur scientifique de sa transcription rendant sa
diffusion progressive pour être normée aux besoins de chaque étude 8/9. Actuellement
23 séquences enregistrées sont transcrites, représentant 16 heures 14 minutes pour un
total de 207 442 mots (voir Tab 1. ci-après et nos annexes). Cinq services hospitaliers et
leurs cinq médecins volontaires en neurologie, nutrition, maladies infectieuses, médecine
interne et pédiatrie, contribuent à varier les conditions de recueil pour une hétérogénéité
voulue. Cinq thérapeutes français d’orientation analytique ont pris en charge les
entretiens et/ou présentations cliniques sur la base du volontariat.
2.2. DECLICS2016 : caractéristiques d’un corpus volontairement

varié et hétérogène
13 La constitution du corpus fut initiée grâce au partenariat scientifique initial de deux

services (neurologie/pédiatrie), mais les aléas des consultations n’ont pas permis de
développer DECLICS2016 de manière linéaire. Les tableaux suivants (Tab. 1 et Tab. 2)
renseignent sur la répartition des enregistrements (genre, participants, nombre de
séquences).
Tableau 1. Composition du corpus DECLICS2016 au 3 avril 2020
Maladies Médecine
Neurologie Nutrition Pédiatrie Total
infectieuses interne
Séquences
18 8 9 5 2 42
enregistrées
Consultations 15 3 6 1 1 26
Entretiens cliniques 3 0 3
Corpus, 22 | 2021
162
Présentations
5 3 4 1 13
cliniques
14 Le tableau en annexe détaille ces éléments en indiquant la durée de chaque séquence

selon les services et les conditions d’enregistrement : consultations versus entretiens ou
présentations cliniques.
Tableau 2. Participants du corpus DECLICS201610
Nombre de participants Femmes Hommes
Thérapeutes 5 2 3
Médecins 10 6 4
Patients 35 18 17
Aidants 13 9 4
15 Tel qu’initié au départ, DECLICS2016 met en regard une consultation et un entretien ou

une présentation clinique conduits avec un même patient, ce que nous avons désigné
par la notion de binômes (Delsart & Marquès, 2019 ; Auriac-Slusarzyk & Delsart,
soumis), méthodologie qui permet de comparer les faits de langue entre médecins et
thérapeutes. Six binômes sont accessibles, représentant un minimum pour des
traitements statistiques. À défaut de davantage de verbalisations sous format de
binômes, nos études linguistiques envisagent l’application de nos résultats au parcours
de soin ; nous vérifions dans quelle mesure la linguistique aide (ou non) le médecin
spécialiste d’un domaine (neurologie, nutrition, pédiatrie, etc.) à transformer son regard
sur son activité de consultation.
16 Nous forgeons ainsi l’hypothèse que la linguistique, en tant que SHS sert la médecine
(voir notamment Auriac-Slusarczyk & Blasco, 2019). Est-ce le cas ?
3. Un découpage du corpus DECLICS2016 avec

extraction de marques a priori utiles
17 Dans l’optique pragmatique de faire bénéficier aux médecins des avancées de la logique
interlocutoire (voir Trognon, 2012, pour un historique circonstancié), sans prétendre
embrasser néanmoins ce champ dans sa complexité, nous avons fait des choix
discutables. Sont-ils les bons ? Saisis entre la méthode corpus-based et corpus-driven,
nous parions que certaines marques sont plus à même de comparer le discours des
médecins vs thérapeutes. Il s’agit des marqueurs de régulation/structuration de la
conversation (Auchlin, 1981) ou ponctuants verbaux (Vincent, 1993), des marqueurs
indiquant les rapports de places (taxèmes, Kerbrat-Orecchioni, 1988), et ceux dénotant
la cohérence discursive, en se focalisant exclusivement pour l’instant sur mais et donc
(Delsat & Marquès, 2019 ; Auriac-Slusarczyk & Delsart, à paraître, soumis). Dans la
lignée des travaux en logique interlocutoire, nous proposons l’analyse d’évènements
Corpus, 22 | 2021
163
interlocutoires (Delsart & Auriac-Slusarczyk, 2020) que nous transformons en scénarios

pédagogiques, en pointant des stratégies discursives locales déterminantes pour les
soignants. Pour les médecins, nous tentons de typifier le genre de la consultation
médicale à partir de ces scénarios. Nous avons ainsi exploré l’usage du lexique
émotionnel (Auriac-Slusarczyk & Delsart, 2020, soumis) et étudié les effets des hétéro-
répétitions locales (Delsart, 2020). L’exploration de DECLICS2016 est progressive.
3.1. Les indicateurs sélectionnés et priorisés à destination du corps

médical
18 Nous discuterons des choix en conclusion : ici, nous présentons et illustrons la

résultante de nos choix. Trois vignettes cliniques (en annexes) donnent l’aperçu
exhaustif d’extraits initialement sélectionnés à destination des médecins, pour engager
avec eux une discussion formative pour qualifier la communication en consultation
médicale (cf. Kébir et al., 2020, op. cit.). Nous intégrons dans le corps de l’article un seul
exemple (extrait 1., ci-dessous) montrant le relevé de marqueurs typiques largement
connus des linguistes, les taxèmes (cf. Kerbrat-Orecchioni, 1987 ; Delsart & Marquès,
2019).
Extrait 1. Rapport de places11
MED[0h01m07]: donc on va dire qu’on est à deux mois
PAT[0h01m09]: voilà tout à fait oui exactement
––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
MED[0h04m09]: il y a pas d’horaire particulier
PAT[0h04m11]: non il y a pas d’horaire particulier voyez là là je ce matin j’ai eu des
palpitations quand j’ai fait la gym et puis là bon
AID[0h04m18]: à la gym tu t’approchais de la prise du traitement
PAT[0h04m22]: oui
MED[0h06m23]: ça ça peut être intéressant que vous voyiez une eritaboliste*
PAT[0h06m24]: oui voilà tout à fait
––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
PAT[0h09m19]: moi je veux bien ça me gêne pas ça c’est vous qui décidez hein mais
MED[0h09m22]: voilà on va essayer comme ça le Ratripex* il bouge pas
––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
Légende : * voir plus bas (§ 4.1. et 4.2.) sur l’insertion de ces non mots.
19 Est-ce qu’un médecin mis face à cet extrait de corpus peut travailler la notion de
rapport de places tel que les linguistes en font un outil d’analyse théorique et
empirique ?
20 Les extraits mis en annexes tentent pareillement de faciliter aux médecins l’accès à des
interprétations basées sur des outils linguistiques. L’étude pragmatique des
consultations a dégagé deux niveaux d’évènements interlocutoires touchant à la mise
en scène (cf. Charaudeau, 1995) : a) l’intercompréhension et b) les stratégies
présupposées du médecin (cf. annexes). Ces deux catégories reposent sur le travail sur
corpus du linguiste qui ne saurait être détaillé ici (Auriac-Slusarczyk, 2019 : 13-14).
21 Le médecin face à cet extrait-type est-il à même d’extraire des critères d’intelligibilité
pour faire son métier (cf. Clot, 2007, op. cit.) ? La délimitation de scénarios formatifs
prototypiques, basés sur ces évènements interlocutoires pré-analysés, paramètre des
échanges caricaturaux censés aider le corps médical. En fait, nous avons dû réduire le
champ d’interrogation des médecins à trois cibles, les confrontant 1) au rapport de
places ; 2) à l’intercompréhension et 3) aux stratégies du médecin, laissant de côté les
Corpus, 22 | 2021
164
éléments portant sur les régulateurs ou ponctuants verbaux (oui, hum, bon, etc.) dont on
sait pourtant qu’ils sont des indicateurs professionnels forts (ex : alors, voir Bouacha,
1981).
3.2. Trois scénarios prototypiques visant des vignettes cliniques

formatives
22 Avons-nous conduit la bonne réduction ? Le linguiste est-il bien placé pour s’adresser
aux médecins ? Comment, basé sur ses résultats, peut-il en faire profiter le médecin ?
Les questions suivantes sont adressées aux médecins: quel style d’échange préférez-
vous ? Pourquoi ? Comment dénommeriez-vous le style de chaque scénario, l’attitude
du médecin et du patient ? Ces scénarios font-ils écho à votre pratique ? Diriez-vous
que vous adoptez un style constant ou variable, selon les patients, dans votre pratique ?
Si vous aviez à intervenir en formation auprès d’internes, préfèreriez-vous présenter
l’un de ces scénarios, plutôt qu’un autre ? Pourquoi ? Il s’agissait de voir si l’échelle
a) du marqueur clef, b) de l’évènement interlocutoire et c) du genre conversationnel
était accessible au médecin. Et, conséquemment, savoir si les médecins repèrent la
même chose, selon leur spécialité, leur âge, leur expérience professionnelle.
4. La mise à l’épreuve auprès de médecins : focus

group sur la base de notre matériau linguistique
23 Le cadrage d’un premier focus group a impliqué trois médecins de spécialité, âge et
expérience professionnelle variés portant les objectifs suivants : a) recueillir leur avis
professionnel sur les pratiques du métier ; b) discuter la qualité de communication
entre médecin et patient et c) dialoguer sur une formation utile aux jeunes médecins.
Nous indiquons ce que nous avons considéré comme écueils vs réussites quant à former
à partir des paroles authentiques issues de DECLICS2016 et analysées par le linguiste.
4.1. Nos vignettes minimales caricaturales : constat d’une trop

grande réduction
24 Trois micro vignettes présentaient des extraits d’échanges sous forme d’acteurs-types
caricaturaux : assentiment, opposant ou négociateur (extraits 2, 3 et 4). L’intérêt était de
disposer de vignettes simplifiées croisant les indicateurs linguistiques et nos
interprétations interlocutoires pour ouvrir les trois pistes prédéfinies: a) rapport de
place, b) intercompréhension et c) stratégies du médecin (cf. § 3.1.).
Extrait 2, micro vignette, patient-type assentiment
PAT[0h09m19]: moi je veux bien + ça me gêne pas ça c’est vous qui décidez hein
mais ; MED[0h09m22]: voilà on va essayer comme ça + le Azilect** il bouge pas
Extrait 3, micro vignette, patient-type opposant
PAT[0h16m55]: c’est pour ça que j’ai employé le terme d’idiopathie orpheline** ;
MED[0h16m58]: oui oui oui j’ai bien saisi + hein mais c’est idiopathie** ça veut pas
dire ça
Extrait 4, micro-vignette, médecin-type négociateur
MED[0h10m00]: nous on peut refaire un point par exemple dans trois mois avec la
prise de sang et de voir où ça en est + après pour le suivi comme vous disiez
Corpus, 22 | 2021
165
essayer que vous puissiez vous trouver vos propres solutions euh avec l’aide de
mes collègues
Légende : les mots de jargon sont repérés par un double astérisque (voir le §4.2.
suivant).
25 La réduction à ces trois micro vignettes nous a conduits à une mise en doute de ce
support, confirmée ensuite par l’entretien mené avec des médecins (voir § 5).
4.2. L’impasse lexicale : comment faire ?
26 La présentation des extraits aux médecins a posé problème : devions-nous souligner les
indicateurs linguistiques ou les faire découvrir aux médecins ? L’emploi du jargon par
les médecins repéré de longue date comme entravant potentiellement la
compréhension (Turpin, 2002 : 58) et maintenant le patient à distance de la sphère
savante nous a conduits à remplacer les termes jargonnant (extrait 2, plus haut) par des
non mots inventés (cf. extrait 1, § 3.1., et annexes). Il s’avère très délicat d’interroger un
spécialiste – neurologue, nutritionniste, infectiologue – ou un généraliste, en leur ôtant cet
habitus de jargon ; le linguiste ne maîtrise pas plus que le quidam l’usage des mots de
spécialité médicale et notre inventivité a trouvé sa limite. Nous avons opté pour
réintroduire le jargon médical initial, l’évocation de médications inventées dérangeant
le médecin. Si nous avons préféré l’exploitation de paroles authentiques, transformer
l’authenticité de propos au profit d’une formation reste possible mais discutable ; les
limites d’une exploitation de données, alternativement originales vs adaptées, doivent
questionner la formation.
4.3. Interpréter des graphiques : consensus sur l’habitus expert des

médecins
27 Les médecins, de formation scientifique, sont rodés à la lecture interprétative de

graphiques et sensibles aux données chiffrées. Cependant, une présentation chiffrée
(Fig. 1) fonctionne-t-elle mieux que des extraits de parole ? N’est-elle pas réductrice ?
Engage-t-elle à la réflexion ? La simplification chiffrée des données vaut-elle davantage
car créditant la linguistique de méthodes d’apparence scientifique ou usuelles ?
Corpus, 22 | 2021
166
Figure 1. Extrait présenté aux médecins rapportant le nombre d’occurrences brutes d’emplois de
mais et donc comparant patient (PAT) et médecin (MED) sur deux cas cliniques authentiques –A/B-.
Image 1008673800001E9F00001196F31103D36B3179D2.emf
Image 100750C400001E9F00000F6649868DDD9AAF3423.emf
28 La prise de note effectuée in situ lors de la tenue du focus group révèle quelques
caractéristiques saillantes des propos réactifs des médecins sur ces graphiques. Pour A,
un médecin énonce son absence d’étonnement quant à l’emploi nul de donc, pointant
comme évidente l’incapacité du patient à savoir interpréter ce qui se dit. Un autre
médecin déclare la même absence d’étonnement, en notant qu’un patient préfère de
toutes façons se distancier et laisser le médecin « s’occuper de tout ». L’image du
patient-type fonctionne extrapolée directement par les médecins et rendue par des
propos tranchés : cela ne m’étonne pas du tout ; je ne suis pas étonné 12. L’approche par
scénarios est pourrait-on dire alors nulle en effets formatifs : l’habitus diagnostique fait
écran, l’évocation de l’expérience opacifie, il n’y a aucune mise en doute. Pour B, une
image extrapolée de patient-type s’effectue pointant les équilibres d’emplois entre mais
et donc. L’équilibre différent mais/donc engage le dialogue entre médecins : la conduite
cohérente du discours par le truchement de mais est d’emblée attribuée au rôle de
médecin, quand bien même est noté que l’emploi de mais ne destine pas à être contre le
patient. Pour l’emploi de donc le patient respecterait son rôle de vérificateur de ce que le
médecin a compris/transmis. Il semble n’y avoir aucune remise en cause des rôles connus
d’avance de médecins et patients. L’expérience médicale voile toute nouvelle
contextualisation possible des habitus diagnostiques (cf. Audetat et al., 2011) : les
médecins projettent leur expérience singulière dans l’usage de mais/donc et les apports
du linguiste n’enclenchent aucun des processus formatifs réflexifs attendus.
Corpus, 22 | 2021
167
4.4. Tenue du focus group avec des médecins : le court-circuit des

faits de langues par les médecins
29 Le déroulé complet du focus group exploitant la psychologie ergonomique (Kébir et al.,

2020, op. cit.) ne peut être exposé ici. Parmi les phases de ce déroulé, les consignes liées
aux objectifs orientant sur les - a) rapport de place, b) intercompréhension, c) stratégies (cf.
§ 4.1.), assorties à quatre extraits de paroles authentiques, furent soumis aux médecins
(cf. annexes, vignettes 1, 2 et 3).
30 Nous avons proposé à trois médecins réunis de faire des commentaires spontanés et
libres, discutant et revenant sur ce qui se disait entre eux. On leur présentait
successivement quatre extraits d’échanges cliniques13, qui, d’abord commentés
librement, s’assortissaient ensuite de questions : 1. Que pensez-vous de cet extrait ? 2. Que
remarquez-vous du point des mots, des tournures de phrases ? 3. À quoi êtes-vous sensibles ?
4. Que retenez-vous de cet échange ? Chaque extrait pensait l’exploitation de faits de langue
orientée par notre étude linguistique préalable. Quelques points épineux ressortent des
entretiens : les médecins notent et commentent a) l’absence de clarté, b) la protection/
défense du médecin, c) la taille des prises de paroles, d) la rupture du dialogue que les médecins
déclarent comme étant à éviter. Les médecins renchérissent comme se contrarient : ce qui
les frappe c’est l’impression d’un dialogue peu clair, sans axe défini dans ces paroles
authentiques. Déroutés, ils cherchent des contextes d’interprétation, des appuis
expérientiels et se disent surpris par le peu de paroles du médecin. Ils disent plausible
la protection de tel médecin contre un envenimement de l’échange ; dérangés par
quelques propos assimilés à des menaces, ils déclarent ne jamais vivre ceci. Interrogés
sur leurs propres modalités de prise de paroles, ils verbalisent a) leur désintérêt pour
les histoires de vie des patients, b) la nécessité d’imposer un cadre/une orientation au
patient, c) leur lutte contre les effets de ruptures du dialogue, enfin que d) leurs paroles
ne sont pas réductibles aux extraits authentiques soumis.
31 De manière emblématique, ces trois médecins qui, du coup, ne se considèrent pas
comme échantillon représentatif, court-circuitent la dimension linguistique proposée à
leur attention ; l’un dira : « je suis pas suffisamment acclimaté à repérer des mots clés,
je repère mieux les non-dits14 », et un autre indiquera que « le non verbal est une
grande partie de la communication ». Le verbe est ainsi fui. L’un et l’autre affichent la
même démotivation à décrypter les faits de langue, se dégageant de ce que les linguistes
et ergonomes proposent ; ils revendiquent être persuadés que la meilleure formation
est celle du compagnonnage. Circonspects sur l’aspect réflexif que devraient suggérer
les échanges authentiques qu’ils jugent distants de leurs habitus, ils disent que ces
scénarios pourraient convenir à la formation des jeunes. Ils suggèrent alors une
formation spécifiquement dédiée à la communication, en l’indiquant inutile pour eux ;
ils disent la difficulté de se mettre dans des situations non vécues. Interrogés sur les
simulations pratiquées en formation en internat de médecine, les médecins rapportent
pourtant que ces simulations sont très stimulantes : ils expriment leur intérêt pour les
jeux de rôles basés sur des cas cliniques, reconnaissent la similarité du procédé avec les
cas soumis. Toutefois l’usage de vidéos, de films, d’emplois d’acteurs sous-entendus
plus dynamiques ou de grilles d’observation pré-catégorisées leur paraît ne pas
remplacer l’expérience clinique d’une carrière. Ils insistent alors soudainement sur
l’importance des mots à la condition qu’on s’intéresse aux cas de diagnostics graves,
cancers par exemple (cf. Saint-Dizier de Almeida, 2013).
Corpus, 22 | 2021
168
32 Au final, les médecins révèlent leur sensibilité au non verbal plus qu’au verbe et raillent
les politiques de santé qui soumettent les jeunes internes à dire « la vérité » à tout prix.
Un consensus semble acquis : soigner est une affaire de mots, et le verbe rejoint à ce
niveau le choix politique. Mais les médecins ne sont pas prêts, en l’état des conditions
proposées sur la base d’une exploitation du corpus DECLICS2016, à s’engager facilement
à décrypter les/leurs/le discours.
4.5. Éthique et exploitation de corpus : jusqu’où peut-on aller ?

Usage et partage du corpus DECLICS2016
33 Les données de base que constituent les paroles authentiques enregistrées avec
l’assentiment des patients, aidants, médecins et thérapeutes ne posent pas de souci à
l’étude du linguiste, les chercheurs authentifiant le respect strict des conditions
éthiques d’exploitation15. En revanche, les propos originaux et singuliers issus de la
confrontation croisée entre médecins n’ont pu et ne peuvent être publiés ; les médecins
ont confié verbalement leurs avis authentiques, au prix d’être assurés qu’on ne
divulguerait cette vérité du verbe à quiconque. Ils n’ont donc pas consenti à la
divulgation en l’état de leurs verbalisations. Nous avons dû gloser leurs propos, mais ne
pouvons/pourrons en faire une étude trop fouillée. La linguistique de corpus est alors
directement interpellée dans ses modalités de constitution et d’exploitation éthiques
des paroles authentiques singulières. La forme de digression dans l’usage des données
fournies par les linguistes, puis commentées par les médecins, semble ne pas
fonctionner. La métaphore de la poupée russe où l’on pensait pouvoir emboiter des
propos sur des propos pour gagner en application n’a pas totalement abouti. Cela
interroge sur l’intérêt du projet DECLICS, ou le corpus DECLICS2016 se veut dédié à une
linguistique appliquée (cf. Auriac-Slusarczyk & Blasco, 2019). « À qui servent les
corpus » reste une question fondamentale.
5. Discussion générale
34 Quand Kerbrat-Orecchioni étudie les faits de langue dans les boulangeries ou les
boucheries (Kerbrat-Orecchioni, 2004), ce n’est pas pour former les petits commerçants
français à être plus ou moins polis (Kerbrat-Orecchioni, 2001). Quand un corpus se
destine à des retombées sociétales en termes de santé publique, sa constitution prend
des tournures différentes, aux allures potentiellement ou pratiquement politiques.
Notre contribution, en ce sens, questionne les linguistes, dont nous sommes, sur la
qualité des études réalisées qui concernent de concert les conditions de constitution
comme de portée d’un corpus. Avons-nous conduit les bons choix, la bonne réduction
des faits de langue étudiés en scénarios, et su pré-adapter les temps d’échanges supposés
formatifs auprès des médecins ? S’il est trop tôt pour conclure de manière décisive sur
cet aspect, nous voudrions mettre en discussion certains éléments. Car comme le
remarque C. Kerbrat-Orecchioni :
[…] de l’observation du fonctionnement de la politesse dans une situation aussi
banale que l’achat d’une baguette de pain, il ressort : (1) Que loin d’être un
phénomène marginal confiné dans quelques « formules » bien circonscrites, la
politesse est en réalité diffuse et profuse, dans ce type de discours comme dans bien
d’autres : près de la moitié du matériel produit dans les deux interactions qui
Corpus, 22 | 2021
169
viennent d’être analysées a une fonction moins transactionnelle que rituelle.

(Kerbrat-Orecchioni, 2001 : 7).
35 L’étude en pragmatique-linguistique menée, dont les études préliminaires que nous
avons réalisées (cf. § 3.), constitue le terreau préalable d’une conclusion identique : du
point de vue de la linguistique, la distribution, la diffraction des marques de discours,
des tournures, des enchaînements interlocutoires rendent compte de la relation
prototypique médecin-patient. Car, en matière de santé, il est question, aussi, de
négocier (cf. Kerbrat-Orecchioni, 2004). En santé cependant, la levée de différends n’est
pas sans conséquences pour la formation des médecins. Les stratégies, les changements
de rôles, la construction des places discursives témoignent pour le linguiste d’une
relation sociale et statutaire qui construit la relation patient-médecin. Toute politique
de santé publique pensant les conséquences de cette relation de soin doit apercevoir
qu’elle est verbalement tissée. Mais voilà, le médecin confronté aux faits linguistiques
n’en tire pas nécessairement parti. Même si on sait la confrontation à des cas cliniques
fructueuse en formation initiale en médecine (cf. Sommer & Rider, 2014 ; Audétat,
Laurin & Sanche, 2011 ; cf. § 4.4), le passage d’une linguistique fondamentale à son
usage académique en formation (cf. Millette, Lussier & Goudreau, 2004) soulève des
questions épineuses. Comment bloquer les habitus de raisonnements des médecins, et
provoquer chez eux des interrogations sur leur expertise communicationnelle ?
Comment saisir les freins, leviers, obstacles, intérêts et motivations au changement ? La
dé-contextualisation lexicale était-elle, même si nous l’avons abandonnée (cf. § 4.2.),
une bonne idée ? Faudrait-il informer les médecins des résultats en SHS avant la
confrontation aux cas cliniques auxquels nous les avons soumis ? A-t-on intérêt à
présenter des cas similaires en réunion de service, aux internes seulement, à un
collectif de médecins aux spécialités variées ? Peut-on faire envisager aux médecins une
appropriation puis une forme d’utilisation de ces scénarios avec leurs internes ? Est-ce
souhaitable ? Ne risque-t-on pas, en ce cas, des dérives de surutilisation, raccourci ou
distorsion quant à l’interprétation de certains faits de langue mal appropriés (cas des
équilibres mais/donc, cf. § 4.3.) ? A-t-on intérêt à utiliser les scénarios comparant des
situations authentiques jugées somme toute artificielles (cf. §. 4.4. et 4.3.) ou provoquer
des occasions de pénétrer en tant que linguiste les équipes médicales en terrain
hospitalier ? Toutes ces questions intéressent directement le linguiste, qui reste
responsable de la portée de ses travaux. Nous espérons que cette contribution peut,
modestement, engager la discussion à ce niveau.
BIBLIOGRAPHIE
Advocat O. & Delsart A. (2018). « Regards croisés sur les données du corpus DECLICS2016 »,
Colloque CA2LI, Lier Recherche et Formation professionnelle : les corpus à l’interface, 16 novembre 2018,
UCA-MSH, Clermont Ferrand.
Corpus, 22 | 2021
170
Advocat O. & Blasco M. (à paraitre). « Étude d’entretiens médicaux : procédés de densification et

de réduction des formes linguistiques à l’oral », in H. Gruet-Skrabalova et F. Spitzl-Dupic (éd.).
Fonctions discursives des formes linguistiques réduites. Allemagne : Nodus, Münster.
Advocat O., Blasco M. & Durif F. (2019). « Les entretiens entre patients et professionnels de santé :
éléments de construction collective des discours », ESASO 5(2) : 23-39.
Aubry R. & Mallet D. (2008). « Réflexions et propositions pour la formation médicale », Pédagogie
médicale 9(2) : 94-102.
Auchlin A. (1981). « Mais heu, pis bon, ben alors voilà, quoi ! Marqueurs de structuration de la
conversation et complétude », Cahiers de linguistique française 1 :141-159.
Audétat M.C., Laurin S. & Sanche G. (2011). « Aborder le raisonnement clinique du point de vue
pédagogique. I. Un cadre conceptuel pour identifier les problèmes de raisonnement clinique »,
Pédagogie Médicale 12 : 223-229.
Auriac E. (2007). « Quels indicateurs retenir pour progresser dans l’étude des discours
scolaires ? », in A. Sepcogna (dir.), Enseigner dans l’interaction. Paris : L’Harmattan, 33-56.
Auriac-Slusarczyk E. (2019). « Les discours entre soignants et patients. Études contemporaines.

Introduction », ESASOS 5 (2) : 7-19.
Auriac-Slusarczyk E. & Blasco M. (2019). Les discours soignants soignés adressés aux patients. Quelle
contribution des sciences humaines et sociales ? ESASOS 5(2).
Auriac-Slusarczyk E. & Delsart A. (soumis). « Le lexique émotionnel et affectif en entretiens

cliniques. Exploration du corpus DECLICS2016 », Tipa, avril 2020.
Auriac-Slusarczyk E. & Delsart A. (à paraître). « Le lexique émotionnel et affectif en consultations

médicales pour comprendre la relation de soin », in M. Blasco, Parler à l’hôpital : écouter ce qui est
dit, décrypter ce qui se dit. Munster : Nodus Editions.
Auriac-Slusarczyk E. & Delsart A. (2020). « Le lexique émotionnel et affectif. Exploration du

corpus DECLICS2016 », Colloque eMOTions, Bordeaux 4-5 juin 2020/report 26-27 novembre 2021.
Auriac-Slusarczyk E., Delsart A., Saint-Dizier V., Zehnder E., Blasco M., Advocat O., Durif F. &
Lebas-Fraczak L. (2018). « Étude pragmatique des discours soignants/soignés en contexte
hospitalier », Xe Congrès francophone de psychologie de la santé, Pratiques et interventions en psychologie
de la santé, 13-15 juin 2018. Metz : Université de Lorraine.
Balcou-Debussche M. & Autier D. (2018). « Interventions éducatives et santé : éléments de

problématisation », ESASOS 4(2) : 7-16.
Balcou-Debussche M. (2016). De l’éducation thérapeutique du patient à la littératie en santé.

Problématisation socio-anthropologique d’objets didactiques contextualisés. Paris : Editions des Archives
Contemporaines.
Balcou-Debussche M. (2016). « Interroger la littératie en santé en perspective de transformations

individuelles et sociales. Analyse de l’évolution de 42 personnes diabétiques sur trois ans »,
Recherches & Educations 16 : 73-87.
Batt M. & Trognon A. (2012). Étude d’un jeu de dialogue professionnel. Le conseil en médecine prédictive.
Nancy : éd. Maison des sciences de l'homme Lorraine, Collection Lang.
Berthod-Wurmser M., Bousquet F. & Legal R. (2017). « Patients et usagers du système de santé :
l’émergence progressive de voix qui commencent à compter », Revue française des affaires sociales
1 : 5-19.
Corpus, 22 | 2021
171
Billon-Descarpentries J. (2000). « Essai de théorisation des modèles explicatifs de l’éducation

appliquée à la santé », Spirale 25 : 17-30.
Blasco M. & Cappeau P. (2018). « Construire et analyser un corpus oral sur objectifs spécifiques :
précautions et réflexions », Journées d’étude du Centre d’Études Linguistiques (CEL) et le Centre
Interlangues Texte Image Langage, Corpus sur objectifs spécifiques, 15-16 novembre. Lyon : Université
Jean Moulin.
Blasco M., Cappeau P., Auriac-Slusarczyk E., Advocat O., Delsart A., Richard E., Drouet G., Kébir Y.
& Saint Dizier De Almeida V. (2019). « DECLICS2016 : Un corpus pour recueillir, analyser et
améliorer la parole en milieu hospitalier », 10es Journées Internationales de la Linguistique de corpus,
26-28 novembre. Grenoble : UGA.
Boelen C. (2014). « Il était une fois, il y a trente ans…, l’éducation médicale francophone »,
Pédagogie Médicale 15(1) : 61-62.
Bouacha A. (1981). « “Alors” dans le discours pédagogique: épiphénomène ou trace d’opérations

discursives », Langue Française 50 : 39-52.
Bousquet F. & Ghadi V. (2017). « La participation des usagers aux systèmes de santé : un tour
d’horizon international », Revue française des affaires sociales 1 : 116-127.
Cameron L. & Deignan A. (2003). « Combining Large and Small Corpora to Investigate Tuning
Devices Around Metaphor in Spoken Discourse », Metaphor and Symbol 18(3) : 149-160.
Chanet C. (2003), « Fréquence des marqueurs discursifs en français parlé : quelques problèmes de
méthodologie », Recherches sur le français parlé 18 : 1-25.
Charaudeau P. (1995). « Rôles sociaux et rôles langagiers », in D. Veronique & R. Vion (dir.),
Modèles de l’interaction verbale. Aix-en-Provence : Presses Universitaires de Provence, 79-96.
Chevalier G. (2007). « Les marqueurs discursifs réactifs dans une variété de française en contact
intense avec l’anglais », Langue française 154(2) : 61-77.
Chevalier G. (2008). « Les français du Canada : faits linguistiques, faits de langue », Alternative
Francophone 1(1) : 80-97.
Clavurier V. (2014) « Les présentations cliniques. De la psychiatrie à la psychanalyse », Essaim 2 :

53-76.
Clot Y. (2007). « De l’analyse des pratiques au développement des métiers », Éducation & Didactique
1(1) : 83-93.
Cosnier J., Grosjean M. & Lacoste M. (1993). Les interactions en milieu soignant. Soins et
communication: approches interactionnistes des relations de soin. Lyon : Presses universitaires de Lyon.
Côté L. (2015). « Réflexion sur une expérience de supervision clinique sous l’angle de l’alliance
pédagogique », Pédagogie Médicale 16(1) : 79-84.
Danino C. (2018). « Introduction. Les petits corpus », Corpus 18 : 1-10.
Delsart A. (2020). « Les statuts des locuteurs dévoilés par l’usage des répétitions locales en
contexte de soin », Espaces Linguistiques 1 : 26-4.
Delsart A. & Auriac-Slusarczyk E. (2020). « Étude pragmatique de la relation médecin/patient à

partir de données orales authentiques », 7e édition du Congrès Mondial de Linguistique Française, du 6
au 10 juillet. Montpellier 3 : Université Paul Valéry.
Corpus, 22 | 2021
172
Delsart A. & Auriac-Slusarczyk E. (soumis). « Les emplois différentiels des marqueurs discursifs
mais et donc en conversations cliniques : une étude linguistique appliquée à une pratique du soin
éclairée », Discours.
Delsart A. & Marques A.-R. (2019). « Effet de l’expertise communicationnelle sur la prise de parole
des patients. Étude contrastée des discours entre médecine et thérapeutes », ESASOS 5(2) : 59-83.
Do M. & Bissieres C. (2018). « L’observance à l’épreuve du soin éducatif : la posture de patient

réflexif en question », Les dossiers des Sciences de l’Education 39 : 71-88.
Emanuel E.-J. & Emanuel L.-L. (1992). « Four models of the physician-patient relationship », JAMA
267(16) : 2221-2226.
Ericsson K.A. (2004). « Deliberate Practice and the Acquisition and Maintenance of Expert
Performance in Medicine and Related Domains », AcadMed 79(10 suppl.) : 70-81.
Fainzang S. (2006). « Secret et mensonge dans le discours médical », Cités 2(6) : 27-36.
Ferré G. (2016a). « Between Fact and Fiction: Semantic fields and Image Content in Crime
Infotainment programs », Multimodal Communication 5(2) : 127-141.
Ferré G. (2016b). « Gesture/speech integration in the perception of prosodic emphasis »,

9th International Conference on Speech Prosody, 13-16 June 2018. Poland : Poznan.
Fournier C. & Kerzanet S. (2007). « Communication médecin-malade et éducation du patient, des

notions à rapprocher : apports croisés de la littérature », Santé Publique 19(5) : 413-425.
Freidson E. (1984). La profession médicale. Paris : Éditions Payot.
Gaillard M. & Lechopier N. (2015). « Relever le défi d’introduire aux sciences humaines et sociales
en première année commune des études de santé. Mise en perspective de quelques pratiques
pédagogiques », Pédagogie Médicale 16 : 23-34.
Génolini J.-P., Roca R., Rolland C. & Mambrado M. (2011). « “L’éducation” du patient en médecine
générale : une activité périphérique ou spécifique de la relation de soin ? », Revue sciences sociales
et santé 3 : 81-12.
Henrion-Latché J. & Auriac-Slusarczyk E. (2020). « Étude sémantico-pragmatique du discours au

profit d’un décryptage du parcours psychologique suivi d’adolescents fragilisés. Proposition
d’une démarche de codage de discours », Corpus 20 : 1-20.
Jouquan J., Parent F. & Audétat M.-C. (2013). « Des analogies entre le raisonnement médical et
l’évaluation formative », Revue française de linguistique appliquée XVIII(1) : 93-106.
Kébir Y., Delsart A., Arfaoui S., Auriac-Slusarczyk E. & Saint-Dizier de Almeida V. (2020).
« L’apport d’une approche pluridisciplinaire pour enrichir l’analyse de l’activité de consultation
de suivi médicale ». Colloque de la SELF, L’activité et ses frontières. Penser et agir sur les transformations
de nos sociétés. 16-18 septembre. Paris : La villette.
Kerbrat-Orecchioni C. (2001). « ‘Je voudrais un p’tit bifteck’, La politesse à la française en site

commercial », Les Cahiers du Cédisor 7 : 105-118.
Kerbrat-Orecchioni C. (2004). « Négocier dans les petits commerces », Négociations 2(2) : 7-22.
Kerbrat-Orrecchioni C. (1987). « La mise en places », in J. Cosnier & C. Kerbrat-Orecchioni (dir.).

Décrire la conversation. Lyon : Presses Universitaires de Lyon, 319-352.
Louis-Courvoisier M. (2015). « Pertinence des sciences humaines et sociales en médecine »,

Corpus, 22 | 2021
173
Lussier M.-T. & Richard C. (2008). « Because one shoes doesn’t fit all : A repertoire of doctor-
patient relationships », Canadian family psysician/Medecin de famille canadien 54(8) : 1089-1092.
Marchand P. (1998). L’analyse du discours assisté par ordinateur. Paris : A. Colin.
Mayaffre, D. (2012). Nicolas Sarkozy. Mesure et démesure du discours (2007-2012). Paris : Presses de la
fondation nationale des Sciences Politiques.
Mayaffre, D. (2017). « Les mots des candidats, de “allons” à “vertu” », in P. Perrineau (dir.). Le vote
disruptif. Les élections présidentielles et législatives de 2017. Paris : Presses de Sciences Po, Collection
Chroniques électorales, 129-152.
Mayaffre D., Pincemin B. & Poudat C. (2019). « Explorer, mesurer, contextualiser. Quelques
apports de la textométrie à l’analyse de discours », Langue française 203(3) : 101-115.
Mellet S. (2002). « Corpus et recherches linguistiques, Introduction », Corpus 1 : 1-6.
Millette B., Lussier M.-T. & Goudreau J. (2004). « L’apprentissage de la communication par les
médecins : aspects conceptuels et méthodologiques d’une mission académique prioritaire »,
Moumjid N. & Carrère M.-O. (2000). « La relation médecin-patient, l’information et la

participation des patients à la décision médicale : les enseignements de la littérature
internationale », Revue française des affaires sociales 2(2) : 73-88.
Nguyen-Khac A. (2017). « Mesures de l’accès aux soins : l’apport d’enquêtes sur les pratiques et
perceptions des patients », Revue française des affaires sociales 1 : 187-195.
Piot T. (2018). « Le rôle déterminant et méconnu des conversations soignant-patient au cœur des
interactions de soin », Les dossiers des sciences de l’éducation 39 : 13-31.
Préau M. & Siméone A. (2018). De l’expertise scientifique à l’expertise profane. Lyon : Psychologie du
social. Éditions des archives contemporaines.
Richard C., Lussier M.-T., Galarneau S. & Jamoulle O. (2010). « Compétence en communication
professionnelle en santé », Pédagogie Médicale 11(4) : 255-272.
Roiné P., Blasco M. & Auriac-Slusarczyk E. (à paraître). « Rôle et valeurs des emplois en “c’est”
dans le corpus Philosophèmes », in C. Frérot et M. Pecman, Des corpus numériques à la modélisation
linguistique en langues de spécialité. Grenoble : Presses de l’UGA, pages non connues.
Saint-Dizier de Almeida V. (2013). « Comment améliorer la compréhension de l’entretien

d’annonce de diagnostics médicaux sérieux », Activités 10(2) : 54-81.
Sommer J.-M. & Rieder A.-R. (2014). « Comment enseigner la communication au cabinet »,
PrimaryCare 14(8) : 136-138.
Szasz T. S. & Hollender M. H. (1956). « The Basic Models of the Doctor-Patient Relationship »,
Archives of Internal Medicine 97 : 585-592.
Thievenaz J. (2018). « Les situations d’apprentissage réciproques (le cas de la consultation

médicale) », Les dossiers des sciences de l’éducation 39 : 131-150.
Trognon A. & Larrue J. (1997). Pragmatique du discours politique. Paris : A. Colin.
Trognon A. (1995). « Pragmatique formelle et pragmatique empirique », L’information

grammaticale 66 : 17-24.
Trognon A. (2012). « Connexions dans l’histoire de la logique interlocutoire », Connexions 2 : 83-98.
Turpin B. (2002). « Le jargon figure du multiple », La linguistique 38(1) : 53-68.
Corpus, 22 | 2021
174
Vincent D. (1993). Les ponctuants de la langue et autres mots du discours. Québec : Éditions Nuit
Blanche.
ANNEXES
ANNEXE 1
Auteurs Modèles de relation médecin-patient
Parsons et al., 1951 Actif / Passif
Actif / Actif *
Szasz & Hollender, 1956 Actif / Passif * participation Passif / Passif Passif / Actif
mutuelle
Freidson, 1984 (sociologie Médecin Médecin

Patient guide Patient actif
interactionniste) coopératif passif
Délibératif*
Emanuel & Emanuel, 1992 Informatif Interprétatif * Idéal Paternaliste
auteurs
Patient Décision Médecin

Moumjid & Carrère, 2000
décideur partagée décideur
Tableau 3. Modèles de relation médecin-patient dans la littérature reproduit d’après

Fournier & Kerzanet, 2007 et Moumjid & Carrère, 2000.
ANNEXE 2
Corpus, 22 | 2021
175
Image 1022DEB400002E760000304F24557713ADFA23DE.emf
Figure extraite de Lussier & Richard, 2008, p. 1090.
ANNEXE 3. Corpus DECLICS2016 au 3 avril 2020
Corpus, 22 | 2021
176
Légende. Une consultation médicale se déroule entre un médecin et un patient. Une

présentation clinique se déroule entre un thérapeute et un patient déjà vu par son
médecin en présence d’un auditoire silencieux (cf. Charcot). Un entretien clinique se
déroule entre un thérapeute et un patient déjà vu par son médecin.
ANNEXE 4
Vignette 1 : Monsieur X (PAT) accompagné de son épouse Madame Z aidante (AID)
s’entretiennent avec Madame Y médecin spécialiste (MED) pour la consultation
régulière de suivi survenant 2 mois après une opération de Monsieur X. Des symptômes
gênants et persistants apparaissent pouvant donner lieu à échange dans cette
consultation.
Vignette 2 : Monsieur V (PAT) consulte le médecin spécialiste W (MED) pour une

consultation de suivi afin d’abaisser le nombre de traitements et de réduire le nombre
de spécialistes qui suivent Monsieur V.
Corpus, 22 | 2021
177
Vignette 3 : Madame U (PAT) est suivie par la médecin spécialiste T (MED) pour des
problèmes hormonaux.
Corpus, 22 | 2021
178
NOTES
1. Le projet DECLICS, qui regroupe des chercheurs en national, est financé par la région AURA.
2. Nom générique désignant le corpus verbal.
3. L’enregistrement, exclusivement en mode audio, protège néanmoins déjà le caractère
personnel des données ; mais l’anonymisation reste incomplète.
4. Voir la plateforme Multiplumes de la MSH Clermont-Auvergne dédiée : http://msh-
clermont.fr/content/multiplumes-incubateur-de-projets-corpus-pour-les-shs.
5. Les chercheurs intéressés peuvent adresser une demande à mylène.blasco@uca.fr, qui pourra
leur être accordée sous couvert d’un respect de confidentialité pour partager ces données
scientifiques, ce, avec accès restrictif. Toute demande sera préalablement soumise et examinée
par le comité éthique de l’UCA.
6. Chevalier utilise 6 corpus, respectivement de 20 000, 84 600, 177 900, 530 000, 210 000 et 35 000
mots.
7. Chanet utilise les corpus CORPAIX, 1 050 000 mots et CRFP 450 000 mots.
8. La transcription croise notamment les conventions du GARS (français parlé) et de VALIBEL
(interaction).
9. Les extraits de corpus présentés aux médecins ont été nettoyés de toutes marques de
convention de transcription qui pourraient gêner la lecture, seules les pauses courtes,
symbolisées avec le signe classique « + », sont maintenues.
10. Informations correspondant à l’état du 03 avril 2020.
11. Nous soulignons minimalement les pronoms personnels en partie indicateurs des rapports de
places interlocutives.
12. Propos tronqués ou glosés.
13. Une lecture silencieuse précédait une lecture orale intonative proche de l’enregistrement
effectif pour coller à l’authenticité du contexte.
14. Idem. Propos partiellement tronqués pour préserver le choix de non divulgation des
médecins (voir § 4.5.).
15. Accord du CERES de Paris-Descartes acquis sur demande du 10/12/2016 par Mylène Blasco et
Océane Advocat.
RÉSUMÉS
Notre proposition engage à (re)problématiser l’intérêt de la linguistique de et sur corpus quant à
ses applications professionnelles. Ancrée en pragmatique, elle retrace le mode de recueil et
d’exploitation de données dans le cadre applicatif du corpus DECLICS2016, ce, pour servir les
questions de métier en médecine. Nous testons l’efficience de la linguistique, comme discipline
de SHS contributive éclairant l’activité professionnelle, en produisant des scénarios
pédagogiques à partir d’extraits de discours. On s’attache à réfléchir sur la « reconstruction de la
relation médecin patient », à partir d’un matériau de paroles authentiques. En premier lieu,
l’accent est porté sur la constitution même du corpus DECLICS2016. En second lieu, c’est
l’application en santé qui est interrogée via nos résultats. Ceux–ci dégagent, à partir d’entretiens
de confrontation croisée entre médecins mis face aux paroles authentiques et données d’études
linguistiques de patients, qu’il est délicat, pour ces médecins, de profiter de nos catégories
Corpus, 22 | 2021
179
pragmatiques prédéterminées : rapports de place, intercompréhension et stratégie discursive du

médecin.
The aim of our proposal is to ask questions and better consider the opportunity of speech data
applying to professional field. Inscribed in pragmatic way, our presentation describes work into
progress to data collected linked to applicative framework of DECLICS2016 corpus, to engage
professional medical questions. We test the linguistic efficiency, considered as one of SHS
discipline, to highlight medical activity with pedagogical scenarios, on the base of discursive
examples. We encourage think about the possibility of “reconstructing relationships” between
specialist doctors and their patients, based on authentic original speech acts. Firstly, we take into
account the strategy of constitution DECLICS corpus. Secondly, our results are looked to benefit
healthcare area. This results show that, based on self- crossed interview between doctors, in
front of original sentences and linguistics patient’s data, these specialist doctors do not progress
with our pragmatic categorization assistance: relationships, understanding and medical discourse
strategies.
INDEX
Keywords : relationships, pedagogical scenarios, constitution of corpus, pragmatic
Mots-clés : rapports de place, scénarios pédagogiques, constitution de corpus, pragmatique
AUTEURS
EMMANUÈLE AURIAC-SLUSARCZYK
Maître de conférences HDR en Sciences du Langage
Université Clermont Auvergne, ACTé, F-63 000 Clermont –Ferrand, France
ALINE DELSART
Doctorante en Sciences du Langage
Université Clermont Auvergne, ACTé, F-63 000 Clermont –Ferrand, France
Corpus, 22 | 2021
180
Conceptualisation en lexicométrie
des anglicismes.
Le corollaire empirique d’un choix
méthodologique
Cécile Planchon
1. Introduction
1 Dès ses débuts en tant qu’objet de recherche, l’anglicisme s’impose comme un
phénomène très complexe à définir. Selon l’époque, la classe sociale, les idéaux
personnels ou les objectifs de recherche du chercheur, l’anglicisme se voit
accompagner de différentes distinctions conceptuelles. Pourtant, le rôle d’une
définition est essentiel à toute analyse car elle influe inévitablement sur les résultats
obtenus ainsi que sur leur représentativité.
2 C’est donc autour de la définition du concept d’anglicisme que nous avons construit
notre étude afin de mettre en avant la portée de son influence. L’originalité de cette
étude repose sur une double analyse lexicométrique et diachronique de l’anglicisme
lexical selon les deux acceptions les plus communément acceptées dans la recherche, à
savoir 1) comme tout emprunt de forme, intégral ou hybride, à l’anglais et 2) comme
emprunt de forme, intégral ou hybride, à l’anglais dit ‘critiqué’ pour lequel il existe un
équivalent en français. Nous avons ainsi utilisé un corpus de presse écrite francophone
comme matériel de contrôle afin de vérifier si cette conceptualisation multiple de
l’anglicisme entraînait des conclusions différentes, tant en matière de résultats chiffrés
que de signification statistique.
3 Dans cet article, nous expliquons tout d’abord l’importance de l’anglicisme pour les
francophones et le rôle essentiel que joue sa conceptualisation. Nous présentons
ensuite les acceptions les plus communément admises dans la recherche avant
d’aborder la méthodologie que nous avons adoptée. Nous terminons sur une discussion
Corpus, 22 | 2021
181
de nos résultats ainsi que de l’influence du choix de la définition sur nos deux facteurs
témoins.
2. L’anglicisme en contexte
4 Qu’entend-on généralement par anglicisme ? Un rapide survol des nombreuses études
sur le sujet révèle qu’il existe presqu’autant de définitions que de chercheurs. Pourtant,
bien que nous bénéficiions actuellement d’amples connaissances sur l’anglicisme en
tant que phénomène linguistique, l’intérêt, qu’il soit scientifique ou populaire, est
toujours bien réel et le débat auquel il semble être intrinsèquement lié continue de
faire rage.
5 La définition du concept de base est l’un des choix méthodologiques les plus
déterminants de toute étude quantitative. Tel que Sartori l’explique, la formation du
concept doit toujours précéder la quantification car « le processus de la pensée débute
inévitablement dans une langue qualitative (naturelle), peu importe la direction vers
laquelle on se dirige par la suite » (1970 : 1038, nous traduisons 1).
6 Pourtant, les études quantitatives existantes reposant sur une analyse des anglicismes
en corpus journalistique (Forgue, 1986 ; Mareschal, 1989 ; Zanola, 1990 ; Misanchuk,
1997 ; Villers, 2005 ; Harris, 2010) utilisent toutes une conception de l’anglicisme
différente, soulevant ainsi inévitablement la question de la comparabilité des résultats
empiriques qu’elles présentent. De plus, la méthodologie employée pose, la plupart du
temps, problème à cause d’un manque de clarté, de l’impossibilité d’être reproduite ou
de choix difficilement justifiables. Zanola (1990) redéfinit par exemple les types
d’anglicismes de façon aléatoire et ajoute des termes hors catégories lorsqu’elle les
rencontre au fil de ses lectures, rendant ainsi toute comparaison subséquente
compliquée.
7 Étant donné que nous travaillons en diatopie (France et Québec), nous avons choisi de
nous concentrer sur l’anglicisme lexical intégral et hybride 2 que Loubier (2011) définit
respectivement comme étant l’« emprunt de la forme et du sens, sans adaptation ou
avec une adaptation graphique ou phonologique minimale » (par exemple staff, lobby,
artéfact) et l’ « emprunt de sens, mais dont la forme est partiellement empruntée »
(dopage, coach de vie). En nous concentrant sur la fréquence d’utilisation (taux
d’utilisation), nous avons pour objectif de faire le pont entre théorie et empirie pour
dégager des différences éventuelles entre les deux conceptions de l’anglicisme les plus
couramment utilisées dans la recherche. La seconde visée de cette étude est ensuite de
déterminer comment la conceptualisation de ce phénomène influe sur des analyses
comparatives liées à l’origine géographique et à la nature des journaux.
3. Conceptualiser l’anglicisme
8 Il est assez évident que définir un concept tel que l’anglicisme n’est pas chose facile car
l’exercice dépend entièrement de l’angle d’approche du chercheur. Parmi les causes
principales que nous avons relevées (enrichissement de la langue, emprunt en tant que
symbole de la domination d’une nation sur le plan international, emprunt en tant que
conséquence du bilinguisme ou de mauvais traducteurs…), la distinction établie par le
linguiste Ernst Tappolet au début du XXe siècle nous semble être celle qui revient le
Corpus, 22 | 2021
182
plus. Devenue « traditionnelle » (voir Onysko & Winter-Froemel, 2011 : 1551) ou

« classique » (voir Courbon & Paquet-Gauthier, 2014 : 154), elle oppose l’emprunt de
nécessité (quand l’anglicisme n’a pas d’équivalent en français) à l’emprunt de luxe
(quand l’anglicisme a un équivalent en français, qui doit lui être préféré). L’idée que,
même si dans la majeure partie des cas, l’emprunt est une nécessité, le recours à une
source étrangère est parfois dû au « désir de paraître à la mode ou cultivé » ou à une
« simple paresse » (Jespersen, 2013 [1922] : 210 ; Darbelnet, 1976 : 77), fait alors
doucement son chemin. Ainsi, les emprunts dits « nécessaires » s’opposent à ceux qui
relèvent du « luxe » et qui sont « logiquement inutile[s] » (Brunot et Bruneau, 1933 :
181). L’emprunt de nécessité correspond au « cas le plus clair [qui] se trouve
évidemment quand on reçoit une nouveauté, objet inconnu ou notion jusque-là
inaperçue, et, que l’on accepte, en même temps, l’étiquette qui l’accompagne, c’est-à-
dire le nom étranger » (Deroy, 1956 : 138). Il est nécessaire en ce sens qu’il nomme une
réalité nouvelle, qui n’était jusqu’alors pas connue et pour laquelle il n’existe
évidemment pas encore de mot. À l’inverse, l’emprunt de luxe, lui, est un « mot
étranger dénommant une réalité française qui a déjà un nom français » (Rey-Debove et
Gagnon (RDG), 1980 : XII) (voir aussi Darbelnet, 1976 ; Viller, 2013).
9 Aussi, le terme anglicisme se voit-il souvent réservé aux emplois de « luxe », jugés
« inutiles » alors que les mots étrangers dont l’emploi en français est jugé acceptable ou
opportun sont regroupés sous l’hyperonyme emprunt. Il existe bien sûr des critiques à
cette distinction, principalement des adeptes d’une approche plus descriptive ou
pragmatique (nous pensons par exemple ici à la distinction entre emprunt catachrèse
et emprunt non catachrèse d’Onysko & Winter-Froemel, 2011, ou encore à Llopart-
Saumell & Freixa, 2014), mais beaucoup de chercheurs évitent le débat soit en optant
pour la substitution pure et simple du terme anglicisme pour emprunt à l’anglais ou mot
anglais ; soit en précisant qu’ils utilisent de façon interchangeable anglicisme et emprunt
à l’anglais ; soit en alternant aléatoirement entre différentes dénominations (terme
anglais, forme anglaise, franglais…) au sein d’une même étude, sans indication
particulière.
10 Bien que cette distinction luxe/nécessité ne fasse pas l’unanimité 3, elle reste malgré
tout le point d’achoppement de beaucoup d’études, ce qui nous permet de mettre en
avant deux grands courants définitoires qui nous semblent être largement partagés en
recherche :
• D’un côté, nous trouvons les travaux qui privilégient une définition large, neutre et
descriptive englobant tous les cas de figure correspondant au phénomène purement
linguistique de l’emprunt à l’anglais, c’est-à-dire tous les mots issus de la langue anglaise.
• De l’autre côté, nous trouvons les études plus prescriptives dont l’objectif est de proscrire
autant que possible le recours aux anglicismes et qui réduisent le concept aux seuls
emprunts « critiqués » à l’anglais, pour lesquels il existe un équivalent en français et qui
sont donc jugés « de luxe » et « inutiles ».
11 Nous nous sommes tout d’abord intéressée à cette conceptualisation multiple de
l’anglicisme (‘tout mot d’origine anglaise’ contre ‘terme avec équivalent français’) pour
savoir si elle entraînait des conclusions différentes sur les résultats issus de l’analyse
d’un corpus de presse écrite francophone et sur leur signification statistique. En
d’autres termes, obtient-on une fréquence d’utilisation différente selon que l’on utilise
l’une ou l’autre des deux définitions de l’anglicisme les plus courantes dans la
recherche ?
Corpus, 22 | 2021
183
12 Nous avons également cherché à déterminer si, au-delà de la fréquence d’utilisation, ce

choix définitoire avait des conséquences directes sur des analyses comparatives faisant
intervenir la diatopie ou la diaphasie (nature, registre du journal).
13 Nous avons retenu la diatopie (France et Québec) comme premier facteur témoin car en
tant que communautés francophones les plus importantes du monde industrialisé, la
France et le Québec présentent de nombreuses similarités ethnographiques et donnent
ainsi tout son intérêt à une analyse basée sur la variation géographique. Cependant,
alors que les Français voient généralement dans le recours à l’anglais une manière
d’asseoir un statut social en se démarquant de la traditionnelle vision du Français
mauvais en langues étrangères, les Québécois entretiennent une relation beaucoup
moins bienveillante avec la langue de leurs colonisateurs, responsables de leur passé
d’oppression et de lutte acharnée pour leur survie.
14 Notre deuxième facteur témoin, la diaphasie, met en avant la nature des journaux (« de
référence » contre « plus populaire ») et reste un critère plus occasionnel dans la
recherche en corpus sur les anglicismes notamment lorsqu’il s’agit d’en faire un
élément central d’analyse. Notre objectif est de savoir si la fréquence d’utilisation des
anglicismes relevée dans des journaux tels Le Monde, Le Devoir ou bien dans des
quotidiens comme La Presse et Le Parisien enregistre des résultats différents en fonction
de la définition retenue.
4. Méthodologie
4.1. Présentation du corpus
15 Nous avons constitué un corpus qui est, à notre connaissance, l’un des plus riches
jamais utilisés pour une étude sur les anglicismes. Fort de plus de 870 000 articles, soit
plus de 331 millions de mots, il regroupe les publications de 2000 à 2015 de quatre
quotidiens différents : Le Monde et Le Parisien pour la France, Le Devoir et La Presse pour
le Québec.
16 Ce corpus n’est pas également réparti entre les quatre quotidiens. Le Parisien affiche
113 692 415 mots pour 428 275 articles et contient 2,2 fois plus de mots et plus de
4,5 fois plus d’articles que le corpus du Devoir alors que les corpus du Monde et de La
Presse affichent des résultats à peu près similaires (81 à 84 millions de mots pour
environ 175 000 articles).
4.1.1. La presse écrite
17 Nous avons choisi de travailler avec la presse écrite car nous souhaitions garantir un
degré de représentativité maximum à notre recherche. Il nous a pour cela paru
nécessaire de travailler sur une langue à la fois mieux maîtrisée et plus recherchée que
la langue orale, afin de pouvoir en faire une sorte de ‘tronc commun’ à toute une
population. Nous sommes d’avis que la présence d’anglicismes à l’écrit implique qu’ils
ont réussi à résister aux différentes étapes de révision et correction qui vont
normalement de pair avec la langue écrite et que leur utilisation n’en est, de fait, que
plus prégnante. Harris précise à ce sujet que « la recherche a montré à maintes reprises
que la langue écrite offre au locuteur suffisamment de temps (depuis la formation
d’une idée dans le cerveau jusqu’à sa réalisation sur le papier ou l’ordinateur, etc.) pour
Corpus, 22 | 2021
184
contrôler son discours, produisant ainsi un registre de langue mieux maîtrisé et par
conséquent plus formel » (2010 : 59). En plus de fournir l’un des matériels les plus
appropriés pour un chercheur spécialiste des anglicismes car il présente une langue de
bonne qualité, le corpus de presse écrite se veut en même temps le reflet de son
lectorat car « dans la civilisation contemporaine, la voix de l’emprunt la plus fréquente
est celle de la presse » (Guilbert, 1975 : 96).
4.1.2. Le choix des journaux
18 L’un de nos intérêts principaux pour cette recherche est d’étudier l’effet de la
définition de l’anglicisme sur différentes « natures » de journaux et leurs lectorats
cibles. Rappelons que la catégorisation que nous proposons ci-après est imparfaite et
que notre but n’est pas de juger si telle nature de quotidien utilise plus ou moins
d’anglicismes que l’autre mais uniquement d’illustrer les fluctuations de leurs résultats
en fonction de la définition retenue. Nous nous sommes donc arrêtée sur quatre
quotidiens, deux français et deux québécois, qui nous permettent à la fois d’analyser
une langue « sophistiquée » (Merrill, 2000) assez typique des journaux destinés avant
tout « aux élites » (Eveno, 2016 : 17) et dits « de référence » (Merrill, 2000 ; Watine,
2000) tels Le Monde et Le Devoir, et une langue de qualité mais plus courante, privilégiée
par des journaux plus « populaires » (Eveno, 2016 : 17), tels Le Parisien et La Presse.
19 Cette première catégorie de quotidiens « de référence » s’appuie sur les différents
rapprochements et descriptions déjà établis à l’égard du Monde et du Devoir. Considérés
comme « relativement similaire[s] sur le plan des critères sociodémographiques et
professionnels » (Villers, 2005 : 32), les quotidiens Le Monde et Le Devoir « ont […] des
points communs, en particulier le profil de leur lectorat (lecteurs instruits, « ouverts,
curieux, épicuriens, actifs, déterminés », catégories socio-professionnelles favorisées)
et le normativisme linguistique de leur ligne éditoriale » (Planchenault, 2015).
20 La seconde catégorie que nous proposons, celle des quotidiens « plus populaires », met
sur le même plan deux quotidiens dont les points communs sont peut-être un peu
moins évidents que pour la première catégorie, notamment à cause de La Presse. Eveno
(2016) classe Le Parisien à la fois dans la catégorie de la presse populaire et des
quotidiens régionaux. La « presse populaire » en France s’entend plutôt comme une
forme hybride de presse qui mêle dimension nationale et actualité locale, proximité
avec son lectorat et langue de qualité mais accessible à tous, une définition qui, somme
toute, convient particulièrement bien à notre recherche. Le choix de La Presse a été
assez difficile à arrêter car aucun journal québécois ne nous apparaît comme le pendant
réel du Parisien. Nous avons donc plutôt privilégié les points communs que partagent Le
Parisien et La Presse plutôt que les divergences qui pourraient les opposer 4. Ainsi, il s’agit
dans les deux cas de journaux publiés dans les deux plus grandes villes du pays mais qui
sont lus sur tout le territoire national, qui bénéficient d’un des plus forts tirages
quotidiens et hebdomadaires, qui couvrent tous les genres d’actualité tout en donnant
une priorité marquée à l’information locale (voir Mareschal, 1989 ou Théoret, 1994), qui
entretiennent une relation de proximité avec leur lectorat et qui ont tous deux choisi
de privilégier l’offre en ligne depuis 2015 au détriment de leur formule papier.
Corpus, 22 | 2021
185
4.1.3. Présentation des listes témoins
21 Afin de mener notre analyse lexicométrique, nous avons établi deux listes d’anglicismes
à rechercher dans notre corpus. À l’aide de deux dictionnaires de langue générale (Le
Petit Robert 2016 et Le Multidictionnaire de la langue française 2013) et deux dictionnaires
spécialisés (Le Dictionnaire des anglicismes de Höfler 1982 et Le Colpron, dictionnaire des
anglicismes 1998) de France et du Québec, nous avons tout d’abord établi une première
liste regroupant tous les anglicismes lexicaux5 correspondant à la définition de
l’anglicisme lexical intégral et hybride de Loubier6. Nous avons éliminé les doublons,
puis tous les termes pouvant poser un problème lors de l’analyse statistique à cause
d’une ambiguïté sémantique, à savoir tous les termes s’apparentant aux calques
sémantiques tels que définis par Loubier (sens nouveau mais forme existante), c’est-à-
dire tous les termes dont l’une des acceptions est jugée d’usage correct en français.
Nous pensons ici à des termes tels bar (poisson/débit de boisson), par (préposition,
adverbe/égalité (golf)), tire/tires (verbe tirer conjugué/pneu) ou encore union (relation,
lien/syndicat). Nous avons également éliminé, après avoir procédé à des tests
préliminaires et étudié les listes statistiques résultantes, tous les termes pouvant être
utilisés comme un nom propre tel que bill (billet, facture ou Bill Clinton) et obtenu
5 416 entrées.
22 Nous avons ensuite nettoyé cette première liste en y éliminant tous les termes pour
lesquels aucun équivalent français n’était proposé par au moins l’un de nos
dictionnaires. Nous avons obtenu ainsi une seconde liste constituée de 2 934 entrées
répondant aux critères de la définition d’anglicisme en tant qu’emprunt critiqué à
l’anglais.
4.2. Une analyse en trois étapes
23 Grâce au module d’analyse de contenu et d’exploration de textes WordStat intégré à

notre outil lexicométrique QDA Miner, nous avons créé une liste d’extraction de
référence contenant les 5 416 termes établis précédemment. Nous avons fait le choix
d’une analyse lexicométrique mettant en avant une opposition de fréquence
d’utilisation entre le concept d’anglicisme lexical dans son sens large, à savoir celui qui
« correspond à un emprunt intégral (forme et sens) ou partiel (forme ou sens
seulement) d’une unité lexicale [anglaise] » (Loubier, 2011 :14) et le concept
d’anglicisme en tant qu’emprunt « critiqué » à l’anglais, à savoir les mots d’origine
anglaise pour lesquels les dictionnaires proposent au moins un équivalent en français
et dont l’usage est, de fait, jugé inutile.
24 Cependant, afin de mettre en exergue de façon plus explicite les différences liées au
choix de la définition de l’anglicisme, notre analyse s’est également intéressée aux
anglicismes pour lesquels il n’existe pas d’équivalent, ou tout du moins pas d’équivalent
qui ait été recensé par les dictionnaires que nous avons utilisés : les anglicismes que
certains qualifient de « nécessaires ». Nous avons en effet choisi d’ajouter cette
troisième catégorie des anglicismes sans équivalent car il nous paraissait quelque peu
incomplet d’un point de vue méthodologique de comparer les anglicismes en
général (A1) aux anglicismes avec équivalents (A2) car ces derniers sont inclus dans la
première catégorie. Afin de proposer une comparaison plus pertinente, nous proposons
d’analyser les anglicismes avec équivalents (A2) et les anglicismes sans équivalent (A3),
Corpus, 22 | 2021
186
même si ces derniers n’ont encore jamais été étudiés de façon statistique, car cela rend,
à notre avis, la comparaison entre A1 et A2 plus explicite.
5. Présentation des résultats

5.1. Évolution du taux d’anglicisme7 par analyse et par journal
25 Les premiers résultats (voir Figure 1) montrent une certaine régularité dans la
répartition des quotidiens entre les trois analyses :
• première analyse : Le Devoir 2005 obtient le taux le plus faible avec 5,28 ‰ et Le Parisien 2015
prend la tête avec 9,86 ‰.
• deuxième analyse : Le Devoir 2015 est à 1,99 ‰ et Le Parisien 2015 garde la tête du classement
avec un taux de 4,04 ‰.
• troisième analyse : Le Devoir 2005 est à 3,18 ‰ et Le Parisien 2005 est à 6,23 ‰.
Figure 1. Évolution du taux d’anglicisme par analyse et par journal
26 Cela signifie donc que le changement de définition n’influe pas de manière considérable
sur la distribution interne des quotidiens malgré les fluctuations observables entre les
années. Peu importe la fréquence d’utilisation d’anglicismes, aucun quotidien n’affiche
d’évolution en total asymétrie par rapport aux autres.
27 Cependant, on remarque que la prise en compte des anglicismes avec équivalent
amplifie les différences d’utilisation entre les journaux. Si l’on prend l’exemple du
rapport A3/A2 en 2000, on remarque une différence entre les résultats de La Presse
(1,88) et du Parisien (1,82) face à ceux du Devoir (1,46) et du Monde (1,35).
28 Cela indique ainsi que les anglicismes sans équivalent sont proportionnellement plus
fréquents dans La Presse et Le Parisien que dans les deux autres quotidiens.
5.2. Le taux d’anglicisme moyen par journal et par analyse
29 Le tableau 1 ci-dessous résume les moyennes individuelles globales (toutes années

confondues) pour les quatre journaux et pour les première (A1), deuxième (A2) et
troisième (A3) analyses. Les résultats montrent que le classement des journaux ne
Corpus, 22 | 2021
187
change pas : Le Parisien présente le taux d’anglicisme le plus élevé et Le Devoir le taux
d’anglicisme le plus faible.
Tableau 1. Taux d’anglicisme moyen par analyse et par journal
A1 A2 A3
Le Devoir 5,5 ‰ 2,1 ‰ 3,4 ‰
Le Monde 6‰ 2,5 ‰ 3,5 ‰
La Presse 7,8 ‰ 2,8 ‰ 5 ‰
Le Parisien 9,5 ‰ 3,5 ‰ 6 ‰
Total 7,2 ‰ 2,8 ‰ 4,4 ‰
30 Les résultats de A3 confirment nos conclusions précédentes, à savoir que l’on retrouve
plus fréquemment d’anglicismes sans équivalent dans La Presse et Le Parisien que
d’anglicismes avec équivalent, et que ce rapport est moins marqué pour Le Monde et Le
Devoir. Au niveau individuel, Le Monde est le quotidien qui présente le moins de
fluctuations selon la définition retenue alors que La Presse est le journal qui semble le
plus affecté.
31 Au niveau global, nous obtenons une fréquence d’utilisation des quatre journaux
confondus de 7,2 ‰ en A1 qui se répartit en 2,8 ‰ pour les anglicismes avec
équivalent (A2) et 4,4 ‰ pour les anglicismes sans équivalent (A3). Les taux
d’anglicisme sont ainsi systématiquement plus faibles avec la deuxième analyse, ce qui
pourrait impliquer que les anglicismes sans équivalent ont sans doute toujours été
surreprésentés dans les précédentes études quantitatives.
5.3. Analyse diachronique : deux exemples opposés
32 La figure 2 ci-dessous met en vedette deux journaux dont les résultats montrent une
évolution diachronique en tout point opposée. Tout d’abord, on observe que Le Devoir
est le quotidien qui affiche toujours le taux d’anglicisme le plus bas alors que les
résultats du Parisien sont systématiquement les plus élevés :
• première analyse : Le Devoir 2005 est à 5,28 ‰ et Le Parisien 2015 à 9,86 ‰.
• deuxième analyse : Le Devoir 2015 est à 1,99 ‰ et Le Parisien 2015 à 4,04 ‰.
• troisième analyse : Le Devoir 2005 est à 3,18 ‰ et Le Parisien 2005 à 6,23 ‰.
Corpus, 22 | 2021
188
Figure 2. Diachronie : deux exemples opposés
33 Si l’on observe les évolutions des deux quotidiens, on remarque qu’en l’espace de
15 ans, leurs trajectoires sont opposées. Alors que Le Devoir est en baisse pour A1
(5,9 ‰ → 5,6 ‰) et A2 (2,4 ‰ → 2 ‰), Le Parisien est en hausse (A1 : 9 ‰ → 9,9 ‰ et
A2 : 3,2 ‰ → 4 ‰). A3 obtient le cas de figure inverse avec Le Devoir en hausse de 3,5 ‰
à 5 ‰ alors que Le Parisien perd 0,8 ‰ (5,8 ‰ → 5 ‰).
34 Ainsi, de 2000 à 2015, Le Devoir a réduit sa fréquence d’utilisation d’anglicismes pour
lesquels il existe un équivalent en français mais utilise plus souvent des anglicismes
pour lesquels aucun substitut n’est encore disponible. À l’inverse, Le Parisien affiche un
taux d’anglicisme plus élevé pour ceux avec substitut et plus bas pour ceux sans
équivalent en 2015 qu’en 2000.
35 Ce changement de définition a donc des répercussions différentes selon le quotidien et
influe sur la façon dont chacun d’entre eux évolue dans le temps. Nous pouvons
également déduire, au vu des résultats présentés ci-dessus, que la plupart des études
qui utilisent l’anglicisme sous son concept large, c’est-à-dire qui prennent en compte
tous les mots d’origine anglaise, relèvent en (grande) majorité des anglicismes pour
lesquels nos dictionnaires ne proposent aucun équivalent en français.
5.4. Signification statistique
36 Ayant obtenu un résultat χ² de 6 124,28 (degré de liberté de 5 et seuil de tolérance de

99 %), nous pouvons déterminer que les différences que nous avons observées en
matière de comportement des journaux selon la définition retenue sont
statistiquement significatives.
37 Le choix de la définition a donc une importance capitale sur les résultats obtenus.
Cependant, étant donné que nos deux définitions font intervenir des données de base
distinctes, la confirmation statistique que nos résultats finaux sont différents reste
somme toute attendue.
38 Nous nous sommes donc intéressée aux nombreuses fluctuations observées en
diachronie pour A2 et A3 et notamment à tous les différentiels entre les résultats de
deux années consécutives. Ce faisant, nous avons pu éliminer les différences liées à la
définition (nombre d’anglicismes recherchés moins élevé par exemple) pour ne retenir
que les variations réelles.
Corpus, 22 | 2021
189
39 Le tableau 2 ci-dessous présente en exemple les résultats de La Presse. Les colonnes

« différentiel observé » indiquent les différentiels obtenus pour les années 2005-2000,
2010-2005 et 2015-20108.
Tableau 2. Différentiels La Presse observés et attendus 2000-2015
Total
Différentiel Différentiel Différentiel Différentiel Khi² Khi²
La Presse Différentiel
A2 Observé A3 Observé A2 Attendu A3 Attendu A2 A3
Observé
2000-2005 4 457 11 808 16 265 6 613,74 9 651,26 703,3 482
2005-2010 22 950 30 617 53 567 21 781,63 31 785,37 62,67 42,95
2010-2015 17 834 23 594 41 428 16 845,62 24 582,38 57,99 39,74
Total 45 241 66 019 111 260 – – 1 388,62
40 Nous observons tout d’abord que le différentiel observé est toujours plus élevé en A3
qu’en A2, ce qui signifie que La Presse enregistre des fluctuations d’année en année plus
importantes lorsque ce sont les anglicismes sans équivalent qui sont pris en compte.
41 Le nombre d’occurrences relevées dans La Presse ne se développe pas de la même
manière selon la définition choisie. Cette différence est statistiquement significative
car la valeur critique avec un degré de liberté de 5 et un seuil de tolérance de 99 % est
de 20,52, soit près de 68 fois moins que le résultat χ² que nous avons obtenu (voir
encadré du tableau 2 ci-dessus).
42 Nous avons testé les quatre journaux9 et leurs résultats χ² sont tous largement
supérieurs à notre valeur critique. Ainsi, nous pouvons affirmer que les différences
observées au niveau des fluctuations diachroniques entre A2 et A3 des journaux sont
statistiquement significatives.
43 Nous prouvons donc que les quatre journaux retenus pour cette étude ne présentent
pas les mêmes trajectoires d’évolution selon la définition choisie. Cette confirmation
est, à notre avis, importante, car elle prouve que le choix de la définition de
l’anglicisme influence forcément les interprétations et conclusions de toute étude
lexicométrique. Cette réalité doit être prise en compte et devrait sous-tendre les
futures réflexions sur les anglicismes.
44 Qu’en est-il maintenant de certains types d’analyse comparatives utilisées en
lexicométrie des anglicismes ?
6. Analyses comparatives
45 Cette section s’intéresse à l’origine ainsi qu’à la nature du journal, afin de voir 1) si les
résultats fluctuent de la même manière selon la définition choisie et 2) si les deux
définitions amènent aux mêmes schémas d’évolution et aux mêmes interprétations.
46 Rappelons que nous avons utilisé ces deux facteurs d’analyse non pas pour leurs
résultats individuels mais précisément pour mettre en lumière les différentes
Corpus, 22 | 2021
190
répercussions engendrées par un changement de définition. Ainsi, notre but n’est pas
de comparer chaque groupe entre eux, mais plutôt de souligner s’ils présentent des
écarts notables dans leurs évolutions respectives en fonction de la définition retenue.
6.1. 1re analyse test : la diatopie, entre France et Québec
47 Cette première analyse témoin est organisée autour de deux groupes distincts : d’un
côté, Le Monde et Le Parisien pour la France et de l’autre, Le Devoir et La Presse pour le
Québec.
48 La figure 3 ci-dessous présente les différentes évolutions obtenues lors de nos trois
analyses A1 (tous les anglicismes), A2 (anglicismes avec équivalent uniquement) et
A3 (anglicismes sans équivalent). Les courbes supérieures de chaque paire
correspondent aux résultats du groupe France et les courbes inférieures correspondent
à ceux du groupe Québec.
Figure 3. Comparaison diatopique des taux d’anglicisme
49 On observe que les courbes A2 (en bas du graphique) et A3 (au milieu du graphique) des
deux groupes suivent des trajectoires inverses, ce qui indique que les quotidiens de
France ont adopté, en l’espace de quinze ans, une approche qui se traduit par une
utilisation plus fréquente des anglicismes avec équivalent et une utilisation légèrement
moins fréquente des anglicismes sans équivalent.
50 À l’inverse, les journaux québécois utilisent légèrement plus d’anglicismes sans
équivalent et moins d’anglicismes avec équivalent en 2015 qu’ils n’en utilisaient en
2000.
51 Les deux groupes ne réagissent donc pas de la même manière selon la définition
retenue.
52 Nous avons réalisé un test χ² pour vérifier si la relation entre la définition et l’origine
du journal était statistiquement significative et pouvons confirmer que les différences
Corpus, 22 | 2021
191
que nous avons observées en matière de diatopie sont statistiquement significatives et

que le choix de la définition a une influence sur l’interprétation des données.
53 Tout comme pour les analyses générales, nous nous sommes également intéressée aux
fluctuations diachroniques pour chacun de nos deux groupes et les résultats montrent
que les différentiels observés pour chaque groupe d’années consécutives sont
statistiquement significatifs10.
54 Il est donc clair que le choix de la définition a une influence fondamentale sur
l’obtention des résultats ainsi que sur leur interprétation. Les différences observées ne
sont pas dues au hasard mais bien à une importante corrélation entre la définition de
l’anglicisme et l’origine du journal.
6.2. 2e analyse test : la nature des journaux
55 La seconde analyse témoin met en avant la nature des journaux. Bien que nous ne
prétendions aucunement avoir trouvé une correspondance parfaite entre les quatre
quotidiens sélectionnés, nous avons tout de même choisi de regrouper Le Monde et Le
Devoir sous la catégorie des quotidiens « de référence » dont nous définissons la nature
comme étant plus soutenue, et La Presse et Le Parisien sous la catégorie des quotidiens de
presse « plus populaire » dont la nature est plus courante.
56 La figure 4 ci-dessous hiérarchise les résultats des trois analyses et présente les
différentes trajectoires d’évolution des deux groupes témoins. La courbe supérieure de
chaque paire représente l’évolution des résultats du groupe « populaire ».
Figure 4. Comparaison du taux d’anglicisme selon la nature du journal
57 On remarque par exemple que les deux dernières lignes en bas du graphique qui
représentent les courbes de A2 sont bien plus compactes que les deux autres paires.
Corpus, 22 | 2021
192
Ceci indique que les deux groupes de quotidiens enregistrent une fréquence
d’utilisation d’anglicismes avec équivalent plus homogène et suivent une trajectoire
d’évolution à la hausse relativement proche par rapport à la paire des anglicismes sans
équivalent.
58 Un test χ² permet de confirmer que les différences observées en matière de nature des
journaux selon la définition retenue sont statistiquement significatives et que le choix
de la définition a une influence sur l’interprétation des données.
59 Pour ce qui est des fluctuations diachroniques pour chacun de nos deux groupes, les
résultats statistiques montrent que les différentiels observés indiquent clairement que
le choix de la définition a une influence fondamentale sur les résultats obtenus ainsi
que sur leur interprétation. Les différences que nous avons notées ne sont pas dues au
hasard mais bien à une importante corrélation entre la définition de l’anglicisme et la
nature du journal.
7. Conclusion
60 L’objectif de cette étude était de mettre en lumière les répercussions en matière de
fréquence d’utilisation et de tendances d’évolution entraînées par un changement de
définition de l’anglicisme. Nous avons cherché à savoir si :
1. L’on obtient des divergences notables quant à la fréquence d’utilisation en utilisant l’une ou
l’autre des définitions de l’anglicisme les plus courantes dans la recherche.
2. Ces potentielles divergences vont au-delà d’une simple différence dans la fréquence
d’utilisation pour se traduire par une variation dans l’évolution des journaux et
l’interprétation même des résultats lorsqu’elles sont analysées sous l’angle de la diatopie et
de la nature des journaux.
61 Nous avons pour cela choisi de travailler avec les deux acceptions du terme anglicisme
qui nous ont paru être les plus communément utilisées dans la recherche, auxquelles
nous avons ajouté une troisième signification, jusqu’alors restée implicite :
1. L’anglicisme en tant que tout emprunt de forme, intégral ou hybride, à l’anglais.
2. L’anglicisme en tant qu’emprunt de forme, intégral ou hybride, à l’anglais dit ‘critiqué’ pour
lequel il existe un équivalent en français.
3. L’anglicisme en tant qu’emprunt de forme, intégral ou hybride, à l’anglais pour lequel il
n’existe pas d’équivalent en français.
62 En comparant ces trois acceptions de l’anglicisme sur un même corpus, nous

démontrons que la définition influe non seulement sur la fréquence d’utilisation mais
également sur la manière dont les journaux évoluent selon qu’on les analyse sous
l’angle de la diatopie ou de la nature.
63 Nous prouvons également que la plupart des études qui utilisent l’anglicisme sous son
concept large, c’est-à-dire qui prennent en compte tous les mots d’origine anglaise,
relèvent en grande majorité des anglicismes pour lesquels aucun des dictionnaires que
nous avons consultés ne proposent d’équivalent. En effet, sur un taux d’anglicisme
global de 7,2 ‰, nous montrons que les anglicismes sans équivalent représentent près
des deux tiers des occurrences relevées (la fréquence d’utilisation des anglicismes avec
substitut en français n’atteignant que 2,8 ‰) et que leur utilisation est, de fait, presque
inévitable.
Corpus, 22 | 2021
193
64 Ces résultats confirment qu’une définition différente mènera à des résultats différents,
ce qui devrait, de fait, être pris en compte dans une analyse lexicométrique. Quoique
cela reste somme toute logique, nous prouvons également que ces différences vont au-
delà d’une seule différence liée à la fréquence d’utilisation. Nous avons vérifié
statistiquement tous nos résultats avec un test χ² et nous prouvons que le choix de la
définition a une influence fondamentale sur les résultats obtenus ainsi que sur leur
interprétation. Toutes les différences observées ne sont pas dues au hasard mais sont
au contraire inhérentes à une importante corrélation entre la définition de l’anglicisme
et la nature ou l’origine du journal.
65 Cette étude montre que malgré la multitude d’écrits sur les anglicismes, et plus
particulièrement les études quantitatives de corpus, la méthodologie adoptée est très
rarement reproductible étant donné que les choix de certains auteurs manquent
parfois de clarté (voir Zanola, 1990 ou Misanchuk, 1997 par exemple). Nous sommes
bien consciente que les progrès technologiques d’aujourd’hui rendent les tâches de
dépouillement, d’extraction et d’étiquetage de corpus plus aisées qu’elles ne l’étaient
autrefois et que les études sur le sujet ne peuvent donc pas être jugées a posteriori.
Toutefois, nous sommes convaincue qu’une plus grande rigueur en matière de
méthodologie est indispensable pour la recherche à venir.
66 Dans un domaine où débat et polémique sont difficilement dissociables, il nous semble
important d’ancrer la recherche dans une méthodologie qui soit claire, cohérente et
reproductible afin de garantir une légitimité aux résultats apportés par chaque
nouvelle étude. L’adoption d’une définition de l’anglicisme explicite, neutre et
communément acceptée en analyse de corpus nous paraît être un premier pas dans la
bonne direction.
BIBLIOGRAPHIE
Brunot F. & Bruneau C. (1933). Précis de grammaire historique de la langue française. Paris : Masson et
cie.
Courbon B. & Paquet-Gauthier M. (2014). « Faux amis/vrais ennemis : réutilisations de la notion

d’anglicisme dans le discours métalinguistique au Québec », Le discours et la langue 6(1) : 143-173.
Darbelnet J. (1976). Le français en contact avec l’anglais en Amérique du Nord. Québec : Les Presses de
l’Université Laval.
Éveno P. (2016). La presse. Paris : PUF, coll. « Que sais-je ? ».
Forest C. & Boudreau D. (1998). Le Colpron : le dictionnaire des anglicismes. Laval, Québec :
Beauchemin.
Harris J. (2010). The frequency and distribution of written and spoken anglicisms in two varieties of
French. Université Concordia : Mémoire de maîtrise.
Höfler M. (1982). Dictionnaire des anglicismes. Paris : Larousse.
Corpus, 22 | 2021
194
Llopart-Saumell E. & Freixa Aymerich J. (2014). « La función de los neologismos : revisión de la

dicotomía neología denominativa y neología estilística », Neologica 8 : 135-156.
Loubier C. (2011). De l’usage de l’emprunt linguistique. Québec : Office Québécois de la langue

française.
Mareschal G. (1989). Étude typologique et comparative de l’anglicisation et des anglicismes dans quatre
aires de la francophonie. Université Laval : Thèse de doctorat.
Merrill J. C. (2000). « Les quotidiens de référence dans le monde », Les Cahiers du journalisme 7 :
10-14.
Misanchuk M. (1997). Anglicismes dans la presse française : L’Express et le Nouvel observateur (1991 à
1995). Université de Calgary : Thèse de maîtrise.
Onysko A. & Winter-Froemel E. (2011). « Necessary loans–luxury loans ? Exploring the pragmatic
dimension of borrowing », Journal of pragmatics 43(6) : 1550-1567.
Planchenault G. (2015). « De la qualité du français à la bataille contre l’anglais : une étude

comparative des discours sur la défense du français dans la presse écrite québécoise et
française », Semen. Revue de sémio-linguistique des textes et discours 40.
Privat M. (1997). « Quelques anglicismes québécois gastronomiques : Des bines, des pinotes et du
pâté chinois », Revista de filología de la Universidad de La Laguna 14 : 175-182.
Rey-Debove J. & Gagnon G. (1980). Dictionnaire des anglicismes : Les mots anglais et américains en
français. Paris : Les Usuels du Robert.
Rey-Debove J. & Rey A. (éd.) (2016). Le Nouveau Petit Robert : dictionnaire alphabétique et analogique
de la langue française. Paris : Le Robert.
Sartori G. (1970). « Concept Misformation in Comparative Politics », American Political Science

Review 64(4) : 1033-1053.
Théoret M. (1994). « La situation des anglicismes au Québec ». Actes du colloque sur les anglicismes et
leur traitement lexicographique : Communications, discussions et synthèses : Magog du 24 au 27 septembre
1991. Gouvernement du Québec, 79-92.
Villers M.-É., de (2005). Le Vif désir de durer-Illustration de la norme réelle du français québécois.
Montréal : Québec Amérique.
Villers M.-É., de (2013). Le Multidictionnaire des difficultés de la langue française. 4 e édition. PC,
Montréal : Québec Amérique.
Watine T. (2000). « Le Devoir est-il encore un journal de référence ? », Les Cahiers du journalisme 7 :
28-46.
Zanola M. T. (1991). L’emprunt lexical anglais dans le français contemporain : Analyse d’un corpus de
presse (1982-1989), Quaderni del Centro di linguistica dell’Università catolica, 3, Brescia, Editrice La
Scuola.
NOTES
1. Sauf indication contraire, toutes les citations originellement en langue anglaise présentées
dans cet article ont été traduites par l’auteure.
2. Les anglicismes syntaxiques et les calques étant majoritairement une prérogative québécoise
(voir Mareschal, 1989 ; Privat, 1997 ou encore Harris, 2010).
Corpus, 22 | 2021
195
3. Nous tenons à préciser que le choix de travailler avec cette distinction n’équivaut aucunement
à une prise de position de notre part.
4. Nous pensons ici à des divergences telles que l’existence d’un comité linguistique chez La Presse
qui indique une action proactive de la part de ce journal sur la qualité de la langue, absente chez
Le Parisien.
5. Nous y avons ajouté les formes plurielles des substantifs, les formes plurielles et féminines des
adjectifs, les participes présents, les participes passés au singulier, pluriel, masculin et féminin
ainsi que les variations orthographiques répertoriées par les dictionnaires.
6. Pour rappel, l’anglicisme lexical intégral est un « emprunt de la forme et du sens, sans
adaptation ou avec une adaptation graphique ou phonologique minimale » (par exemple staff,
lobby, artéfact) et l’anglicisme lexical hybride est un « emprunt de sens, mais dont la forme est
partiellement empruntée » (dopage, coach de vie).
7. Nous nous sommes intéressée au nombre d’occurrences d’anglicismes pour 1 000 mots,
généralement appelé « taux d’anglicisme », car il s’avère être la mesure la plus pertinente, la plus
objective et surtout la plus facilement comparable pour analyser l’évolution du nombre
d’occurrences.
8. Elles n’en présentent cependant que les valeurs absolues, car l’on ne tient pas compte des
signes.
9. Afin de ne pas encombrer cet article, nous avons choisi de ne présenter les résultats que d’un
seul quotidien, cependant, les tableaux et résultats individuels sont tous disponibles sur
demande.
10. Tous les résultats statistiques sont disponibles sur demande.
RÉSUMÉS
Cette étude met en relief la portée empirique de la définition du concept d’anglicisme dans
l’analyse d’anglicismes lexicaux dans un corpus de presse écrite francophone. Elle examine en
diachronie (2000-2015) les différences découlant de l’opposition entre trois acceptions de
l’anglicisme ainsi que les effets sur des analyses comparatives portant sur l’origine géographique
(France ou Québec) et sur la nature (« de référence » ou « populaire ») du journal. Nous obtenons
une fréquence d’utilisation faible mais démontrons qu’il existe des différences liées à la
définition entre la nature et l’origine du journal.
This study highlights the empirical impact of the definition of the concept of anglicism in the
analysis of lexical borrowings in a French written press corpus. It investigates first diachronically
the differences stemming from the opposition of three meanings of anglicism, and then their
resulting effects on comparatives analyses based on the geographical origin (France or Quebec)
and the nature (‘reference’ or ‘popular’) of the newspaper. The results show a low frequency of
usage but underline the correlation between the definition of Anglicism and the nature and/or
origin of the newspaper.
Corpus, 22 | 2021
196
INDEX
Mots-clés : anglicisme, conceptualisation, lexicométrie, analyse de corpus
Keywords : Anglicism, conceptualization, lexicometry, corpus analysis
AUTEUR
CÉCILE PLANCHON
Ph.D. Sociolinguistics & Translation Studies Adjunct Professor (Elle/She/her) School of
Linguistics and Language Studies Carleton University Ottawa, Ontario, Canada K1S 5B6
Corpus, 22 | 2021
197
Envisager la production de sens à

travers la cooccurrence : la
représentation médiatique de
l’éleveur dans le contexte du retour
du loup
Marie Chandelier
Introduction
1 L’objectif de la présente contribution est d’analyser, par la mise en relation des
approches quantitatives et qualitatives issues de la linguistique de corpus et de
l’analyse du discours, la représentation médiatique de l’éleveur dans le conflit lié au
retour du loup. En France, les travaux fondateurs de la linguistique de corpus
soulignent que le développement de la statistique lexicale n’a pas vocation à remplacer
l’analyse qualitative des textes, les deux démarches étant étroitement liées (Muller
1964). Dès les années 1980, les outils développés en Analyse des Données Textuelles
(ADT) visent à faciliter le dialogue entre le traitement quantitatif et qualitatif des
données par le retour au texte, rendant ainsi possible l’association de la linguistique de
corpus à d’autres disciplines plus qualitatives telles que l’analyse du discours. L’analyse
cooccurrentielle consiste à identifier, à l’aide de calculs statistiques, les formes les plus
associées à un mot pivot dans un corpus donné (Lafon 1981). Ce type d’analyse permet
d’accéder à la contextualisation des unités lexicales à travers une méthodologie
objectivable (Mayaffre & Viprey 2012). Il représente un outil puissant dans la démarche
interprétative du chercheur et s’inscrit en complémentarité avec une prise en compte
des contextes spécifiques. En nous fondant sur les calculs de spécificité et de
cooccurrences, nous étudierons la construction de l’image de l’éleveur, principal acteur
confronté au retour du loup et à la prédation de l’espèce.
Corpus, 22 | 2021
198
1. Éléments contextuels du conflit lié au retour du loup

2 Le loup est strictement protégé par le droit international1 et européen 2. La directive
européenne Habitat Faune et Flore (DHFF) compte le loup parmi les espèces protégées
en France. Lors de son retour sur le territoire en 1992, près d’un demi-siècle après sa
disparition due à des opérations de chasse légales, le prédateur bénéficie d’un statut de
protection stricte qui favorise la colonisation de nouveaux espaces. Néanmoins, sa
présence est source de conflits virulents notamment dus aux dégâts engendrés sur les
troupeaux par les actes de prédation. Jusqu’à la fin des années 1990, la gestion du
prédateur s’oriente vers la protection des troupeaux et proscrit le recours au
prélèvement de loups. L’expansion de l’espèce sur le territoire, accompagnée de
l’augmentation des dégâts causés conduit à une intensification des conflits (Moriceau
2015) et à un réajustement des politiques de gestion du prédateur. Au début des années
2000, le gouvernement s’oriente vers une gestion directe de l’espèce. Ce tournant
institutionnel se déroule en deux temps. En 2000, un premier plan d’action élaboré par
les ministères de l’agriculture et de l’environnement propose une régulation du loup en
fonction des territoires. Aucun loup n’est cependant tué entre 2000 et 2003. En 2004, le
nouveau plan d’action (2004-2008) se fonde sur l’élaboration d’un plafond maximum
dérogatoire autorisant le prélèvement de loups sans menacer la viabilité de l’espèce
(Dumez et al. 2017). Depuis, ces politiques de prélèvement se sont développées et font
partie intégrante de la gestion du loup, qui s’opère à la fois par la protection des
troupeaux et la mise en œuvre de tirs d’effarouchement, de défense et de prélèvement.
Les conflits liés au retour du loup ont bénéficié d’un traitement médiatique conséquent
à l’échelle nationale et régionale. Par la simple opération de relais de l’information au
grand public, les journaux ont joué et jouent encore un rôle dans la mise en scène du
conflit. Les éleveurs eux-mêmes ont contacté, notamment au milieu des années 1990,
les médias nationaux et régionaux pour que les témoignages d’attaques sur les cheptels
soient diffusés auprès du grand public, et puissent ainsi toucher une partie de la
population jusqu’ici peu concernée par la présence du loup (Doré 2011). À travers une
analyse comparative du traitement par la presse écrite du conflit lié au retour du loup,
nous cherchons à identifier les variations de représentation de l’éleveur entre deux
quotidiens, l’un diffusé dans la région où l’espèce est revenue et l’autre sur l’ensemble
du territoire.
2. Enjeux de l’élaboration d’un corpus diachronique

3 Nous souhaitons analyser les modalités de représentation de l’éleveur dans une
perspective différentielle, en fonction du type de journal (national ou régional) et en
fonction du temps. Nous mobilisons pour cela deux outils de la statistique textuelle :
l’indice de spécificité – qui permet de repérer les termes significativement plus
présents dans une partition de corpus – et le calcul de cooccurrences – qui rend
possible l’identification des isotopies associées à un mot pivot (Mayaffre 2008). Afin de
saisir la posture adoptée par l’instance journalistique, nous analysons qualitativement
les unités linguistiques indicatrices de la subjectivité du locuteur (Kerbrat-Orecchioni
2013 [1999]) dans les énoncés portant sur l’éleveur.
4 Pour répondre à notre question de recherche, nous avons constitué un corpus
respectant les conditions de signifiance, d’acceptabilité et d’exploitabilité (Pincemin
Corpus, 22 | 2021
199
1999). Ces conditions renvoient respectivement à l’adéquation du corpus avec la

question posée par l’étude (pertinence et cohérence), à la rigueur de constitution du
corpus (représentativité, régularité et complétude) et à la constance des variables de
comparaison nécessaire à l’étude (homogénéité et volume).
5 Le corpus de presse écrite est composé des articles du Monde et de Nice-Matin publiés
entre 1993 et 2014, dans lesquels le mot loup(s) apparaît au moins une fois (Krippendorf
2004).
2.1. Le choix des journaux
6 Parmi les quotidiens nationaux, Le Monde bénéficie historiquement du statut de journal

de référence3. Les prises de position politiques du Monde, et les restructurations
financières dont il a fait l’objet depuis les années 1990 ont provoqué un mouvement de
défiance à l’égard de l’indépendance du journal et du traitement de l’information,
notamment de la part de journalistes (Champagne 2000 ; Péan & Cohen 2003 ; Poulet
2003 ; Mauduit 2016). Néanmoins, l’ancrage historique de référence du journal reste
prégnant, comme le montre l’ouvrage Le journal Le Monde, une histoire d’indépendance
(Eveno 2001), dans lequel l’historien des médias Patrick Eveno entend réhabiliter
l’image du quotidien. En 2016, Le Monde est le deuxième quotidien le plus diffusé sur le
territoire après Le Figaro (269 584 exemplaires) 4. Le statut de « journal de référence »
confère au Monde l’image d’un vecteur d’information relativement neutre, par rapport
à ses confrères notamment. Dans ce contexte, il est susceptible d’avoir une influence
plus élargie dans la co-construction des représentations de ses lecteurs,
indépendamment de leurs orientations politiques par exemple.
7 Comme Le Monde, le journal Nice-Matin a été fondé en 1944, après la Seconde Guerre
Mondiale. Les éditions de Nice-Matin traitent principalement de l’actualité de la région
de Nice, et se trouvent donc au cœur des événements locaux liés au retour du loup.
Elles sont diffusées dans des zones où le retour du loup affecte les activités d’élevage. La
proximité spatiale du journal avec les territoires colonisés par les loups, les
interactions que les journalistes ont avec les éleveurs, plus proches que celles des
médias nationaux, peuvent avoir une influence sur les modalités de traitement de la
controverse (Doré 2011).
8 Si les archives du Monde sont intégralement disponibles sur Europresse, celles du
quotidien Nice-Matin ne sont accessibles qu’au siège social du journal. Les contraintes
techniques liées à l’obsolescence des ordinateurs sur lesquels les archives ont été
stockées pour la période de 1993 à 1998 ont compliqué l’accès aux articles publiés
durant ces années. Nous avons dû privilégier des dossiers de presse sur le loup déjà
confectionnés par des journalistes du quotidien. Le biais provoqué par la collecte des
articles de dossiers de presse sur le loup entre 1993 et 1998 dans Nice-Matin conduit à
une faible représentation de documents dans lesquels le loup est traité comme un
thème secondaire, ou à peine évoqué pour le corpus régional.
2.2. Détermination d’un seuil pour satisfaire la condition

d’exploitabilité du corpus
9 L’absence d’homogénéité de cet échantillonnage constitue un obstacle à la condition

d’exploitabilité du corpus (Pincemin 1999) et empêche l’établissement de comparaisons
Corpus, 22 | 2021
200
quantitatives entre l’échelle médiatique nationale et régionale. Pour rétablir une

homogénéité entre les deux corpus, nous avons décidé de focaliser notre étude sur les
articles dans lesquels la question du loup est centrale (articles primaires). L’élaboration
d’une méthode de différenciation des articles primaires et secondaires s’avère être un
moyen efficace pour que le corpus puisse faire l’objet d’une analyse comparative
quantitative entre les deux journaux. L’attribution du statut secondaire ou primaire à
chacun des articles du corpus nécessite de déterminer un critère objectif de séparation
des deux catégories. Pour départager statistiquement les articles primaires des articles
secondaires, nous avons considéré un sous-échantillon représentatif constitué des
documents dans lesquels les mots loup(s), louve(s) et Canis lupus apparaissaient dans le
titre. À partir de cet échantillon, nous avons calculé le ratio du nombre d’occurrences
des mots référant au loup sur le nombre de mots total de chaque document pour Nice-
Matin et Le Monde (n loup / n total). Pour chaque quotidien, nous avons circonscrit un
intervalle comprenant 95 % des ratios de l’échantillon. Le seuil déterminé correspond à
la valeur minimale de cet intervalle5.
10 Le corpus analysé est constitué de 1 280 articles, 338 issus du Monde et 942 de Nice-
Matin. Le nombre de documents de thématique primaire est de 161 pour Le Monde et
719 pour Nice-Matin. Les analyses présentées ici portent sur le sous-corpus d’articles
primaires. Elles ont été réalisées avec le logiciel TXM (Heiden et al. 2010).
3. La nomination de l’éleveur dans Le Monde et Nice-

Matin
11 L’éleveur est l’acteur auquel les quotidiens font le plus référence (Tableau 1). Alors que
seul le mot éleveur est intégré aux 10 mots lexicaux les plus fréquents dans Le Monde,
nous observons la présence des mots éleveur et berger dans Nice-Matin.
Tableau 1. Liste des 10 mots lexicaux les plus fréquents dans Nice-Matin et Le Monde
Nice-Matin Le Monde
être 7412 être 2187
avoir 6128 avoir 1603
loup 4731 loup 1560
faire 1066 éleveur 331
éleveur 1009 faire 330
berger 954 animal 286
parc 893 pouvoir 259
pouvoir 890 troupeau 219
troupeau 855 parc 195
Corpus, 22 | 2021
201
animal 837 chien 192
12 Le quotidien régional utilise de façon presque équivalente les noms berger et éleveur
pour désigner l’acteur confronté au loup, alors que Le Monde emploie essentiellement le
substantif éleveur. Le calcul de spécificité montre que l’usage du mot berger est
significativement plus important dans Nice-Matin (Tableau 2).
Tableau 2. Indices de spécificité des occurrences de berger et éleveur (Le Monde et Nice-Matin)
Unités lexicales (lemmes) Le Monde Nice-Matin
éleveur 0,9 -0,9
berger -10,5 10,5
13 Les définitions de ces termes, bien que proches, présentent des traits sémantiques
différents. L’éleveur est défini par le TLFi comme une « personne qui se consacre à
l’élevage des animaux domestiques » et le berger comme une « personne sédentaire ou
nomade qui garde des moutons, des brebis ou des chèvres ». Par extension, le berger est
également celui qui « mène paître le bétail d’une ferme, quel qu’il soit (pourceaux,
bœufs, taureaux, vaches) » et parfois – mais rarement – un « propriétaire, éleveur de
troupeaux ». Le mot berger renvoie donc plus particulièrement qu’éleveur au suivi du
troupeau en estive.
14 D’un point de vue étymologique, éleveur n’a pas été cantonné dès ses premiers usages à
une activité liée aux animaux. L’éleveur est défini au XIIe siècle comme « celui qui élève,
qui relève » puis, au XVIe siècle, comme « celui qui élève quelque chose ; celui qui
nourrit, élève (des personnes, des animaux) ». En revanche, berger signifiait, dès le
XIIe siècle, « gardien de moutons ». L’ancrage dans la durée du programme de sens de
berger confère à ce métier une dimension temporelle stable et ancienne, et construit
l’image d’une profession dans la filiation historique du pastoralisme. L’usage du
substantif est de ce fait susceptible de véhiculer des représentations liées à une
pratique moins mécanique de l’agriculture.
15 Les définitions d’éleveur et berger renvoient donc à des pratiques d’élevage pouvant être
respectivement associées à une conception moderne et traditionnelle du métier. Nous
cherchons à identifier dans quelle mesure l’usage significativement plus important du
mot berger dans la presse régionale est révélateur d’une conception plus traditionnelle
de l’élevage dans Nice-Matin.
4. Cooccurrents des formes non lemmatisées de

berger et éleveur
16 La prise en compte des formes non lemmatisées de berger et éleveur pour le calcul des
indices de spécificité met en évidence un usage significativement plus élevé des
occurrences au singulier dans Nice-Matin.
Corpus, 22 | 2021
202
Tableau 3. Indices de spécificité des occurrences de berger et éleveur au singulier et au pluriel (Le
Monde et Nice-Matin)
Unités lexicales Le Monde Nice-Matin
éleveur et berger -6 6
éleveurs et bergers -0,9 0,9
17 Alors que par la forme plurielle, le référent est saisi collectivement, selon son
appartenance à la profession, le singulier permet, quant à lui, de désigner aussi un seul
individu. Dès lors, le cotexte des mots est susceptible de varier en fonction du type
d’actualisation des deux substantifs. L’analyse cooccurrentielle met en évidence une
variation des isotopies privilégiées selon que ces substantifs sont actualisés au singulier
ou au pluriel.
Tableau 4. Principaux cooccurrents des mots éleveur et berger au singulier et au pluriel (Le Monde et
Nice-Matin, intervalle -11 ; 11)
Unités
Le Monde Nice-Matin
lexicales
mouton ; troupeau ; brebis ; rentrer ; avoir ; métier ; troupeau ; Brigue ; appartenir ;

bergerie ; vallée ; Grasse ; Dommartin- perdre ; colère ; son ; Saint-Crépin ; mouton ;
lès-Vallois ; Cédric ; exercer ; bête ; fils ; chien ; Ascenzi ; Saint-Barnabé ;
éleveur et convaincre ; égorger ; entourer ; exhiber ; Giordan ; Jean-Pierre Isnard ;
berger posséder ; milieu ; ressembler ; grand- attaquer ; Aimé ; père ; brebis ; je ; expliquer ;
père ; gardien ; Derbez ; impossible ; Tende ; chez ; raconter ; déposer ; Isola ; aide ;
Bernard ; démographie ; apparence ; Viale ; Auguste ; jeune ; indemniser ; Ségur ;
tirer ; métier Bruno ; condamner ; etc.
troupeau ; colère ; aide ; aider ; ovin ;

élu ; colère ; indemniser ; mesure ;
agriculteur ; réclamer ; défendre ;
protection ; indemnisation ; chasseur ;
exaspération ; excéder ; défense ; chasseur ;
réclamer ; mouton ; manifester ;
situation ; représentant ; difficulté ; élire ;
améliorer ; apaiser ; ovin ; écologiste ;
subit ; soutenir ; trentaine ; soutien ; refuser ;
éleveurs syndical ; exaspérer ; agriculture ;
rencontrer ; mesure ; défenseur ; condition ;
et bergers formation ; désarroi ; tension ;
indemniser ; syndicat ; indemnisation ;
profession ; plaindre ; aide ; craindre ;
agressivité ; permis ; vouloir ; transhumance ;
autorisation ; opposer ; mobilisation ;
dialogue ; cohabitation ; souhaiter ; exaspérer ;
Gap ; délégation ; défiler ; perte ;
désarroi ; disparition verser ; droit ; perte ;
défenseur ; etc.
manifester ; apaiser ; rassembler ; etc.
18 Dans les deux journaux, le singulier des substantifs éleveur et berger est associé à la
désignation d’individus, de liens familiaux (grand-père ; fils ; gardien ; Cédric ; Ascenzi ;
Jean-Pierre Isnard ; Aimé ; etc.) et de lieux spécifiques (vallée ; Grasse ; Dommartin-les-
Vallois ; bergerie ; Brigue ; Isola ; etc.). Les verbes égorger (Le Monde), attaquer (Nice-Matin),
et l’isotopie relative à la pratique de l’élevage (brebis ; troupeau ; mouton ; posséder ;
milieu ; métier ; etc.) indiquent qu’au singulier, les mots éleveur et berger réfèrent
Corpus, 22 | 2021
203
principalement à la pratique individuelle de l’élevage, sur le terrain, en présence du

loup.
19 En revanche, les cooccurrents des pluriels de berger et éleveur renvoient principalement
à l’isotopie de la revendication (colère ; réclamer ; exaspérer ; manifester ; défendre ;
exaspération ; refuser ; etc.), aux acteurs des débats (élu ; syndicat ; chasseur ; profession ;
écologiste ; défenseur ; agriculteur ; etc.) et aux mesures de gestion du retour du loup
(indemnisation ; mesure ; indemniser ; protection).
20 La référence à l’éleveur au singulier et au pluriel témoigne de la représentation
médiatique de cet acteur dans deux contextes différents : le premier, de terrain, est
centré sur l’expérience d’éleveurs spécifiques, alors que le second, lié à la sphère de
négociation politique, donne à appréhender l’acteur de façon collective.
21 L’usage significativement plus élevé du singulier dans Nice-Matin met en évidence une
représentation plus importante de l’expérience individuelle de la prédation par
l’éleveur dans la presse régionale, mais ne permet pas d’identifier avec précision les
variations de construction de l’image de l’éleveur entre les deux journaux.
22 Afin de saisir les différences de représentation de l’éleveur confronté à la prédation
dans Le Monde et Nice-Matin, nous focalisons notre analyse sur les contextes où la
référence à l’éleveur s’opère au singulier.
4.1. Les témoignages d’éleveurs, au cœur de la légitimation d’une

profession (Nice-Matin)
23 Dans la presse régionale, la récurrence des verbes expliquer (18 occurrences), raconter
(9 occurrences), pester (3 occurrences), tempêter (2 occurrences), affirmer
(9 occurrences), et du pronom personnel je (36 occurrences), en cotexte des mots
éleveur et berger indique que la référence à l’éleveur est associée à la médiatisation de
son témoignage. Il s’opère alors une double construction de l’image de l’éleveur, par le
journaliste, qui met en scène le discours relayé, et par l’image que l’éleveur renvoie de
lui-même dans son témoignage. Trente-et-un segments de discours rapporté des
éleveurs, publiés dans seize articles différents, comportent des occurrences du pronom
je en cotexte d’éleveur et berger6. Ces segments de discours rapporté renvoient d’une
part à la mise en scène, par l’éleveur, de son expérience de la prédation dans des
énoncés comme j’ai senti mes jambes flageoler7 ou encore j’estime à 1000 bêtes mes pertes, je
n’en peux plus8, et d’autre part à un positionnement en tant que professionnel confronté
au loup, dans des phrases comme je suis berger depuis l’âge de 13 ans 9 et je n’élève pas mes
brebis pour qu’elles soient égorgées par le loup10. Nice-Matin associe au témoignage de
l’éleveur l’isotopie des émotions : la peur, le découragement, la colère. Dans l’article
publié le 15 juillet 2014, c’est par le prisme des émotions que sont envisagés un éleveur
et sa femme, confrontés à la prédation : « Les traits sont tirés et les yeux embués de
larmes. Mickaël Viale et sa compagne Séverine ont fait une découverte macabre ce
14 juillet vers 5 heures du matin. Vingt-sept de leurs bêtes sont mortes, égorgées » 11.
Cet extrait témoigne de la construction conjointe des acteurs humains marqués
psychologiquement par l’attaque et de l’attaque elle-même.
24 La mise en scène journalistique rend compte d’une intégration de l’expérience de la
prédation dans un contexte plus large que celui, unique, de l’éleveur. Les cooccurrents
d’éleveur et berger relèvent en partie de l’isotopie de la famille. Dans le corpus, nous
Corpus, 22 | 2021
204
observons cinquante-six emplois du syntagme [déterminant possessif + nom désignant un

lien de parenté], référant à la famille de l’éleveur, et sept expressions renvoyant à la
notion de filiation (de père en fils, petit fils, fils). La médiatisation conjointe de l’éleveur et
de ses proches ajoute à la construction de l’image du berger en tant que professionnel,
des propriétés relatives à sa vie personnelle. Juxtaposées à du discours rapporté
d’éleveurs dans six des sept occurrences, les expressions fils et petit-fils d’éleveur/de
berger, berger de père en fils et fils et père d’éleveurs renforcent la légitimité de l’acteur
relayé en raison de l’ancrage familial et ancien de la pratique du métier. Dans l’article
publié le 30 août 1996, le quotidien relaie les propos d’un éleveur et le désigne par
l’expression berger de père en fils : « “[…] L’insécurité a gagné la montagne et les
délinquants, ce sont les loups !”. Berger de père en fils, Louis Ascenzi sait de quoi il
parle »12. En présentant l’éleveur selon l’ancrage familial et temporel de sa pratique du
métier, le quotidien attribue d’emblée une légitimité au locuteur, et, de ce fait, à ses
propos.
25 À partir de 2012, la référence de l’éleveur à son fils est toujours réalisée dans des
articles où le père, berger, explicite le risque de rupture de la transmission
générationnelle du métier. Les termes décourager13, impossible d’en sortir14, partir, laisser
tomber15 relèvent de l’isotopie de l’abandon. Ils témoignent de l’expression du
découragement de la génération suivante, et d’une absence, dans le contexte du retour
du loup, de volonté de transmission du métier. Entre les séquences de discours
rapporté, le journaliste focalise l’attention du lectorat sur les mutations qu’engendrent,
pour les éleveurs, le retour du loup. Les énoncés Jean-Paul Dozol se pose beaucoup de
questions sur l’avenir de son métier16 et Patrick Bruno ne conçoit plus son métier de la même
façon17 soulignent l’actualité des bouleversements que le retour du loup induit pour la
pratique du métier d’élevage. En cotexte du discours rapporté d’éleveurs soulignant le
risque de rupture dans la transmission générationnelle du métier, la mention des
questionnements et des changements de perception des éleveurs attribue à la présence
du loup un rôle dans la fragilisation du modèle familial de la pratique de l’élevage.
26 La médiatisation des proches de l’éleveur conduit à élargir l’impact de la prédation à
l’ensemble de la sphère familiale. La référence à la nature filiale et à la transmission
familiale de la profession confère à la pratique traditionnelle de l’élevage une
inscription durable sur le territoire. L’éleveur acquiert ainsi une légitimité due à
l’expérience dont il a hérité. L’héritage familial est envisagé selon la fragilité de sa
transmission aux générations futures, dans un contexte où le loup est présent dans les
espaces pastoraux. De la difficulté pour l’éleveur et son entourage familial, la présence
du loup en vient à incarner une menace pour la profession.
27 Malgré une plus faible référence à l’éleveur envisagé en tant qu’individu dans Le Monde,
décèle-t-on des marques de la construction d’une image médiatique de cet acteur à
l’échelle nationale ?
4.2. Entre représentation collective et individuelle de l’expérience de

la prédation (Le Monde)
28 Les occurrences des mots éleveur et berger, au singulier, sont significativement moins
nombreuses dans Le Monde que dans Nice-Matin (Tableau 3). Cela nous conduit à
formuler l’hypothèse d’une moins forte focalisation, de la part du quotidien national,
sur l’expérience individuelle de l’éleveur confronté au loup.
Corpus, 22 | 2021
205
29 À la différence du quotidien régional, les verbes introducteurs de discours rapporté et

le pronom je sont absents de la liste des cooccurrents des mots éleveur et berger
(Tableau 4). Cela peut être dû au fait qu’entre 1993 et 1999, le quotidien privilégie une
médiatisation groupée des actes de prédation subis par les éleveurs (Figure 1), qui ne
favorise par la diffusion de témoignages.
Figure 1. Évolution de la représentation de la prédation (Le Monde)
30 L’éleveur est de ce fait saisi en tant que groupe confronté à la prédation. Ce choix de
traitement de l’information peut tout d’abord être expliqué par la localisation et la
diffusion du journal, qui, du fait de sa faible proximité avec les acteurs touchés par la
prédation, ne répond pas prioritairement à la loi de proximité géographique (Agnès
2005) dans le traitement des informations les concernant. Afin de comprendre
comment l’éleveur est représenté dans son expérience individuelle du retour du loup,
nous nous focalisons sur les articles dans lesquels Le Monde relaie un acte de prédation
spécifique18.
4.2.1. L’image dévaluée de l’éleveur face au retour du loup
31 Jusqu’en 2000, la faible médiatisation de prédations spécifiques s’accompagne d’une

axiologie négative associée à l’éleveur. Dans quatre des huit représentations d’actes de
prédation spécifiques, le discours journalistique contribue à discréditer les propos de
l’éleveur par l’usage de verbes de discours rapporté subjectifs tels que prétendre 19, par la
description de l’éleveur selon des propriétés stéréotypées20 ou encore par la
confrontation des témoignages à l’expertise institutionnelle. L’article publié le
15 septembre 1998 illustre particulièrement bien l’orientation argumentative
journalistique qui résulte de la mise en relation du discours rapporté institutionnel et
de celui des éleveurs21. Le journaliste dresse un historique des démarches mises en
œuvre par les responsables institutionnels avant que la présence du loup ne soit
officiellement avérée dans le massif alpin : « Rapidement, celui-ci [l’ingénieur à la
Direction Départementale de l’Agriculture et de la Forêt (DDAF)] décide de former un
Corpus, 22 | 2021
206
réseau d’observateurs ». Dans l’énoncé juxtaposé, le journaliste désigne par le

syntagme mesure utile les démarches instaurées par l’ingénieur de la DDAF, et évalue
ainsi positivement l’initiative de cet acteur : « Mesure utile puisque, dès juin, les
observateurs assermentés recueillent […] les témoignages de deux bergers affirmant
avoir vu un loup ». La preuve de la présence du loup, fondée sur le témoignage de
bergers, tend à acquérir une plus forte légitimité du fait de son recueil par des
représentants de l’autorité dont la légitimité est soulignée par l’usage du syntagme
observateurs assermentés. Ces observations sont détaillées par le témoignage d’éleveurs.
Le premier témoignage est présenté dans l’énoncé “J’ai tapé dans mes mains, et il est parti
en trottinant”, précise l’un d’entre eux, qui sera toutefois incapable de fournir d’autres
précisions permettant de certifier la présence d’un loup. La proposition relative qui sera
toutefois incapable de fournir d’autres précisions permettant de certifier la présence d’un loup
exprime une prise de distance avec le témoignage relayé. Le journaliste souligne le
faible nombre d’indices transmis par l’éleveur à la suite de son observation. L’emploi de
l’adverbe toutefois réduit la crédibilité du témoignage, en lui conférant un caractère
lacunaire. Par un discours seulement allusif, le journal ouvre la voie vers une remise en
question totale du témoignage de l’éleveur. Les propos relayés du second éleveur sont
présentés de façon analogue. Dans l’énoncé Une bergère affirme avoir vu un loup dans ses
jumelles. “Il m’a regardée fixement, j’en ai eu le sang glacé”, dit-elle, sans vraiment convaincre
les experts, le complément circonstanciel sans vraiment convaincre les experts communique
d’abord au lecteur le regard critique des « observateurs assermentés » sur les propos
rapportés, et abonde ensuite en leur sens, par le recours à la question rhétorique
N’aurait-elle pas vu plutôt un grand canidé, et pourquoi pas un chien de traîneau qui s’était
justement échappé de la Grave quelques jours auparavant ?22. Le journaliste guide ainsi le
lectorat vers l’attribution de l’attaque à un autre animal que le loup.
32 Alors que la preuve de la présence du loup est fondée, au début de l’article, sur le
recueil par des individus représentants de l’institution de témoignages d’éleveurs,
l’environnement textuel du discours rapporté de ces mêmes éleveurs confère un
caractère confus et peu crédible aux témoignages. La validation de l’information à la
fois par le quotidien et le journaliste tend à décrédibiliser non pas la nouvelle relative à
la présence du loup dans les Alpes, mais l’image des éleveurs qui en ont fait
l’observation.
33 À partir de 2001, les portraits d’éleveurs deviennent centraux lors de la représentation
médiatique de la prédation (Figure 1). Du point de vue de l’historique du conflit, les
années 2000 et 2004 marquent un tournant institutionnel conduisant à une politique de
gestion directe où les tirs de prélèvements de loups sont autorisés dans des conditions
spécifiques. En 2004, la modification de la législation s’accompagne de la publication de
trois chroniques journalistiques et scientifique se positionnant en défaveur de cette
décision qui entre en contradiction avec la ligne jusqu’ici privilégiée par le journal 23.
4.2.2. Vers une réhabilitation de l’image de l’éleveur
34 Parallèlement à la publication de chroniques, l’année 2004 se caractérise par la

présence d’énoncés dialogiques visant à réhabiliter l’image de l’éleveur. Dans l’article
intitulé « Les éleveurs des Alpes du Sud ne supportent plus les attaques de loups »,
publié le 1er septembre 2004, le journaliste dresse le portrait d’éleveurs confrontés à la
prédation et évalue la situation décrite par les propositions le désarroi des bergers est réel
et le désarroi des éleveurs n’est pas feint24. Le nom réel place au premier plan la question de
Corpus, 22 | 2021
207
la véracité du ressenti, et suppose l’existence d’un discours opposé, implicite,

remettant en cause cette véracité. La seconde proposition renvoie de façon
interdiscursive à l’énoncé le désarroi des bergers est feint. En infirmant les propriétés
négatives associées à l’éleveur, le quotidien national modifie les valeurs qu’il a jusqu’ici
partagées avec son lectorat, et remet ainsi en cause sa propre doxa, construite au cours
des premières années du conflit. Le journal se positionne ainsi en empathie avec
l’éleveur et lui attribue les valeurs de l’honnêteté. À partir de 2008, Le Monde dresse
pour chaque acte de prédation relayé un portrait détaillé de l’éleveur touché et opère
ainsi une focalisation sur l’expérience de terrain de la prédation 25. Dans l’article publié
le 22 juillet 2008, la journaliste Gaëlle Dupont recueille le témoignage de deux éleveurs
confrontés à la présence du loup :
Ils ne possèdent que cinquante chèvres et cinq vaches, mais cela leur suffit pour
vivre « correctement ». Jean-Claude Fabre et Hugues Fanouillaire fabriquent eux-
mêmes les fromages que des connaisseurs viennent acheter à la Roria, leur ferme
située dans le parc national du Mercantour. « On produit peu, on transforme, on
commercialise des produits de qualité, et ça marche », résume Hugues Fanouillaire.
Les deux associés sont fiers de leur réussite, pas si fréquente dans les zones de
montagne. Ils n’ont qu’un seul problème : le loup.
Le Monde, « Dans les Alpes du Sud, la difficile coexistence entre éleveurs et loups »,
22 juillet 2008
Dans ce passage, la journaliste met en évidence l’équilibre fragile de la profession
exercée par les deux hommes, en raison notamment du type d’élevage – traditionnel –
exercé. La légitimité attribuée au métier pratiqué est donnée par l’évaluation positive
des acheteurs des produits vendus par les éleveurs : « des connaisseurs ». À la suite de
la description de la réussite des associés dans un contexte difficile, la phrase Ils n’ont
qu’un seul problème : le loup positionne l’espèce protégée comme la cause susceptible de
compromettre la réussite d’une pratique traditionnelle du métier.
Jusqu’au début des années 2000, l’éleveur est faiblement représenté d’après son
expérience individuelle de la prédation et fait l’objet de commentaires évaluatifs
négatifs de la part du journal. En 2004, le passage à une politique de gestion directe du
loup s’accompagne de la redéfinition, pour Le Monde, des propriétés attribuées à
l’éleveur et au métier qu’il exerce. Le journal opère une plus forte focalisation sur les
récits de prédation et construit l’image de l’éleveur selon l’impact psychologique des
attaques et la valeur traditionnelle de la pratique de l’élevage.
Le changement de posture du Monde est explicité par le quotidien en 2012, au moment
où le gouvernement oriente la gestion du loup vers l’assouplissement des tirs
dérogatoires visant le prédateur. Au terme du plan national de gestion du loup
2008-2012, Le Monde publie, vingt ans après le retour du prédateur sur le territoire,
deux articles portant sur la gestion de l’espèce : un éditorial en première page, et un
article relayant les revendications de groupes sociaux opposés à la protection du loup.
L’éditorial explicite une prise de position en faveur de la régulation du loup. Dans six
des huit paragraphes, l’auteur met en opposition le loup et l’éleveur. Il attribue ainsi à
cette opposition un ancrage profond, dans une représentation à la fois concrète (le loup
et l’éleveur de moutons) et conceptuelle (la « nature sauvage » et la « nature
civilisée »). L’éditorialiste formule la nécessité de faire un choix entre la protection du
loup et celle de l’élevage : « Entre la survie d’une profession traditionnelle menacée,
l’agropastoralisme, et celle d’une espèce prédatrice revenue naturellement en France il
y a vingt ans, il s’agit de choisir. Ou d’agir pour sauvegarder les deux » 26. Le lexique
utilisé pour référer au pastoralisme est proche de celui usuellement associé aux espèces
Corpus, 22 | 2021
208
protégées (survie, menacé). La référence au loup, en revanche, opère une focalisation sur
sa fonction de prédateur, qui est à l’origine des difficultés rencontrées par l’éleveur
coexistant avec l’animal (espèce prédatrice)27. En associant à l’élevage un lexique
analogue à celui relatif à la protection de la biodiversité, Le Monde attribue au
pastoralisme un statut proche de celui d’une espèce strictement protégée comme le
loup. Le quotidien inverse ainsi l’échelle de priorité qu’il avait précédemment
construite entre protection des activités humaines et de la « nature sauvage ». Le
journal accorde une place centrale à l’élevage, et établit en cas de choix entre le loup et
l’agropastoralisme, une hiérarchie en faveur de l’agropastoralisme.
Conclusion
Au cœur du conflit lié au retour du loup, l’éleveur est l’acteur auquel Le Monde et Nice-
Matin font le plus référence. L’environnement textuel des substantifs éleveur et berger
varie en fonction de leur actualisation au pluriel ou au singulier. Le calcul
cooccurrentiel montre que chacune de ces actualisations relève de deux contextes
distincts : la revendication politique et l’expérience de la prédation. Significativement
plus représentée dans Nice-Matin, l’expérience de la prédation s’accompagne dans le
quotidien régional d’une construction de la pratique de l’élevage selon une dimension
traditionnelle fragilisée par le retour du loup. L’image de l’éleveur est façonnée par
l’impact psychologique de la prédation et par les conséquences de la présence de
l’espèce protégée sur la structure familiale. Au cours des premières années suivant le
retour du loup, Le Monde médiatise peu l’expérience individuelle de prédation. Le
quotidien privilégie un discours critique lorsqu’il relaie les témoignages d’éleveurs, et
valorise parallèlement les propos de l’État. C’est à partir du début des années 2000, date
à laquelle la politique de gestion du prédateur ouvre la voie vers les tirs dérogatoires,
que la perspective du Monde sur l’éleveur évolue. La représentation de l’éleveur se
rapproche alors de celle de Nice-Matin. L’expérience individuelle de la prédation est
façonnée par l’impact psychologique des attaques. En 2012, la prise de position du
Monde en faveur de la politique de régulation des populations de loups entérinée par le
gouvernement s’accompagne d’une valorisation de l’agropastoralisme. Entre 1993 et
2014, les modalités de représentation de l’éleveur évoluent parallèlement aux
politiques de gestion du loup successivement mises en œuvre par les gouvernements.
35 Le calcul cooccurrentiel ouvre la voie à une prise en compte qualitative des textes, au
sein de sous-corpus constitués par les isotopies récurrentes en cotexte du mot pivot. À
travers la prise en compte des thèmes préférentiellement associés aux mots berger et
éleveur, l’étude qualitative permet de relever les indices de construction de l’orientation
argumentative du discours journalistique. Le journal régional adopte un discours
proche de celui de l’éleveur, alors que le discours du quotidien national suit une
évolution proche de celle des politiques institutionnelles.
Corpus, 22 | 2021
209
BIBLIOGRAPHIE
Agnès Y. (2002). Manuel de journalisme. Écrire pour le journal. Paris : La Découverte.
Champagne P. (2000). « Le médiateur entre deux Mondes », Actes de la recherche en sciences sociales
131(1) : 8-29. Doi : 10.3406/arss.2000.2662.
Doré A. (2011). Des loups dans la cité. Éléments d’écologie pragmatiste, thèse de doctorat en sociologie.
Paris : Institut d’études politiques. Liège : Université de Liège.
Dumez R., Arpin I., Hubert A., Legrand M., Lescureux N., Manceron V., Morizot B. & Mounet C.
(2017). Expertise scientifique collective sur les aspects sociologiques, culturels et ethnologiques de la
présence du loup en France. Expertise pour le Ministère de l’Environnement, de l’Énergie et de la Mer.
Paris : Muséum national d’Histoire naturelle.
Eveno P. (2001). Le journal Le Monde : une histoire d’indépendance. Paris : Éditions Odile Jacob.
Heiden S., Magué J.-P. & Pincemin B. (2010). « TXM : Une plateforme logicielle open-source pour
la textométrie – conception et développement », in I. C. S. Bolasco (éd.), Proc. of 10th International
Conference on the Statistical Analysis of Textual Data - JADT 2010, 2, 1021-1032. Rome : Edizioni
Universitarie di Lettere Economia Diritto.
Kerbrat-Orecchioni C. (2013) [1999]. L’énonciation. Paris : Armand Colin.
Krippendorff K. (2004). Content analysis : an introduction to its methodology. Londres : Thousand

Oaks.
Lafon P. (1981). « Analyse lexicométrique et recherche des cooccurrences ». Mots. Les langages du
politique 3 : 95-148.
Mauduit L. (2016). Main basse sur l’information. Paris : Dom Quichotte.
Mayaffre D. (2008), « De l’occurrence à l’isotopie. Les co-occurrences en lexicométrie », Syntaxe et

sémantique 9 : 53-72. Doi : 10.3917/ss.009.0053.
Mayaffre D. & Viprey J.-M. (2012). « Présentation », Corpus 11 : 1-19. https://doi.org/10.4000/

corpus.2200.
Moriceau J.-M. (2015). Le loup en questions : fantasme et réalité. Paris : Buchet-Chastel.
Muller C. (1964). Essai de statistique lexicale. Paris : Klincksieck.
Péan P. & Cohen P. (2003). La face cachée du Monde. Paris : Mille et Une Nuits.
Pincemin B. (1999). « Atelier Corpus et TAL : pour une réflexion méthodologique », in

A. Condamines et al. (éd.), Corpus et traitement automatique des langues : pour une réflexion
méthodologique. Cargèse : Actes de l’atelier thématique TALN, 26-36.
Poulet B. (2003). Le pouvoir du Monde. Paris : La Découverte.
NOTES
1. Convention CITES.
2. Annexe II de la Convention de Berne, ratifiée par la France en 1989.
3. Sur la base de données Europresse, Le Monde est ainsi défini : « Depuis sa création […] Le Monde
s’est imposé comme le quotidien de référence aussi bien par sa rigueur dans le traitement de
Corpus, 22 | 2021
210
l’information que par sa tradition d’indépendance vis-à-vis des idéologies et des pouvoirs ». Sur
le site de l’INA, la page dédiée aux soixante-dix ans du Monde se nomme « Le Monde, itinéraire
d’un journal de référence » : http://www.inaglobal.fr/presse/dossier/le-monde-itineraire-d-un-
journal-de-reference-8031.
4. Le classement des journaux en fonction de leur diffusion en France est accessible au lien
suivant : http://www.acpm.fr/Chiffres/Diffusion/La-Presse-Payante/Presse-Quotidienne-
Nationale.
5. Cette étape a été réalisée en collaboration avec Carole Vuillot, post-doctorante au Museum
National d’Histoire Naturelle de Paris et Olivier Gimenez, directeur de recherche au Centre
d’Ecologie Fonctionnelle et Evolutive de Montpellier.
6. Ces segments de discours rapporté sont consultables dans l’annexe numérique 06.
7. Nice-Matin, « Mercantour : un berger affirme avoir été attaqué par un loup », 15 août 2001.
8. Nice-Matin, « Vésubie : une quarantaine de brebis tuées par le loup ? », 8 mai 2013.
9. Nice-Matin, « Un mouton en habit de deuil à la fête des bergers de Tende », 19 août 2002.
10. Nice-Matin, « Nouvelle attaque hier à Tende », 15 juillet 2014.
11. Nice-Matin, « Nouvelle attaque hier à Tende », 15 juillet 2014.
12. Nice-Matin, « Été 96. Montagne : le ras-le-bol des bergers de l’Authion », 30 août 1996.
13. Nice-Matin, « Le berger et le loup », 28 août 2012.
14. Nice-Matin, « La grosse colère du président de la Chambre d’Agriculture », 9 mai 2013.
15. Nice-Matin, « Les bergers “en ont marre des beaux discours” sur le loup », 10 octobre 2013.
16. Nice-Matin, « Haute vallée du Var : un troupeau attaqué par un loup », 5 juillet 2002.
17. Nice-Matin, « Le berger et le loup... », 28 août 2012.
18. Nous entendons par acte de prédation spécifique les attaques relayées impliquant un éleveur,
son troupeau et un prédateur, dans un lieu et un moment déterminés. Le sous-corpus est
composé de 21 articles, dans lesquels 26 attaques spécifiques sont médiatisées.
19. Le Monde, « Après le loup dans les Alpes, l’ours exaspère les éleveurs des Pyrénées », 14 août
1999.
20. Le Monde, « Le loup, l’agneau et les écolos », 1er octobre 1997.
21. Le Monde, « Le loup revient dans l’ensemble du massif alpin », 15 septembre 1998.
22. Le Monde, « Le loup revient dans l’ensemble du massif alpin », 15 septembre 1998.
23. Le Monde, « À bon loup, bon chien », 23 juillet 2004 ; « À nous les patous », 29 juillet 2004 ; « La
philosophie dans le troupeau », 2 août 2004.
24. Le Monde, « Les éleveurs des Alpes du Sud ne supportent plus les attaques de loups »,
1er septembre 2004.
25. Entre 2008 et 2014, Le Monde représente le portrait d’éleveurs confrontés à la prédation dans
cinq articles : Le Monde, « Dans les Alpes, la difficile coexistence entre éleveurs et loups »,
22 juillet 2008 ; « Dans les Vosges, l’ombre du loup », 27 juin 2011 ; « Dans les Alpes, la peur du
loup gagne les éleveurs », 3 octobre 2011 ; « Dans le Mercantour, le loup défie les éleveurs »,
3 septembre 2012 ; « Le loup étend son territoire et sème la colère dans les plaines », 25 octobre
2013.
26. Le Monde, « Garder le loup sans perdre l’agneau », 5 novembre 2012.
27. La notion de survie est néanmoins associée au loup, mais, par la reprise anaphorique celle,
plus indirectement qu’à l’élevage.
Corpus, 22 | 2021
211
RÉSUMÉS
En Europe, la recolonisation progressive des territoires par les grands carnivores, espèces
protégées, fait l’objet de conflits virulents notamment dus à l’impact des actes de prédation sur
les activités d’élevage. Les conflits provoqués par le retour du loup en France ont été
abondamment relayés par la presse et ont ainsi été diffusés auprès d’un public élargi. À travers
une mobilisation conjointe de méthodes de la lexicométrie et de l’analyse du discours, nous avons
étudié l’évolution de l’image médiatique de l’éleveur dans la presse régionale (Nice-Matin) et
nationale (Le Monde) entre 1993 – date de première médiatisation du retour du loup – et 2014.
Notre recherche témoigne d’une construction axiologique de cet acteur dans les deux quotidiens
considérés. Tout au long de la période, Nice-Matin opère une légitimation de l’éleveur à travers la
valorisation de son témoignage et de la profession qu’il exerce. La posture du quotidien national
évolue quant à elle au cours du temps. Les premières années (1993-1999) sont marquées par un
discours évaluant négativement la parole de l’éleveur et favorisant l’expertise institutionnelle. À
partir du début des années 2000, marquées d’un point de vue institutionnel par l’autorisation de
tirs de prélèvement dérogatoires de loups, Le Monde établit progressivement une image positive
de l’éleveur et développe un discours empathique proche de celui de la presse régionale. En 2012,
la publication d’un éditorial en faveur de la politique de régulation du loup inscrit explicitement
un rapprochement entre les postures du journal et de l’institution.
The recent recovery of large carnivore populations in Europe has led to recurrent conflicts
mainly due to livestock predation. In France, the extensive media coverage of the recovery of
wolf has contributed to the dissemination of the conflict to a large audience. Using lexical
statistics and discourse analysis methodologies, we analyzed the evolution of the representation
of livestock breeders in regional (Nice-Matin) and national (Le Monde) printed press from 1993 to
2014. Our study showed that Nice-Matin has consistently portrayed farmers through the
emotional impact of predation and the threatened future of traditional farming practices. Le
Monde’s representation of farmers evolved over time. During the first years of wolves recovery
(1993-1999), legitimacy of livestock breeders testimonies was questioned by journalists. During
the early 2000s, the national newspaper progressively built a positive image of livestock
breeders, similar to Nice-Matin’s portrayal of farmers. This change in Le Monde’s portrayal of
livestock breeders occured simultaneously with the first establishments of wolves removal policy
in 2000 and 2004. In 2012, the publication of an editorial in favor of wolves regulation policy
indicated similar views regarding Le Monde and the institution.
INDEX
Mots-clés : cooccurrence, isotopie, analyse du discours, environnement, loup
Keywords : co-occurrence, discourse analysis, environment, wolves
AUTEUR
MARIE CHANDELIER
Université Côte d’Azur, laboratoire Bases, Corpus, Langage (UMR 7320)
Corpus, 22 | 2021
212
La phraséologie du roman
contemporain dans les corpus et les
applications de la PhraseoBase
The phraseology of the contemporary fiction in the PhraseoBase’s corpora and
applications
Sascha Diwersy, Laetitia Gonon, Vannina Goossens, Olivier Kraif, Iva

Novakova, Julie Sorba et Ilaria Vidotto
1. Présentation générale du projet PhraseoRom

1 Le principal apport du projet ANR DFG PhraseoRom1 a été d’élaborer une typologie
structurelle et fonctionnelle des constructions lexico-syntaxiques (CLS) spécifiques au
discours romanesque francophone, anglophone et germanophone à partir des années
1950. Nous avons exploré, en procédant de manière entièrement inductive, selon
l’approche corpus driven, la pertinence des phénomènes phraséologiques pour la
caractérisation de la langue et des sous-genres littéraires.
2 Ce projet interdisciplinaire en Humanités numériques a été construit autour de trois
principaux volets : TAL, linguistique et stylistique. Le volet informatique (Corpus et
TAL) nous a permis d’extraire, grâce à des approches textométriques 2 innovantes, des
expressions polylexicales sous forme d’Arbres Lexico-syntaxiques Récurrents (ALR), à
partir de corpus littéraires trilingues, comparables et parallèles (voir sections 2.1 et 2.2)
Dans le volet linguistique, ces ALR ont été classés, annotés et analysés selon une
méthodologie spécifique (voir section 2.3), inspirée des modèles fonctionnels et
contextualistes britanniques (Sinclair 2004 ; Hoey 2005). Dans le volet stylistique
(section 2.4), il a été procédé à des annotations fines des fonctions discursives (FD) des
ALR, qui génèrent des motifs textuels (Legallois 2006 ; Longrée & Mellet 2013 ;
Novakova & Siepmann 2020). Dans la section 3, nous proposons deux applications de la
méthode des ALR pour distinguer les sous-genres romanesques, d’une part, au sein de
la littérature de l’imaginaire (section 3.1 : la science-fiction vs. la fantasy), et d’autre
Corpus, 22 | 2021
213
part, au sein de la littérature réaliste (section 3.2 : le roman policier vs. le roman
sentimental). Enfin, nous présentons, dans la section 4, l’outil Lexicoscope 2.0 3 qui
permet d’interroger les corpus de la PhraseoBase4, ainsi que les fonctionnalités de
l’application PhraseoLing regroupant, via une interface ergonomique, les annotations
linguistiques et stylistiques des données extraites des corpus romanesques français et
anglais.
2. Le corpus PhraseoRom. La méthodologie

d’extraction et d’analyse des données linguistiques et
stylistiques
3 Les œuvres littéraires des corpus PhraseoRom ont été réparties en 6 sous-genres :
romans de littérature générale (GEN), sentimentaux (SENT), policiers (POL),
historiques (HIST), de science-fiction (SF), fantasy (FY). Ces œuvres ont été
sélectionnées en fonction de critères chronologiques (romans postérieurs à 1950) et
éditoriaux (pour GEN, la reconnaissance des auteurs par la critique, notamment lors de
l’attribution de prix littéraires, et pour les autres sous-genres, la collection dans
laquelle elles sont publiées).
2.1. Les corpus comparables et parallèles intégrés dans la

PhraseoBase
4 Pour les corpus comparables, l’objectif était d’arriver à un volume d’environ

100 millions de mots par langue, tout en respectant un certain équilibre entre les
genres. Pour les corpus parallèles français-anglais et anglais-français, les œuvres
originales ont été alignées avec leur traduction. Le Tableau 1 ci-dessous montre la
répartition des auteurs, des textes et des tokens, en fonction des langues dans les deux
types de corpus :
Tableau 1. Répartition des corpus PhraseoRom selon les langues (auteurs, textes, tokens)
Corpus comparables
Langue Auteurs Textes Tokens
EN 376 849 112 610 090
FR 418 1131 103 819 368
DE 237 746 89 451 097
Corpus parallèles
EN → FR 230 495 68 512 492
FR → EN 139 298 33 754 332
Corpus, 22 | 2021
214
5 En fonction de la disponibilité des textes, certains genres sont légèrement

surreprésentés (par exemple, GEN pour le français et HIST pour l’allemand) comme le
montrent le Tableau 2 et la Figure 1 :
Tableau 2. Répartition en sous-genres des corpus comparables5
Sous genres Tokens FR Tokens EN (GB) Tokens EN (US) Tokens DE
FY 13 966 573 24 590 831 6 467 561 16 774 462
GEN 34 593 337 15 696 519 283 291 9 068 325
HIST 14 193 643 14 606 939 92 843 25 454 115
POL 18 020 732 16 117 528 2 891 981 11 117 326
SENT 9 516 638 12 836 609 0 18 689 013
SF 13 528 445 16 507 028 2 518 960 8 347 856
Total 103 819 368 100 355 454 12 254 636 89 451 097
6 La Figure 1 ci-dessous montre les proportions des différents sous-genres au sein des
corpus anglais (EN), français (FR) et allemand (DE) :
Figure 1. Répartition en fonction des genres (en pourcentage du nombre de tokens)
7 Tous ces corpus ont d’abord été rendus accessibles sur l’interface du Lexicoscope v1
(Kraif & Diwersy 2012 ; Kraif 2016), avant leur déploiement progressif vers le
Lexicoscope 2.0.
2.2. L’extraction des Arbres Lexico-syntaxiques Récurrents (ALR)
8 En s’appuyant sur l’annotation syntaxique des corpus, le Lexicoscope permet d’extraire

des associations statistiques significatives reliant des unités lexicales par une relation
de dépendance syntaxique. À la différence des motifs séquentiels émergents de Quiniou
et al. (2012), ces ALR correspondent à des structures hiérarchiques (ou arbres de
dépendance). La Figure 2 illustre l’expression récurrente, spécifique à POL, <allumer une
nouvelle cigarette> qui se présente sous forme d’Arbre Lexico-syntaxique Récurrent
(ALR) :
Corpus, 22 | 2021
215
Figure 2. L’ALR allumer une nouvelle cigarette, spécifique au sous-genre policier (POL)
9 Les fréquences des ALR dans chacun des différents corpus sont comparées afin de
mesurer leur spécificité : un ALR est spécifique quand sa fréquence relative dans l’un
des sous-corpus est significativement supérieure à sa fréquence dans l’ensemble des
autres sous-corpus. Le seuil de spécificité statistique (l’indice LLR, Dunning 1993) a été
fixé à 10,836. Selon la méthodologie développée dans le cadre de PhraseoRom, les
critères retenus pour la sélection des ALR sont les suivants :
• le critère de fréquence absolue : le nombre d’occurrences d’un ALR doit être supérieur à 10 ;
• le critère de dispersion : l’ALR apparaît au moins chez 20 % des auteurs d’un sous-corpus
pouvant aller jusqu’à 50 % des auteurs du corpus ;
• le critère morpho-syntaxique : l’ARL doit comporter obligatoirement un verbe, ce qui exclut
d’emblée des expressions exclusivement référentielles (<à la tombée de la nuit>, <Monsieur le
Procureur>, <les nains de jardin>) ;
• le critère de longueur : les ALR doivent comporter au moins 3 mots dont un verbe pivot, et
ce jusqu’à 7 mots.
10 Grâce à l’ensemble de ces critères, ont été extraits des six sous-genres romanesques
8415 ALR pour le français et 1955 ALR pour l’anglais.
2.3. Méthodologie de l’analyse linguistique : la grille sémantique
11 Le principal enjeu du projet était d’identifier et de décrire les genres littéraires non pas
en termes de rhétorique, de style individuel des auteurs ou d’univers de référence
thématique, comme c’est souvent le cas en stylistique classique, mais à travers des
constructions lexico-syntaxiques (CLS) récurrentes. Une fois extraites
automatiquement sous forme d’ALR, les données brutes ont été classées et analysées
sur quatre niveaux : lexical, syntaxique, sémantique et discursif. La grille conçue pour
l’annotation sémantique7 des items retenus pour le français et l’anglais (Goossens,
Corpus, 22 | 2021
216
Jacquot & Dyka 2020) comporte huit dimensions sémantiques auxquelles sont associées,
pour certaines dimensions (colonne 1 du Tableau 3), un ensemble de valeurs (colonne 2
du Tableau 3).
Tableau 3. Grille d’analyse sémantique des ALR
Dimension Valeur Exemple d’ALR
action indéfini <je vais le faire>
mouvement <descendre de sa monture>, <held her in his arms>
déplacement <il traversa le hall>, <walk along the beach>
autre <éteindre la lumière>, <blow out the candle>
événement <l’écran s’éteint>, <the door opened>
état indéfini <être en danger>, <was in the house>
animé <être trempé de sueur>, <be in love>
inanimé́ <l’endroit était désert>,<the body lay>
abstrait <la situation est grave>, <there was in the sky>
communication indéfini <répondre avec un sourire>, <accept the offer>
verbale <échanger quelques mots>, <have a chat>
physique <adresser un sourire>, <give a smile>
cognition <je ne me souviens pas>, <think for a moment>
qualia indéfini <elle ne ressentait rien>, <like the smell>
affect <se mettre en colère>, <I’m shocked>
sensation <avoir froid>, <my heart is beating>
perception <je sentis l’odeur>, <breathing the scent>
temps <c’est la première fois>, <spend a week>
lieu <l’appartement était petit>, <he was in town>
autre <mon père est>, <the driver was>
12 La catégorie « autre » permet de classer les ALR correspondant à nos critères mais qui
ne rentrent dans aucune de ces huit dimensions. La valeur « indéfini » permet de
catégoriser les ALR auxquels plusieurs valeurs peuvent être attribuées sans qu’il soit
possible d’en sélectionner une seule8.
13 Cette grille d’analyse a été appliquée manuellement et systématiquement aux ALR
sélectionnés. Les fichiers dans lesquels ont été codés les ALR dans les deux langues ont
été implémentés dans l’application PhraseoLing (cf. section 4.2). Les tableaux
comportant les annotations linguistiques regroupent plusieurs informations 9 dont les
plus importantes sont les suivantes : l’ALR extrait, la requête d’extraction 10, le LLR, le
genre pour lequel il est spécifique, la fréquence, la dispersion et cinq exemples
représentatifs (avec les métadonnées).
Corpus, 22 | 2021
217
2.4. Méthodologie de l’analyse stylistique
14 Cette première étape d’annotation sémantique des ALR a permis ensuite de les
regrouper automatiquement11 et de faire émerger des motifs textuels. Cette notion12,
récente en phraséologie étendue (Legallois 2006 ; Longrée, Luong & Mellet 2008),
désigne des patrons lexico-syntaxiques récurrents présentant (1) des régularités et des
variations lexicales et syntaxiques (aux niveaux paradigmatique et syntagmatique),
établies avec des méthodes textométriques, et (2) des fonctions discursives spécifiques.
Par son caractère à la fois structurant et caractérisant (Mellet & Longrée 2012 ; Longrée
& Mellet 2013), le motif s’est révélé une notion opératoire pour la distinction des sous-
genres littéraires. Plus généralement, il a été montré (Novakova & Siepmann, 2020) que
la notion de motif assure le lien entre le micro-niveau (les récurrences phraséologiques
spécifiques) et le macro-niveau discursif (celui du script narratif ou fictionnel, Baroni
2007).
15 Dans notre méthodologie, les ALR constituent des guides pour identifier des motifs.
Ensuite, un système d’annotations fines des fonctions discursives (FD) a été élaboré afin
de prendre en compte la dimension textuelle de ces expressions lexico-syntaxiques, à
savoir leur rôle dans la structuration des textes littéraires.
2.4.1. Les fonctions discursives
16 Les FD désignent les fonctions stylistiques qu’occupent les CLS dans le discours
fictionnel romanesque. Elles contribuent ainsi à en assurer la cohérence (Martin 1983 :
100). La FD dépend du contexte, mais aussi du sous-genre romanesque (voir Baroni
2015). Dans un texte narratif comme le roman, les FD sont principalement (a) narratives
ou (b) descriptives (Adam 2011 : 267), la CLS permettant à l’action de progresser, ou bien
s’intégrant dans une description. L’analyse détaillée des données linguistiques a permis
d’affiner cette première typologie. Ainsi, ont été rajoutées deux nouvelles FD,
notamment l’infranarrative (lorsque les CLS renvoient à des actions minimales, sans
rapport direct avec l’intrigue principale) et l’infradescriptive, qui s’applique à une action
ou à un geste répété, caractérisant le personnage (qui fume beaucoup par exemple,
comme c’est le cas des personnages dans POL). De plus, un cas particulier de la FD
descriptive, la FD affective, a été identifié lorsque la CLS décrit l’état d’esprit du
personnage (par exemple dans « Sarah écrasa nerveusement sa cigarette »).
17 Enfin, deux autres FD ont également été modélisées. D’une part, la FD pragmatique se
rapporte aux actes de langage entre les personnages (N’en faites rien, madame, je vous en
prie, s’écria Fabienne). D’autre part, la FD cognitive s’applique à des CLS impliquant des
processus cognitifs comme les hypothèses ou les réflexions (Je sais pas ce qu’il va devenir).
2.4.2. La grille stylistique
18 La première étape de l’annotation stylistique a débuté par le repérage des ALR

susceptibles de former un motif phraséologique. En raison de leur spécificité, ces ALR
ont été appelés « leaders » (par ex. l’ALR <apparaître_sur_écran> dans SF), dans la mesure
où c’est à partir de leurs composantes syntaxiques de base (« syntaxe cœur », par ex.
V+SNPrép pour l’ALR <apparaître_sur_écran>), qu’ils présentent des variations
syntagmatiques ou paradigmatiques et peuvent constituer, de ce fait, un même motif.
Corpus, 22 | 2021
218
19 Une fois l’ALR « leader » et les ALR similaires identifiés, l’annotateur a renseigné
l’expression régulière qui caractérise l’ALR dans le Lexicoscope, afin d’observer le
contexte dans lequel le motif est susceptible d’apparaître. L’examen des extraits de
texte constitue une étape essentielle pour la détermination des FD associées au motif
et, plus largement, pour l’interprétation stylistique du rôle que le segment
phraséologique joue aussi bien dans les textes où il figure que dans le sous-genre dont il
est spécifique. Les informations recueillies à partir de l’observation de ces exemples
sont renseignées dans le fichier de l’annotation : l’identifiant (Id) attribué à chaque
motif ; son étiquette <apparaître_sur_écran> ; le sous-genre pour lequel motif est
spécifique (SF) ; la syntaxe cœur (le motif dans sa configuration syntaxique minimale
V+SNprép) ; la position du motif dans la phrase et au-delà ; la distribution des éléments
autour de la syntaxe cœur ; au moins 5 exemples extraits du Lexicoscope avec les
métadonnées (auteur, titre, année de publication) ; la FD attribuée au motif,
l’interprétation stylistique et le commentaire de l’annotateur. Des fichiers d’annotation
stylistique13, constitués pour stocker ces données, ont servi à l’élaboration de la
PhraseoBase et, en particulier, de l’application PhraseoLing présentée dans la section 4.
3. Des constructions lexico-syntaxiques (CLS)

polylexicales aux motifs textuels
20 Dans cette section, nous présentons les résultats obtenus à partir de l’analyse
sémantique et syntaxique des ALR qui forment des motifs permettant de distinguer les
sous-genres SF vs. FY (3.1) et POL vs. SENT (3.2).
3.1. Les motifs spécifiques à la science-fiction (SF) et à la fantasy

(FY)
21 L’analyse des ALR de la SF et de la FY en français et en anglais (Goossens, Jacquot &

Dyka 2020), deux genres proches souvent englobés sous l’étiquette « littérature de
l’imaginaire », s’est révélée très productive.
22 Tout d’abord, certaines catégories sémantiques ont fait émerger des « marqueurs
génériques », c’est-à-dire des ALR spécifiques à l’un ou l’autre genre, et qui relèvent
d’actions ou de descriptions permettant immédiatement l’identification du genre. C’est
le cas, par exemple, de la catégorie « déplacement » en français et des catégories
« lieu » et « état » en anglais, qui mettent notamment en avant l’espace, spécifique de la
SF, et la forêt, spécifique de la FY. De même, la catégorie « mouvement », en français
comme en anglais, regroupe des ALR qui renvoient à des actes guerriers et à des actes
de déférence très spécifiques de la fantasy.
23 L’analyse sémantique des ALR a également permis de mettre en lumière des catégories
nettement moins attendues : tout d’abord, la cognition, très spécifique à la SF dans les
deux langues, qui s’oppose à un processus de décision beaucoup plus intuitif en FY. Les
ALR relevant de cette catégorie mettent l’accent sur le raisonnement dans les romans
de SF (<il essaye de comprendre>, <il en déduit>, <mettre au point>, <trouver la solution|le
moyen>) alors que dans le corpus de FY, ils relèvent plus de l’imagination et du rêve
(<plongé|perdu dans ses pensées>, <il reprend ses esprits>). La catégorie « communication »
met elle aussi en évidence des caractéristiques plutôt inattendues de ces deux genres.
Corpus, 22 | 2021
219
Cette catégorie est surtout exploitable pour le français, l’écrasante domination du

verbe to say en anglais (voir Diwersy et al. 2020) rendant la dimension moins saillante en
anglais. Même si la communication physique est peu présente dans ces deux genres,
elle y révèle une différence notable : elle n’est véritablement dirigée vers autrui que
dans la FY (<hausser les épaules>, <je secoue la tête> (SF) vs <adresser|jeter|échanger|accorder
un regard|signe de tête>, <déposer un baiser>, <caresser sa joue> (FY)). La communication
verbale est encore plus saillante dans les deux sous-genres : elle révèle des modes de
communication très différents. La SF offre des ALR relevant de la communication à
distance (<laisser|recevoir un message>, <établir le contact|couper la communication>) et des
ALR très factuels construits autour de verbes génériques permettant la structuration de
l’interaction (<dire d’une voix|sur un ton>, <je veux parler>, <poser la question>). La FY offre
un panorama de la prise de parole beaucoup plus diversifié, notamment en termes de
volume sonore, allant du silence (<garder|imposer le silence>) aux hurlements (<pousser un
cri de guerre|rage|douleur|un hennissement|rugissement|grognement>, <hurler de terreur|
rage>), en passant par les murmures (<des murmures s’élèvent>). Cette surreprésentation
des affects et des attitudes des personnages est spécifique de la FY dans son opposition
avec la SF.
3.2. Le motif de la cigarette dans POL vs SENT
24 Nos résultats ont révélé comme hautement spécifique de POL l’ALR <allumer une
cigarette>, même si on le rencontre aussi dans SENT (Gonon, Goossens & Novakova
2020). Le Tableau 4 récapitule la fréquence, la dispersion et le LLR dans les deux sous-
corpus :
Tableau 4. Spécificités de l’ALR <allumer une cigarette>
<allumer une cigarette> POL SENT
Fréquence 343 124
Dispersion 124 43
LLR 151,8 9,24
25 L’ALR <allumer une cigarette>, cœur du motif, présente une forte variation
paradigmatique sur le nom (cigarette, cigare, pipe, clop(e), tige, Gitane, Camel, Craven) ou
sur le verbe relevant de différences de nature aspectuelle : début (rouler, allumer),
déroulement (fumer, griller) et fin (éteindre, terminer, écraser) du procès. Le motif, sous sa
forme minimaliste, agrège aussi de nombreuses extensions syntagmatiques (adjectifs,
adverbes, SN prép). Ainsi, nous avons identifié le schéma suivant pour ce motif :
X allume (fume, écrase, éteindre, prendre) (nerveusement) une (nouvelle) cigarette
(mentholée) (contre le mur, sous le bureau)
26 Souvent dans POL, le motif de la cigarette remplit une double FD, à la fois descriptive et
affective, et ce, grâce aux différentes extensions syntagmatiques de la syntaxe cœur.
Ainsi, en (1), pour le personnage féminin, Diane :
(1) Diane alluma une cigarette d’agacement. Il y avait les cigarettes de calme, les
cigarettes d’exaspération, les cigarettes de plaisir – les plus rares –, les cigarettes de
Corpus, 22 | 2021
220
tension, les cigarettes de réflexion, les cigarettes d’ennui. Une nomenclature

précise que seuls les fumeurs connaissent. (Andrea H. Japp, Dans la tête, le venin,
2009.)
27 L’auteur évoque toute une panoplie de sentiments à travers les SN prép qui étendent le
N cigarette (de calme, d’exaspération, de plaisir, de tension, etc.). Dans d’autres cas, le SN
prép est complément circonstanciel de lieu (2) :
(2) J’écrasai ma cigarette contre un mur, jetai le mégot sur le sol. (O. Gay, Les talons
hauts rapprochent les filles du ciel, 2012)
28 Le motif ainsi étendu fait partie du script « fumer une cigarette », ici décliné avec
variations : plutôt que d’écraser sa cigarette dans un cendrier et de jeter le mégot à la
poubelle comme il est d’usage, le héros narrateur transgresse les règles du script (et
celles de la propreté) et se représente ainsi comme un bad boy (FD descriptive dans ce
cas).
29 À la différence de POL, le motif de la cigarette dans SENT est plutôt associé à l’élégance
des personnages (3), ou au jeu de séduction14 entre eux (4) :
(3) Elle s’alluma une cigarette avec un certain style. (G. Musso, Demain, 2013).
(4) Juan est silencieux, il allume une cigarette, elle la lui prend aussitôt des doigts et
la porte à ses lèvres. (M. Levy, Où es-tu ?, 2001)
30 Le motif <allumer une cigarette> n’est jamais un motif de premier plan narratif : en (3) et
en (4), la fonction est infra-narrative. Le motif revêt néanmoins un rôle différent dans
les deux sous-genres : les unités linguistiques variables qu’il regroupe contribuent à
créer l’atmosphère tendue dans POL ou l’ambiance plus feutrée dans SENT.
4. Présentation générale de la Phraseobase

31 La PhraseoBase a pour vocation de donner accès libre à l’ensemble des ressources
élaborées dans le cadre du projet PhraseoRom, c’est-à-dire les corpus et les codages
linguistiques et stylistiques des données extraites grâce à la méthodologie
précédemment décrite. Cette section présente l’interface utilisée, le
Lexicoscope 2.0 (4.1) puis la base de données PhraseoLing qui permet d’accéder aux
résultats des analyses (4.2).
4.1. L’interface du Lexicoscope 2.0
32 Les corpus n’étant pas, en l’état, diffusables en ligne, pour des questions de droits, nous
avons choisi de les intégrer à une interface telle que le Lexicoscope afin d’en permettre
l’interrogation sous forme de statistiques lexicométriques et de concordances, qui ne
donnent accès qu’à des contextes restreints (Kraif 2019). Dans le but de comparer entre
elles les différentes subdivisions du corpus, notamment au niveau des principaux sous-
genres, il a été nécessaire de développer une nouvelle version, le Lexicoscope 2.0,
accessible en ligne depuis 2020. Cette nouvelle version de l’interface, tout comme la
précédente, permet d’extraire des concordances et des tableaux de cooccurrents autour
d’une expression pivot, qui peut être un mot simple ou une expression complexe.
Corpus, 22 | 2021
221
4.1.1. Définition du corpus de travail
33 Pour contraster différents sous-corpus, l’interface permet de définir deux types de

corpus de travail : les collections prédéfinies et les corpus personnalisés. Les collections
prédéfinies sont des ensembles de corpus déjà subdivisés en six sous-corpus.
Concernant le projet PhraseoRom, les collections sont au nombre de 3 pour l’anglais et
le français, et de 1 pour l’allemand. Pour l’anglais et le français, dans la mesure où une
partie du corpus correspond au corpus parallèle, on a le choix entre les collections
suivantes : intégral, langue source FR ou EN seulement, et parallèle EN-FR ou FR-EN.
Chacune de ces collections est subdivisée par sous-genre : FY, GEN, HIST, POL, SENT et
SF.
34 Si l’on cible un ensemble de textes plus restreints, il est aussi possible de construire un
corpus personnalisé. Dans ce cas, la définition se fait d’abord par le choix d’une langue
d’interrogation et, éventuellement, d’une langue alignée (si l’on se situe dans le corpus
parallèle). Ensuite, l’utilisateur peut ajouter un ou plusieurs sous-corpus, définis en
fonction d’une combinaison de critères : sous-genre, année de publication, titre, auteur,
langue source du document. Par exemple, pour interroger uniquement les œuvres
écrites en anglais britanniques et traduites en français, il faudra définir un corpus
personnalisé. Une fois ce corpus constitué, il est possible d’en sauvegarder la définition,
à condition d’utiliser l’outil en tant qu’utilisateur connecté15.
4.1.2. Statistiques textométriques des collections prédéfinies
35 Lors du choix d’une collection prédéfinie, on peut accéder à des statistiques concernant
le vocabulaire du corpus ainsi que les collocations et colligations. Ces statistiques
permettent d’avoir la liste des 5 000 lemmes les plus fréquents apparaissant dans au
moins deux sous-genres différents (voir Figure 3).
Corpus, 22 | 2021
222
Figure 3. Statistiques globales pour les sous-corpus (ici HIST)
36 Comme la plupart des index hiérarchiques, cette liste est triée par fréquence
décroissante, et un simple clic sur un lemme aura pour effet de déclencher une requête
sur ce lemme. Ce tableau permet par ailleurs, par simple clic sur la colonne
« Comparer », d’accéder rapidement à la comparaison des spécificités (LLR) par sous-
genre, afin de faire contraster les corpus de manière synthétique. Par exemple, on voit
dans la Figure 4 ci-dessous la répartition des spécificités pour le verbe demander, qui se
trouve être spécifique à SENT et à POL, et sous-employé dans GEN ou SF.
Figure 4. Spécificités par sous-corpus pour le lemme demander
Corpus, 22 | 2021
223
37 Ces données fréquentielles et ces calculs de spécificité sont également accessibles pour
les parties du discours (où l’on voit, par exemple, que les signes de ponctuation sont
spécifiques à GEN), ainsi que pour les collocations binaires et les étiquettes de relation
syntaxique. Pour les collocations, une mesure d’association est fournie en supplément
de la fréquence. Nous avons choisi l’information mutuelle spécifique, qui favorise les
associations entre unités de basse fréquence et qui se trouve en meilleure
complémentarité avec la fréquence brute. Ainsi, comme on le voit dans la Figure 5, un
tri fondé sur cette mesure permet de mettre en avant des entités nommées (Garbo,
Giorgio etc.), des expressions en langue étrangère (feel like, all right etc.) ou des unités
polylexicales (congestion pulmonaire) :
Figure 5. Index hiérarchique des collocations binaires, trié par PMI (information mutuelle
spécifique)
38 La comparaison des spécificités (bouton ‘cmp’) montre qu’alors que congestion

pulmonaire est spécifique de GEN et HIST, feel like est spécifique de SENT et Martini dry
est spécifique de POL.
4.1.3. Requêtes
39 Comme dans la première version du Lexicoscope, le fait d’entrer une expression simple
ou complexe permet d’accéder à sa définition sous forme de requête formalisée
précisant les lemmes, parties du discours, et éventuellement les relations syntaxiques
entre les mots – afin de mettre en œuvre une forme de requête basée sur l’exemple
(voir Figure 6), comme chez Augustinus, Vandeghinste & Vanallemeersch (2016) ou
Wang (2017).
Corpus, 22 | 2021
224
Figure 6. Suggestion de requête avancée pour ‘fume une cigarette’
40 Le résultat de la requête s’affiche dans un nouvel onglet, distinct de l’onglet « tableau

de bord » qui permet de préciser corpus et requête. Le résultat contient tout un
ensemble de données synthétiques (voir Figure 7) :
• les statistiques de l’expression cherchée, globalement et par corpus ;
• les concordances de l’expression cherchée, avec les métadonnées et les contextes élargis ;
• les cooccurrents de l’expression cherchée, sous forme de diagrammes à barre et de tableaux
contenant l’ensemble des données de cooccurrence (fréquence de la base et du cooccurrent,
cofréquence, relation syntaxique, indice du loglike, fréquence de document, etc.) ;
• un tableau synoptique des principaux cooccurrents sous la forme de Word Sketch, inspiré du
Sketch Engine (Kilgariff 2004).
41 Enfin, si l’utilisateur le désire, et s’il a les droits requis 16, il peut lancer en complément
l’extraction des ALR autour de l’expression cherchée ainsi que le calcul de statistiques
multivariées sur les sorties (clustering hiérarchique ascendant, analyse en composantes
principales, analyse des correspondances).
Corpus, 22 | 2021
225
Figure 7. Extrait de Word Sketch pour l’ALR <fumer une cigarette>
42 Là encore, dans le souci de faire apparaître les contrastes de manière synthétique,

chaque type de résultat apparaît soit de manière globale pour l’ensemble du corpus,
soit dans un onglet séparé pour chaque sous-corpus, avec les mesures de spécificité
afférentes.
4.2. L’application PhraseoLing
43 Pour donner accès aux résultats issus des analyses sémantiques, discursives et
stylistiques, nous avons mis en place une base de données relationnelle interrogeable
via une interface en ligne17, PhraseoLing. Celle-ci comprend deux formulaires, l’un pour
les données syntactico-sémantiques, l’autre pour les données stylistiques, permettant
de concevoir des requêtes à différents niveaux d’abstraction. Ainsi, dans le cas des
données syntactico-sémantiques, on peut rechercher des ALR non seulement en
fonction de la langue (français ou anglais), du genre littéraire et de la classe sémantique
dont ils relèvent, mais aussi en fonction des mots qu’ils impliquent, de la classe
grammaticale de ceux-ci ou encore de la fonction syntaxique que ces mots occupent au
sein de l’ALR.
44 L’application principale associée à ces requêtes est l’affichage d’entrées
lexicographiques, classées soit par groupe d’ALR ou genre littéraire, pour ce qui est des
données syntactico-sémantiques, soit par motif, fonction discursive ou genre, pour ce
qui est des données stylistiques. La Figure 8 montre l’une des entrées obtenues à la
suite de la requête visant les ALR contenant l’adjectif heureux spécifiques à FY.
Corpus, 22 | 2021
226
Figure 8. Entrée lexicographique résultant de la requête visant les ALR contenant l’adjectif heureux
spécifiques à FY
45 Outre les éléments d’ordre qualitatif (catégorie sémantique, schéma syntaxique,

exemples d’usage), les entrées consacrées aux ALR fournissent également des
indications d’ordre quantitatif (fréquence d’apparition, score de spécificité LLR,
dispersion) provenant des calculs effectués au moment de l’extraction automatique.
Quant aux entrées consacrées aux motifs stylistiques, elles comprennent des exemples
d’usage et indiquent la fonction discursive, d’éventuelles composantes facultatives et la
distribution syntaxique, à moins que l’un de ces éléments ne soit utilisé comme
paramètre de regroupement macrostructurel. La Figure 9 illustre l’entrée se rapportant
au motif <apparaître sur écran>, qui est associée à la FD narrative dans les romans de SF :
Corpus, 22 | 2021
227
Figure 9. Entrée lexicographique se rapportant au motif stylistique <apparaître sur écran> dans les
romans de science-fiction (SF)
46 Au-delà de l’affichage d’entrées lexicographiques, les requêtes portant sur les données
syntactico-sémantiques enchaînent sur différents traitements statistiques 18 dont
l’objectif est la caractérisation et la classification des genres littéraires en fonction des
ALR ou des catégories sémantiques répertoriés par une requête donnée. Les procédés
mis en place19 s’inscrivent dans la lignée de la textométrie (AFC, calcul de spécificités ;
cf. Lebart & Salem 1994) et de la stylométrie contemporaine (clustering, ACP,
échelonnement multidimensionnel ; cf. Eder, Rybicki & Kestemont 2016). En guise
d’exemple, le graphique de la Figure 10 donne les résultats d’une AFC basée sur la
distribution des ALR relevant des catégories sémantiques communication:physique,
communication:verbale et communication:indéfini par genre littéraire.
Corpus, 22 | 2021
228
Figure 10. Classification par AFC des genres littéraires en fonction des ALR associés aux
catégories communication:physique, communication:verbale et communication:indéfini
47 L’AFC montre que, par rapport aux ALR sélectionnés, les romans de GEN s’opposent à
ceux de FY sur l’axe principal (en horizontal) et que le deuxième axe (en vertical) met
en opposition les romans historiques (HIST) avec les romans policiers (POL) et
sentimentaux (SENT).
48 Parmi les procédés implémentés à travers la plateforme, on trouve également la
classification ascendante hiérarchique (CAH). Une CAH appliquée aux genres
romanesques à partir des ALR associés aux catégories sémantiques action:déplacement et
action:mouvement, et effectuée avec la mesure de distance cosine delta (Jannidis et al.
2015) ainsi que la méthode d’agrégation de Ward, permet d’obtenir la matrice de
distances (représentée sous forme de heatmap, Figure 11) et le dendrogramme
(Figure 12).
Corpus, 22 | 2021
229
Figure 11. Heatmap représentant la matrice de distances entre genres de romans, obtenue à partir
des ALR relevant des catégories sémantiques action:déplacement et action:mouvement
Figure 12. Dendrogramme résultant de la classification ascendante hiérarchique des genres

romanesques en fonction des ALR associés aux catégories sémantiques action:déplacement et
action:mouvement
49 Comme le fait apparaître le dendrogramme (Figure 12), les genres romanesques se

regroupent, sur la base des ALR en question, en deux classes : les romans sentimentaux
(SENT), policiers (POL) et de littérature générale (GEN) d’un côté, et les romans
historiques (HIST), de fantasy (FY) et de science-fiction (SF) de l’autre.
Corpus, 22 | 2021
230
5. Conclusion
50 Fondé sur une approche originale en linguistique et en stylistique outillées, le projet
PhraseoRom a produit des résultats aussi bien sur le plan théorique qu’appliqué. Il a
tout d’abord révélé la pertinence de la notion de motif textuel – inconnue jusqu’alors
dans la tradition linguistique et stylistique anglosaxonne – pour caractériser et
distinguer les genres littéraires. Il contribue ainsi à l’élaboration d’une « théorie
opératoire des genres » (Rastier 2011 : 72). Ensuite, les outils créés dans le cadre du
projet (Lexicoscope 2.0 et PhraseoLing) auront un impact dans le domaine de
l’apprentissage automatique des textes (deep learning) et des nouvelles technologies
pour la fouille des textes. Enfin, ses résultats, disponibles dans la base de données
PhraseoBase, pourront trouver de multiples applications dans d’autres domaines,
notamment en narratologie cognitive, en traductologie et dans des ateliers d’écriture
créative.
BIBLIOGRAPHIE
Adam J.-M. (2011). Les Textes : types et prototypes : récit, description, argumentation, explication et
dialogue. Paris : Armand Colin.
Augustinus L., Vandeghinste V. & Vanallemeersch T. (2016). « Poly-GrETEL : Cross-Lingual Example-

based Querying of Syntactic Constructions ». In N. Calzolari, K. Choukri, T. Declerck,
M. Grobelnik, B. Maegaard, J. Mariani, A. Moreno, J. Odijk & S. Piperidis (éd.) Proceedings of the
Tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož, Slovenia,
3549-3554.
Barnier J. (2019). Explor : Interactive Interfaces for Results Exploration. R package version 0.3.5.
https://CRAN.R-project.org/package=explor.
Baroni R. (2015). « Temps, mode et intrigue : de la forme verbale à la fonction narrative ». Modèles
linguistiques 71 : 125-142.
Baroni R. (2007). La tension narrative : suspense, curiosité et surprise. Paris : Seuil.
Diwersy S., Gonon L. Goossens V., Gymnich M. & Tutin A. (2020). « Speech Verbs in French and
English Novels ». In I. Novakova & D. Siepmann (éd.), Phraseology and Style in Subgenres of the
Novel : a Synthesis of Corpus and Literary Perspectives. Cham : Palgrave MacMillan, 83-113.
Dunning T. (1993). « Accurate methods for the statistics of surprise and coincidence »,
Computational Linguistics 19(1) : 61-74.
Fellbaum C. (éd.) (1998). « A Semantic Network of English : The Mother of All WordNets ».
Computers and the Humanities 32 : 209-222.
Gonon L., Goossens V. & Novakova I. (2020). « Les phraséologismes spécifiques à deux sous-genres
de la paralittérature : le roman sentimental et le roman policier ». In S. Mejri, L. Meneses-Lerin &
B. Buffard-Moret, La phraséologie française en questions. Paris : Hermann, 105-111.
Corpus, 22 | 2021
231
Goossens V., Jacquot C. & Dyka S. (2020). « Science Fiction versus Fantasy : A Semantic
Categorization and its Contribution to Distinguishing Two Literary Genres ». In I. Novakova &
D. Siepmann (éd.), Phraseology and Style in Subgenres of the Novel : a Synthesis of Corpus and Literary
Perspectives. Cham : Palgrave MacMillan, 189-221.
Grossmann F., Gymnich M. & Siepmann D. (2020). « Alcohol and Tobacco Consumption in English
and French Novels since the 1950s : A Corpus-stylistic Analysis ». In I. Novakova &
Hoey M. (2005). Lexical priming. A New Theory of Words and Language. London/New York : Routledge.
Jannidis F., Pielström S., Schöch C. & Vitt T. (2015). « Improving Burrows’ Delta – An empirical
evaluation of text distance measures ». In Digital Humanities 2015 : Conference Abstracts. Sydney :
University of Western Sydney.
Kassambara A. & Mundt F. (2020). Factoextra : Extract and Visualize the Results of Multivariate Data
Analyses. R package version 1.0.7. https://CRAN.R-project.org/package=factoextra.
Kilgariff A., Rychly P., Smrz P. & Tugwell D. (2004). The Sketch Engine. Proceedings of the Eleventh
EURALEX International Congress. Lorient, 105-116.
Kraif O. (2016). « Le lexicoscope : un outil d’extraction des séquences phraséologiques basé sur
des corpus arborés ». Cahiers de lexicologie 108 : 91-106.
Kraif O. (2019). « Explorer la combinatoire lexico-syntaxique des mots et expressions avec le

lexicoscope », Langue française 203 : 67-82.
Kraif O. & Diwersy S. (2012). « Le Lexicoscope : un outil pour l’étude de profils combinatoires et
l’extraction de constructions lexico-syntaxiques », Actes de la conférence TALN 2012. Grenoble,
399-406.
Eder M., Rybicki J. & Kestemont M. (2016). « Stylometry with R : A Package for Computational
Text Analysis ». The R Journal 8(1) : 107-121. doi : 10.32614/RJ-2016-007.
Lê S., Josse J. & Husson F. (2008). « FactoMineR : An R Package for Multivariate Analysis ». Journal
of Statistical Software 25(1) : 1-18.
Lebart L. & Salem A. (1994). Statistique textuelle. Paris : Dunod.
Legallois D. & Koch S. (2020). « The Notion of Motif Where Disciplines Intersect : Folkloristics,
Narrativity, Bioinformatics, Automatic Text Processing and Linguistics ». In I. Novakova &
Legallois D. (2006). « Des phrases entre elles à l’unité réticulaire du texte ». Langages 163 : 56-70.
Longrée D., Luong X. & Mellet S. (2008). « Les motifs : un outil pour la caractérisation topologique
des textes ». In S. Heiden, B. Pincemin & L. Vosghanian, Actes des JADT 2008 : 9 es journées
internationales d’analyse statistique des données textuelles, 733-744. Disponible en ligne [http://
www.jadt.org/].
Longrée D. & Mellet S. (2013). « Le motif : une unité phraséologique englobante ? Étendre le
champ de la phraséologie de la langue au discours ». Langages 189 : 65-79.
Martin R. (1983). Pour une logique du sens. Paris : PUF.
Mahlberg M. (2007). « Clusters, Key Clusters and Local Textual Functions in Dickens ». Corpora
2(1) : 1-31.
Corpus, 22 | 2021
232
Mayaffre D., Pincemin B & Poudat C. (2019). « Explorer, mesurer, contextualiser. Quelques
apports de la textométrie à l’analyse du discours ». Langue française 203 : 101-115.
McCarthy D., Kilgariff A., Jakubicek M. & Reddy S. (2015). « Semantic word sketches ».
Communication présentée à Corpus Linguistics 2015, Lancaster University, UK – 21 st to 24th July
2015.
Mellet S. & Longrée D. (2012). « Légitimité d’une unite textométrique : le motif ». In A. Dister,
G. Purnelle & D. Longrée, Actes des JADT 2012 : 11es journées internationales d’analyse statistique des
données textuelles, 715-728. Disponible en ligne [http://lexicometrica.univ-paris3.fr/jadt/
jadt2012/tocJADT2012.htm].
Novakova I. & Siepmann D. (2020). « Literary Style, Corpus stylistic and Lexico-grammatical
narrative patterns. Toward the concept of litterary motifs ». In I. Novakova & D. Siepmann (éd.),
Phraseology and Style in Subgenres of the Novel : a Synthesis of Corpus and Literary Perspectives. Cham :
Palgrave MacMillan, 1-15.
Quiniou S., Cellier P., Charnois T. & Legallois D. (2012). « Fouille de données pour la stylistique :
cas des motifs séquentiels émergents ». In A. Dister, D. Longrée & G. Purnelle (éd.), Actes des JADT
2012 : 11es journées internationales d’analyse statistique des données textuelles [http://www.jadt.org/,
consulté le 04/10/2017].
Rastier F. (2011). La mesure et le grain. Sémantique de corpus. Paris : Honoré Champion.
Sievert C. (2020). Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman and
Hall/CRC.
Sinclair J. (2004). Trust the Text : Language, Corpus and Discourse. London : Routledge.
Wang I. (2017). Syntactic Similarity Measures in Annotated Corpora for Language Learning : application to
Korean Grammar, Thèse de doctorat, sous la dir. de S. Kahane & I. Tellier, Université Paris 10.
NOTES
1. Le projet est consultable en ligne : https://phraseorom.univ-grenoble-alpes.fr/.
2. Pour un historique sur ce point, voir Mayaffre, Pincemin & Poudat (2019).
3. Le Lexicoscope est consultable en ligne : http://phraseotext.univ-grenoble-alpes.fr/
lexicoscope_2.0/.
4. La PhraseoBase est consultable en ligne : http://phraseotext.univ-grenoble-alpes.fr/
phraseobase/index.html.
5. Pour le détail du nombre d’auteurs et d’œuvres dans chaque sous-genre, voir Novakova &
Siepmann 2020 : 288.
6. C’est le seuil à partir duquel la surreprésentation de l’ALR dans un corpus peut être considérée
comme statistiquement significative. Il s’agit d’un rapport de vraisemblance permettant
d’évaluer objectivement si la répartition des unités linguistiques au sein d’un corpus est aléatoire
ou non.
7. Cette grille a été créée dans la continuité des ontologies WordNet (Fellbaum 1998), des
functional groups clusters de Mahlberg (2007) ou encore de McCarthy et al. (2015).
8. Pour une définition exhaustive des différentes dimensions et valeurs sémantiques retenues
dans la grille sémantique, cf. le manuel d’annotation sémantique (en français et en anglais),
consultable sur la PhraseoBase.
9. Pour consulter les fichiers complets des ALR annotés en français et en anglais, cf. http://
phraseotext.univ-grenoble-alpes.fr/phraseobase/ressources-fr.html.
Corpus, 22 | 2021
233
10. Par exemple, la requête pour l’ALR <ils passèrent dans la rue> se présente sous cette forme
<l=passer,c=VERB,#1>&&<l=dans,c=PREP,#2>&&<l=le,c=DET,#3>&&<l=rue,c=NOUN,#4>::
(DETERM_DEF,4,3) (PREPOBJ,4,2) (VMOD_POSIT1,1,4).
11. Le regroupement automatique des 8415 ALR pour le français a été effectué à l’aide du logiciel
Word2vec.
12. Le motif est une notion transversale utilisée dans de nombreux domaines comme la
narratologie, les études folkloriques, la bio-informatique, le TAL, la stylistique, la linguistique
(Legallois & Koch 2020).
13. Les fichiers complets des annotations stylistiques des données françaises et anglaises sont
disponibles sur http://phraseotext.univ-grenoble-alpes.fr/phraseobase/ressources-fr.html.
14. Sur ce point, voir Grossmann, Gymnich & Siepmann (2020 : 127).
15. Ces fonctionnalités sont illustrées par des vidéos explicatives accessibles en ligne : http://
phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0/help.
16. Ces fonctionnalités étant coûteuses en ressources, elles ne sont accessibles qu’aux utilisateurs
en ayant fait la demande explicite auprès de l’administrateur.
17. Le système de gestion choisi pour la base de données est MySQL et l’interface est programmée
essentiellement en php.
18. Les calculs sont mis en œuvre à partir des valeurs de fréquence d’apparition par sous-corpus
de genre littéraire enregistrées dans la base de données pour les ALR à la suite de leur extraction
automatique.
19. Les calculs en question sont effectués au moyen de différents scripts R faisant appel aux
packages FactoMineR (Lê, Josse & Husson 2008), explor (Barnier 2019), stylo (Eder, Rybicki &
Kestemont 2016), factoextra (Kassambara & Mundt 2020) et plotly (Sievert 2020).
RÉSUMÉS
Cet article présente les ressources développées dans le cadre du projet franco-allemand ANR DFG
PhraseoRom (2016-2020). Son objectif était de caractériser la phraséologie du genre romanesque
contemporain dans trois langues (français, anglais, allemand). Nous détaillons ici les choix ayant
présidé à la constitution des corpus littéraires trilingues, ainsi qu’à la méthodologie inédite
d’extraction des données et de leur analyse linguistique et stylistique. Nous présentons enfin les
fonctionnalités de la PhraseoBase, interrogeable avec l’outil Lexicoscope 2.0, et celles de
l’interface PhraseoLing. Ces ressources sont librement consultables sur http://phraseotext.univ-
grenoble-alpes.fr/phraseobase/index-en.html
This article presents the resources developed by the Franco-German project ANR DFG
PhraseoRom (2016-2020). The main goal of the project was to characterize the phraseology of the
contemporary fiction in French, English, and German. We detail here the choices that led to the
constitution of a trilingual literary corpora, as well as the new methodology of the data
extraction and of the linguistic and stylistic analysis. Finally, we present the functionalities of the
PhraseoBase, with the Lexicoscope 2.0, and the PhraseoLing interface. These resources are freely
available online http://phraseotext.univ-grenoble-alpes.fr/phraseobase/index-en.html
Corpus, 22 | 2021
234
INDEX
Keywords : corpus linguistics, NLP, digital humanities, corpus stylistics, contemporary literary
genres, extended phraseological units, motifs
Mots-clés : linguistique de corpus, TAL, stylistique outillée, genres romanesques contemporains,
unités phraséologiques étendues, motifs
AUTEURS
SASCHA DIWERSY
Université Montpellier 3 Paul Valéry, Praxiling UMR 5267
LAETITIA GONON
Université de Rouen Normandie, CÉRÉdI
VANNINA GOOSSENS
Université Grenoble Alpes, LIDILEM
OLIVIER KRAIF
IVA NOVAKOVA
JULIE SORBA
Université Grenoble Alpes, LIDILEM & Litt&Arts UMR 5316
ILARIA VIDOTTO
Université de Lausanne, Section de français
Corpus, 22 | 2021

Corpus 5421

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Corpus 5421

Transféré par

Droits d'auteur :

Formats disponibles

Corpus

Ce document a été généré automatiquement le 19 mars 2022.

© Tous droits réservés

Le corpus comme portail pour l’étude de la variation (socio)linguistique

Variation sociolinguistique et réseau social : constitution et traitement d’un corpus de

Corpus ESLO-Enfants : de sa création aux premiers résultats

Du recueil à l’exploitation des corpus de parole « pathologique » : comment accéder à la

De la protection des données à la protection de la personne :Réflexions sur l’impact des

Conceptualisation en lexicométrie des anglicismes.Le corollaire empirique d’un choix

Envisager la production de sens à travers la cooccurrence : la représentation médiatique de

La phraséologie du roman contemporain dans les corpus et les applications de la

mettre en évidence les conséquences que la prise en compte de la variation a sur

HOMA pour les métadonnées sociodémographiques et la description des situations de

3. Outillage, de la collecte à l’analyse et à la mise à

23 Un pré-traitement des transcriptions pour faciliter l’alignement au signal est exposé

4. Objets variables et Dia-Variations

5. Volet éthique et juridique

différents mécanismes « [assurant] la confidentialité des données » : l’anonymisation

Ochs E. (1979). « Transcription as theory », in E. Ochs & B. Schieffelin (éd.) Developmental

Le corpus comme portail pour

4 Conscients que le matériel linguistique à la disposition du linguiste décide en grande

2.2. Les données ciblées

8 En tant que sociolinguistes, notre préoccupation principale est l’étude de la parole

1985) et le registre vernaculaire du français canadien parfois (péjorativement) appelé

3. Traitement des données

12 Comme le locuteur est à la fois source principale de variabilité inhérente à la langue et

3.2. Représentation fidèle du parler variable

19 Nos modalités de transcription correspondent grosso modo aux conventions

4. Analyse de la variation linguistique

22 Les généralisations que font les variationnistes concernant le langage découlent

directement dans des tableurs Excel. Excel offre de nombreuses fonctionnalités

4.3. Au-delà du portail

5. Consultation et préservation des données

formulaire de décharge immédiatement après la séance d’enregistrement. Nous l’avons

27 De telles précautions sont tout particulièrement importantes lorsque la variété

5.2. Identification de la provenance des énoncés cités

28 L’identification de la provenance des données linguistiques n’est pas encore pratique

l’exception. La méconnaissance généralisée du parler et le penchant croissant à le

Barysevich A. (2012). Variation et changement lexicaux en situation de contact de langues. University of

Edwards J. (2006). Concorder X : Program and Documentation. Ottawa : Laboratoire de

Kastronic L. (2016). A Comparative Variationist Approach to Morphosyntactic Variation in Contemporary

Labov W. (1972). Sociolinguistic Patterns. Philadelphia : University of Pennsylvania Press.

Poplack S. (1985). « Contrasting patterns of code-switching in two communities », dans

Poplack S. (2011). « Grammaticalization and linguistic variation », dans Heine B. &

Poplack S. (2015). « Norme prescriptive, norme communautaire et variation diaphasique », dans

Poplack S. & Tagliamonte S. (2000). « The grammaticization of going to in (African American)

Thomason S. (2001). Language Contact : An Introduction. Edinburgh : Edinburgh University Press.

Winford D. (2003). An Introduction to Contact Linguistics. Malden, MA : Blackwell.

et l’analyse du vernaculaire. Nous concluons par un survol des nombreuses applications

A new milestone for the study of

2. Previous sociolinguistic research on Montréal

2.1. Milestone 1: The first sociolinguistic survey of Montréal French,

a random stratified sample.1 The sampling grid, designed to ensure representativity,

2.2. Longitudinal studies of Montréal French

Milestone 3: The Montréal-1995 corpus

Similarly, a project in Orléans, France (1968-2012), tracks the evolution of hexagonal

3.2. Choice of the fieldwork site

3.3. Focus on Hochelaga-Maisonneuve

21 Hochelaga-Maisonneuve is one of the neighborhoods that best lends itself to

4. The Hochelaga-Maisonneuve corpus (Blondeau,

families6: SES 1 ( Liberal profession/Business Person), SES 2 (Bachelor Degree/

4.2. Data collection protocol

24 To preserve comparability with previous sociolinguistic corpora of spoken Montréal