Académique Documents
Professionnel Documents
Culture Documents
22 | 2021
Du recueil à l’outillage des corpus oraux : comment
accéder à la variation ?
Édition électronique
URL : https://journals.openedition.org/corpus/5421
DOI : 10.4000/corpus.5421
ISSN : 1765-3126
Éditeur
Bases ; corpus et langage - UMR 6039
Référence électronique
Corpus, 22 | 2021, « Du recueil à l’outillage des corpus oraux : comment accéder à la variation ? » [En
ligne], mis en ligne le 15 janvier 2021, consulté le 19 mars 2022. URL : https://
journals.openedition.org/corpus/5421 ; DOI : https://doi.org/10.4000/corpus.5421
SOMMAIRE
Introduction
Céline Dugua et Layal Kanaan-Caillol
A new milestone for the study of variation in Montréal French: The Hochelaga-Maisonneuve
sociolinguistic survey
Hélène Blondeau, Mireille Tremblay, Anne Bertrand et Elizabeth Michel
Vers un outillage informatique optimisé pour corpus langagiers oraux en vue d’une
exploitation textométrique : le cas des interrogatives partielles dans ESLO
Flora Badin, Loïc Liégeois, Gabriel Thiberge et Christophe Parisse
Réduction des segments en français spontané :apports des grands corpus et du traitement
automatique de la parole
Yaru Wu et Martine Adda-Decker
Varia
Des discours authentiques singuliers aux scénarios de formation pour les médecins : quelle
méthode d’exploitation pragmatique du corpus DECLICS2016 ?
Emmanuèle Auriac-Slusarczyk et Aline Delsart
Corpus, 22 | 2021
2
Introduction
Céline Dugua et Layal Kanaan-Caillol
1 Depuis les années soixante-dix et le corpus de Montréal (Sankoff et al., 1976), les corpus
oraux et multimodaux ont été au cœur des transformations technologiques,
méthodologiques et théoriques de la linguistique sur corpus numériques, reconfigurant
les attentes en matière de conservation des documents sonores. Les outils et
instruments de transcription, d’annotation, de traitement du signal, de textométrie, de
visualisation, et plus généralement tous les outils du TAL et du traitement de données,
les plateformes de conservation et de diffusion de corpus, les initiatives visant
l’interopérabilité des données sont apparus comme indissociables des analyses et des
opérations de constitution et d’exploitation de corpus.
2 Enfin, à l’heure du web de données, les questions posées par l’archivage et par la
réutilisation de corpus, tout comme les projets de sciences contributives dépassent le
domaine de la linguistique bien que celle-ci soit concernée en premier lieu. Ces
transformations, qui nécessitent une réflexion sur la normalisation et le formatage,
questionnent la place qui doit être faite à des données hétérogènes pour l’étude de la
variation.
3 C’est autour de ces problématiques des corpus oraux qu’avec des collègues du LLL-
UMR7270, nous avons organisé en novembre 2018, le colloque anniversaire des 50 ans
des Enquêtes Sociolinguistiques à Orléans (ESLO). Intitulé « 50 ans de linguistique sur
corpus oraux : apports à l’étude de la variation », ce colloque a accueilli une large
communauté de linguistes, de sociolinguistes, de Talistes présentant leurs travaux sur
des corpus francophones (France, Québec) et italien, japonais, anglo-américain, créole
haïtien. Au-delà de cet évènement, nous avons souhaité, dans ce numéro de Corpus,
élargir le panorama en rassemblant des travaux qui problématisent ce qu’impliquent la
prise en compte et l’étude des variations sur les outils utilisés à chaque étape de la
chaine de traitement d’un corpus, en commençant par la constitution des données.
Cette chaine de traitement a été formalisée pour ESLO par Baude (2006) et Baude et
Dugua (2011, 2016) qui soulignent par ailleurs les liens constants et multidirectionnels
entre les différentes phases du process. Avec une approche sociolinguistique
variationniste, ESLO s’est proposé de constituer un corpus prototypique qui puisse
Corpus, 22 | 2021
3
1. Constitution de corpus
6 Dans la chaine de traitement, chaque étape est conditionnée par les précédentes et
anticipe les suivantes, en intégrant la variation, comme l’article de Sh. Poplack qui
ouvre ce numéro en apporte la démonstration. L’auteure présente différents corpus du
Labo (Laboratoire de linguistique de l’Université d’Ottawa) en mettant l’accent sur
plusieurs phases, de la collecte, à la conservation en passant par la transcription,
l’annotation, l’analyse.
7 L’étape de la collecte détermine l’ensemble du processus et conditionne la phase
d’exploitation. De ce fait, la constitution de corpus, notamment dans sa collecte répond,
ou en tout cas est guidée, par des questions liées à l’objet/aux objets d’étude. C’est dans
ce sens que Sh. Poplack affirme :
Conscients que le matériel linguistique à la disposition du linguiste décide en
grande partie de ce qui peut faire l’objet d’étude, nous amorçons notre démarche
par le recueil de données, ce qui soulève l’inévitable question : quoi recueillir et
auprès de qui ? Les corpus du Labo sont d’abord et avant tout conçus comme des
archives de réponses potentielles à des problèmes de recherche précis. (Poplack, ce
numéro).
8 « Quoi recueillir et auprès de qui ? ». Plusieurs articles de ce numéro reprennent cette
question en fonction des visées linguistiques propres à chaque projet. Il en résulte une
large palette de choix méthodologiques autour d’un enjeu central : appréhender la
variation.
9 Saisir la variation dès l’étape de la collecte commence par la définition des
caractéristiques attendues des participants :
• corpus stratifié pour Blondeau et al., comparable avec la première enquête sociolinguistique
sur le français de Montréal (1971) pour observer le changement en temps réel afin de
vérifier l’hypothèse selon laquelle la variation linguistique et sociale synchronique est à la
base de la variation diachronique (Labov, 1994).
• enfants issus de familles de milieux socio-économiques contrastés, « à l’image de ce que peut
être la population d’une ville » pour J. Ganaye qui se propose de « questionner l’influence
des milieux socio-économiques sur l’usage du langage » dans le cadre de l’étude de la liaison.
• élèves et adultes dans une école maternelle mixte pour A. Nardy et al. en vue d’une étude de
la variation et des réseaux sociaux sur des données massives.
Corpus, 22 | 2021
4
10 Saisir la variation c’est aussi recueillir des données authentiques, spontanées ; recueillir
le vernaculaire. Cela implique, pour le chercheur, de créer des situations de collecte
favorables et de résoudre le Paradoxe de l’observateur (Labov, 1972). L’ entrevue
sociolinguistique (Labov, 1984) constitue un des dispositifs le plus souvent adopté.
11 Le recueil des données du corpus Hochelaga-Maisonneuve (Blondeau et al.) s’est fait
dans le cadre d’entretiens en face-à-face au domicile des participants, menés pour
certains par les chercheurs du projet et pour d’autres par des étudiants. Un guide
d’entretien a servi de support tout en gardant l’objectif d’un échange fluide et spontané
autour de sujets tels que les souvenirs d’enfance, les événements biographiques, la vie
de quartier et des questions liées à l’usage du français à Montréal et au Québec.
12 Pour certains corpus du Labo (Sh. Poplack), les chercheurs ont formé des membres des
communautés ciblées afin de leur confier la réalisation des entretiens.
13 J. Ganaye pour sa part a fait le choix de l’absence du chercheur. Pour étudier
l’acquisition du langage chez les enfants – à travers l’étude de la liaison – en prenant en
compte l’impact de l’input (l’environnement langagier) sur l’output (productions
enfantines) dans différents environnements, le corpus a été réalisé par saisie « [de]
situations naturelles variées formant le quotidien des enfants ». Avec un kit
d’enregistrement et un mode opératoire confiés aux parents, l’absence du chercheur
vise à « réduire l’effet du « paradoxe de l’observateur » et [à] accéder aux situations les
plus écologiques possibles », telles que les repas, les moments de jeux, les devoirs, etc.
14 A des fins de recueil de données massives et longitudinales pour l’étude des
dynamiques langagières des élèves en lien avec les réseaux sociaux, et ce dans une
école maternelle socialement mixte, A. Nardy et al., quant à eux, ont recours à un
dispositif de collecte embarqué, très spécifique : « Environ 200 individus (enfants et
adultes) sont équipés une semaine par mois pendant 3 ans de capteurs qui enregistrent
en continu à la fois leurs interactions verbales et leurs contacts sociaux. »
15 En somme, ces quatre exemples illustrent la variété des protocoles de collecte, depuis
des démarches classiques et largement répandues qui font leur preuve, jusqu’à des
procédures spécifiques, déterminées par l’objet de recherche et les relations entre les
locuteurs.
2. Métadonnées
16 Dans la constitution d’un corpus variationniste, les métadonnées revêtent une
importance particulière. La nomenclature et le recueil des métadonnées doivent être
pensés en amont de la collecte, comme le mentionnent H. Blondeau et al. et J. Ganaye.
Sur des échantillons différents et avec des objectifs d’analyse spécifiques, les types de
métadonnées ne seront pas identiques. J. Ganaye (ESLO-Enfants) privilégie des
informations concernant les familles (types d’activités pratiquées, rapport à la culture,
CSP, etc.) et les résultats à des tests de langage que les enfants ont passés. Dans le cadre
du corpus FRAN-HOMA (Blondeau et al.) les auteures insistent sur l’importance de la
stratification et des variables nécessaires à son organisation.
17 Abordant les corpus de parole pathologique en français, avec l’objectif de les
rassembler en base de données, A. Ghio et al. soulignent la nécessité du lien entre les
données sonores, les données transcrites et les métadonnées – notamment les
caractéristiques cliniques des locuteurs. Cet enjeu se retrouve dans ESLO et dans FRAN-
Corpus, 22 | 2021
5
Corpus, 22 | 2021
6
Corpus, 22 | 2021
7
29 C’est le cas aussi du corpus FRAN-HOMA, présenté par H. Blondeau et al., construit en
rapport avec le corpus de Montréal de 1971 pour observer le changement à 40 ans
d’intervalle. Pour H. Blondeau et al., un des objectifs majeurs est de questionner les
modèles théoriques, notamment celui du temps apparent « afin de vérifier ses
prédictions sur les observations en temps réel » (Blondeau et al., ce numéro). Les
auteures soulignent que le nouveau corpus, fort des avancées technologiques
mobilisées tout au long de la chaine de traitement, rend possibles de nouvelles
recherches sur la variation. Elles en donnent une illustration en présentant les résultats
de l’étude de deux variables sociolinguistiques – la variation dans l’emploi des
marqueurs discursifs à travers l’étude de fait-que dans ses variantes phonologiques /
fɛk/ et /fak/ et la contraction de la préposition dans – dans une perspective
diastratique et/ou diachronique.
30 Dans un autre champ, celui de l’acquisition du langage, en choisissant d’enregistrer
différentes situations du quotidien d’enfants avec leurs parents et en contrastant les
catégories socio-culturo-professionnelles des familles, J. Ganaye intègre la variation
diastratique et diaphasique dont elle croise les paramètres avec l’observation du
développement langagier. Il s’agit pour elle de comprendre la façon dont le langage –
tout particulièrement un phénomène variable : la liaison – se construit dans la
diversité des environnements et des situations auxquels se trouve confronté un enfant.
31 En intégrant approches micro-diachronique, diastratique et diaphasique, Fl. Badin et al.,
illustrent l’intérêt de leur méthodologie à partir de l’étude de l’emploi des
interrogatives partielles. Ils relèvent un changement en faveur des interrogatives
partielles in situ (ex. Tu pars quand ? vs. Quand tu pars/Quand pars-tu ?) à travers un jeu de
requêtes guidé par les résultats successifs combinant angle diastratique et angle
diaphasique.
32 Les objets variables peuvent également être saisis en termes de variation interne. Y. Wu
et M. Adda-Decker s’intéressent aux prononciations, à travers l’étude des phénomènes
de réduction en parole continue. Avec un outillage calibré et des dictionnaires de
prononciation en référence pour les réalisations canoniques, les auteures saisissent des
variations paradigmatiques et syntagmatiques et identifient les segments les plus
accessibles à la réduction en intégrant les caractéristiques intrinsèques des sons et les
effets phonotactiques.
Corpus, 22 | 2021
8
Conclusion
37 À travers les observations synthétiques autour des cinq axes que nous avons privilégiés,
nous voyons se dessiner la cohérence de travaux issus de champs différents avec des
objectifs scientifiques hétérogènes. L’aperçu donné dans cette introduction est une
invitation à la découverte des articles.
38 La constitution de corpus est une entreprise d’une grande envergure qui nécessite des
moyens humains, techniques et financiers conséquents et les réponses en termes de
financements ne sont souvent pas à la hauteur des enjeux liés d’une part à la
patrimonialisation et d’autre part à l’étude des dynamiques langagières.
39 Nous rejoignons Sh. Poplack lorsqu’elle écrit :
Dans le climat disciplinaire actuel, la recherche empirique que permettent les
corpus est souvent dénigrée ou considérée comme théoriquement peu intéressante.
En dehors du domaine de la sociolinguistique variationniste, les chercheurs sont
rarement (sinon jamais) crédités pour les efforts titanesques déployés pour
recueillir, transcrire, organiser et partager les vastes quantités de données de
parole spontanée qui constituent bon nombre de corpus. (Poplack, ce numéro)
40 Ce que nous souhaitons retenir en conclusion et qui, en réalité, est démontré dans
chacun des articles, ne serait-ce qu’en filigrane, est le fait que la recherche linguistique
commence dès le premier maillon de la chaine de traitement. La constitution de corpus
se fait nécessairement à la lumière des questions scientifiques et chacun des choix, à
chacune des étapes, est sous-tendu par un ancrage théorique qui guide l’ensemble des
opérations et des analyses subséquentes.
Corpus, 22 | 2021
9
BIBLIOGRAPHIE
Baude O. (2006). Corpus oraux : guide des bonnes pratiques. CNRS-Editions et Presses universitaires
d’Orléans.
Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf,
linguiste ? ». Corpus 10 : 99-118.
Baude O. & Dugua C. (2016). « Les ESLO, du portrait sonore au paysage digital ». Corpus, « Corpus
de français parlé et français parlé des corpus » 15 : 29-56.
Bergounioux G., Jacobson M. & Pietrandrea P. (2017). « L’annotation des corpus oraux », in Ayres-
Benett W. & Carruthers J. (éd.) Manual of Romance Sociolinguistics. Berlin, De Gruyter : 27-58.
Habert B., Nazarenko A. & Salem A. (1997). Les linguistiques de corpus. Paris : Armand Colin.
Labov W. (1972). Language in the Inner City : Studies in the Black English Vernacular. Philadelphie :
University of Pennsylvania Press.
Labov W. (1984). « Field methods of the project on linguistic change and variation », in Baugh J. &
Sherzer J. (éd.), Language in Use. Englewood Cliffs : Prentice Hall, 28-54.
Labov W. (1994). Principles of Linguistic Change. Volume I : Internal Factors. Oxford and Malden :
Blackwell.
Sankoff D., Sankoff G., Laberge S. & Topham M. (1976). « Méthodes d’échantillonnage et
utilisation de l’ordinateur dans l’étude de la variation grammaticale », Cahiers de linguistique 6 :
85-125.
AUTEURS
CÉLINE DUGUA
Laboratoire Ligérien de Linguistique (LLL-UMR7270), Université d’Orléans
LAYAL KANAAN-CAILLOL
Laboratoire Ligérien de Linguistique (LLL-UMR7270), Université d’Orléans
Corpus, 22 | 2021
10
1. Introduction
1 Cet article détaille les principes et pratiques de gestion de données en vigueur au
Laboratoire de sociolinguistique de l’Université d’Ottawa (le Labo ; http://
www.sociolinguistique.uottawa.ca/laboratoire.html), centre où sont stockées des
centaines d’heures d’enregistrements de parler spontané. Le Labo, que je dirige depuis
sa fondation en 1982, a pour mandat de promouvoir l’étude de la langue courante et, en
particulier, de la variation et du changement linguistiques, notamment dans les
contextes minoritaires et bilingues. La réalisation de ce mandat implique l’étude
systématique de corpus oraux construits selon des principes scientifiques, en se
fondant sur la théorie et les méthodes de la sociolinguistique variationniste. Un grand
souci de scientificité, en particulier la capacité de répliquer et de valider nos résultats
empiriques, sous-tend tous nos travaux.
2 Le Labo abrite 19 grands corpus de parler spontané en diverses langues, dont huit
compilations de discours bilingue comportant des emprunts et des alternances de codes
entre différents couples de langues1, tous construits par notre équipe. Parmi ces corpus
figurent de volumineuses banques de données du français parlé au Canada sur une
période d’un siècle et demi (323 locuteurs ; plus de 4 000 000 mots), de l’anglais parlé
dans des communautés de la diaspora afro-américaine (124 locuteurs ; 223 heures) et de
l’anglais parlé au Québec avant et après l’adoption de la Charte de la langue française
qui en a fait une langue minoritaire (164 locuteurs ; 2 500 000 mots). On y trouve aussi
les Archives de sociolinguistique, composées de plus de 700 entrevues recueillies dans la
région de la capitale fédérale entre 1982 et 2018 par des générations d’étudiants dans le
cadre du cours de Dialectologie urbaine. Le Labo renferme également trois importants
corpus écrits reflétant l’oral (Ottawa Repository of Early African American Correspondence
Corpus, 22 | 2021
11
(537 lettres personnelles rédigées entre 1790 et 1865 par des Afro-Américains semi-
lettrés ; Van Herk et Poplack, 2003) ; Ottawa Grammar Resource on Early Variability in
English (98 grammaires publiées entre 1577 et 1930 ; Poplack et al., 2002) ; Recueil
historique des grammaires du français (163 grammaires publiées entre 1530 et 1999 ;
Poplack et al., 2015)).
3 Une grande partie de ce travail a été amorcée au début des années 1980, bien avant que
la construction de corpus et la gestion de données ne deviennent des sujets d’actualité
en dehors des cercles de la sociolinguistique variationniste. De ce fait, certaines des
méthodes décrites ici paraîtront plutôt archaïques comparées aux normes actuelles.
Néanmoins, 40 ans plus tard, ces ressources ont conservé leur intérêt et leur utilité,
comme en témoignent les nombreux articles, livres, thèses, dissertations, conférences,
ateliers et autres travaux produits par notre équipe et par nos collaborateurs et
collègues2. Cela s’explique par le fait que tous ces corpus ont été bien préservés et
restent exploitables, consultables, et dans la mesure où les contraintes déontologiques
le permettent, partageables. Les sections suivantes décrivent comment nous avons
abordé les tensions omniprésentes entre l’idéal et le réalisable pour parvenir à un tel
résultat.
2. Constitution de corpus
2.1. Le corpus au profit d’une question de recherche
Corpus, 22 | 2021
12
mots dans la même région ciblée 25 ans plus tôt par le corpus OH, conférant ainsi une
dimension de temps réel à l’analyse. Les Récits du français québécois d’autrefois (Poplack
et St-Amand, 2009) est un corpus constitué d’enregistrements sonores réalisés auprès
de Québécois de milieux ruraux par des folkloristes dans les années 1940 et 1950. Nous
avons ciblé 37 locuteurs nés entre 1846 et 1895 (524 000 mots). En conjonction avec le
corpus OH, il nous permet d’étendre la portée temporelle de l’étude du changement à
un siècle et demi en temps apparent (et à plus de 60 ans en temps réel), une durée
virtuellement inégalée pour l’étude de l’oral. Les Récits constituent également un repère
temporel antérieur au contact intense avec l’anglais, élément crucial à toute étude du
changement dû au contact (Poplack et Levey, 2011).
6 Cette approche comparative et diachronique sous-tend également la constitution des
corpus de l’anglais vernaculaire afro-américain (AVAA) des XVIII e et XIX e siècles3, nés
du débat sur le précurseur de l’AVAA (créole ou dialecte d’anglais). Ces données
permettent de répondre aux préoccupations des locuteurs natifs concernant la
« qualité » de leur langue, tout en respectant l’impératif de se reporter à un stade
antérieur pour étudier les origines. Les corpus d’AVAA misent sur les enregistrements
sonores synchroniques du parler de descendants des premiers colons de trois isolats de
la diaspora afro-américaine établis entre 1783 et 1824. En raison de leur isolement
depuis, ces parlers reflètent un stade antérieur de la langue, fournissant ainsi la chance
inouïe de reconstruire l’ancêtre de l’AVAA contemporain. Nous y parvenons en
comparant le fonctionnement de certaines structures grammaticales entre isolats et
par rapport à des variétés-repères pertinentes (Poplack, 2000 ; Poplack et Tagliamonte,
2001).
7 Pour une liste complète des collections du Labo, consulter http://
www.sociolinguistique.uottawa.ca/recherche.html et les références afférentes. Il s’agit
pour la plupart de corpus « non conventionnels » (Beal et al., 2007 ; Poplack, 2007), dans
la mesure où ils ont été conçus en vue d’aborder un enjeu particulier, en plus de
documenter le parler d’une communauté définie en termes extralinguistiques, comme
il est plus souvent le cas en (socio)linguistique. Grâce aux méthodes de collecte de
données détaillées ci-dessous, ces banques de données se prêtent aisément à l’étude,
tant synchronique que diachronique, de n’importe quel élément linguistique, du
moment qu’il se produise à l’oral et puisse être saisi à partir d’un enregistrement
sonore. De plus, en vertu des critères qui sous-tendent leur constitution, ces corpus
offrent la rare possibilité d’interpréter le comportement de chaque trait linguistique
étudié en fonction d’une question de recherche plus large, un avantage inestimable des
corpus construits selon de tels principes.
Corpus, 22 | 2021
13
l’étude de réseaux sociaux modestes, qui impliquent souvent l’observation à long terme
et la familiarisation connexe avec leurs membres ; elle se révèle nettement plus
complexe lorsque l’analyste cherche également à constituer un échantillon
statistiquement représentatif et quantitativement suffisant. Nos corpus principaux sont
composés de plus de 100 participants, pour la plupart sans lien les uns avec les autres 4.
Ce que de telles études à grande échelle gagnent en extension, elles le perdent souvent
en profondeur. Le parler qui en résulte ne s’éloigne que rarement des pôles plus
formels du continuum stylistique, où les traits linguistiques d’intérêt sont rares ou
simplement absents ; c’est là un obstacle de taille à l’étude du vernaculaire.
9 En réponse à ce problème, nous avons adopté les méthodes d’inspiration
ethnographique développées par Labov et ses collaborateurs pour résoudre le Paradoxe
de l’observateur (Labov, 1972). Celles-ci invitent à une conversation qui se rapproche
davantage du parler de tous les jours que du registre généralement réservé aux
entretiens en face-à-face. L’outil méthodologique privilégié est l’entrevue
sociolinguistique (Labov, 1984). Antithèse du protocole d’entrevue conventionnel, il s’agit
d’un guide pour encourager le participant à s’exprimer de façon informelle en
proposant une vaste gamme de sujets de conversation eux-mêmes de nature informelle.
Pour réduire l’effet du contexte de l’entrevue, notamment du rapport de pouvoir entre
l’intervieweur et le locuteur, on encourage ce dernier à contrôler l’inclusion et
l’exclusion des sujets de conversation, en minimisant les interventions de la part de
l’intervieweur. Les seules exceptions concernent la collecte de métadonnées
(section 3.1), qui se fait vers la fin de chaque séance d’enregistrement.
10 Ces efforts, décrits en détail ailleurs (p. ex. Poplack, 1989 ; Poplack et al., 2006), ont
donné lieu à une mine d’enregistrements du discours spontané, dont la durée varie de
une à cinq heures par participant et qui comprennent des récits d’expériences
personnelles, des discussions en groupe et d’autres modes de conversation hautement
informels. On y trouve bon nombre des variantes vernaculaires si convoitées, en plus
du discours soigné, plus facilement accessible. Dans la mesure du possible, nous
comptons sur des membres de la communauté ciblée pour s’acquitter du travail sur le
terrain. Ceux-ci reçoivent à cette fin une formation en vue d’administrer l’entrevue
sociolinguistique, qui se trouve grandement enrichie par leur expertise personnelle sur
les mœurs de la communauté.
11 L’African Nova Scotian English Corpus (Poplack et Tagliamonte, 1991) témoigne sans doute
de notre plus grande réussite dans ce genre d’entreprise. Il s’agit d’une vaste
compilation de discours recueillis par des membres de collectivités très soudées qui
sont diglossiques en anglais canadien standard et en AVAA. Si ce n’était du statut local
– et de la grande compétence – de ces travailleurs de terrain, la plupart des traits
grammaticaux vernaculaires que nous avons étudiés en détail depuis (par exemple,
l’élision de la copule (Walker, 2000), le marqueur de négation ain’t (Howe et Walker,
2000) ou le manque d’accord verbal (McOrmond-Arenja, 2020 ; Poplack et Tagliamonte,
1989)), ne seraient tout simplement pas apparus pendant les séances d’enregistrement.
En effet, là où coexistent l’insécurité linguistique et un certain degré de diglossie, les
formes « mal vues » sont généralement évitées avec les interlocuteurs externes à la
communauté. D’où l’impératif de créer des conditions appropriées pour la collecte de
données. Les corpus du Labo recensent d’autres exemples de ces phénomènes
langagiers convoités mais fugaces, notamment l’alternance de code multimot (Poplack,
Corpus, 22 | 2021
14
Corpus, 22 | 2021
15
15 Avant de décrire les protocoles de transcription appliqués aux corpus du Labo, il faut
rappeler qu’une grande partie des données a été recueillie des décennies avant
l’avènement des outils d’annotation disponibles aujourd’hui (p. ex. Beal et al., 2007 ;
Baude et Dugua, 2016 ; Eshkol-Taravella et al., 2012). En comparaison, la solution que
nous avons adoptée – la transcription manuelle en orthographe standard – peut
paraître plutôt simpliste. Pourtant, même si des méthodes plus sophistiquées ont gagné
en popularité au fil des ans, nous nous en sommes largement tenus à nos protocoles
originaux, même pour les corpus subséquents, ayant constaté par expérience qu’ils
répondent bien à nos besoins. Notre conception de l’annotation comme portail vers
l’analyse, plutôt que comme fin en soi, a dicté ce choix.
16 Tout d’abord, une fois que nous avons personnellement constaté le formidable
investissement de temps et de fonds requis pour monter ex nihilo un grand corpus basé
sur des principes raisonnés, nous avons décidé de répartir nos ressources limitées de
façon à faire prévaloir l’analyse linguistique des données plutôt que leur gestion, sans
toutefois sacrifier celle-ci à l’excès. Cet état de fait a motivé notre décision d’expédier la
transcription et de multiplier les étapes de correction (entre trois et six, manuelles et
automatisées, selon les corpus).
17 Parvenir à une représentation à la fois fidèle et cohérente s’avère particulièrement
ardu dans le cas du parler spontané, qui est caractérisé par la variabilité inhérente,
impliquant souvent de nombreuses formes non standard – parfois, comme dans notre
cas, dans plus d’une langue. Mais la valeur d’un système d’annotation est
proportionnelle à sa capacité de servir les objectifs de l’étude. Nous avons mentionné
plus haut que les corpus du Labo permettent d’étudier une grande variété de
phénomènes linguistiques. Certains de ces phénomènes sont connus au départ, mais la
plupart émergent au fur et à mesure que le projet évolue. Devant l’impossibilité de
prévoir leur émergence, nous avons conclu qu’il serait déraisonnable, voire impossible,
de tenter de les représenter tous à l’étape de la transcription. À titre d’exemple, comme
nos recherches portent principalement sur l’analyse de la variabilité
morphosyntaxique, nous avons choisi d’ignorer la multitude de variantes phonétiques
présentes dans les enregistrements et de ne conserver que la variation
morphosyntaxique pertinente, évitant ainsi de multiplier inutilement les entrées et
d’entraver le repérage.
18 Le choix du protocole de transcription s’est fait en fonction de notre objectif premier :
construire une concordance informatisée qui permet un rappel maximal des données,
ce qui suppose un haut degré de cohérence de la transcription. Voilà pourquoi nous
avons adopté une solution orthographique, décrite en détail dans Poplack (1989). Notre
stratégie générale consiste à rendre les variantes résultant de processus phonétiques
ou phonologiques en orthographe standard, peu importe leur réalisation réelle (p. ex.
<ing> tant pour la variante vélaire [ɪŋ] que pour l’alvéolaire [ɪn] (dans l’exemple en (1)),
mais à rendre les variantes morphophonologiques et morphosyntaxiques telles qu’elles
ont été produites (p. ex. <trunk> ou <trunks> en (2) selon si le morphème pluriel [s] est
élidé ou non).
(1) And I said, “If things don’t change around here, I’m getting out of here.” (QEC.
037.630)6
(2) That man had two trunks. Two trunk full of gold and silver and everything. Two
trunk, big trunks. Full of gold and silver. (ANSE.NP.030.1323)
Corpus, 22 | 2021
16
3.3. Correction
21 La transcription a pour but de refléter fidèlement ce qui a été dit, y compris toute
manifestation de la variabilité morphosyntaxique y afférant. Comme le confirmeront
ceux qui ont déjà travaillé avec des données de parler spontané, c’est sans doute l’étape
la plus laborieuse de la construction de corpus. En raison de notre stratégie de saisir les
données rapidement et de nos exigences de repérabilité, l’élaboration d’un système de
correction efficace s’imposait. Le nôtre comprenait plusieurs étapes dont des tours
manuels (à partir de la réécoute des enregistrements audio) et des tours semi-
automatisés (basées sur listes de mots et de concordances). L’échange de documents
entre correcteurs a renforcé la fiabilité des transcriptions. Un suivi sur tableur a permis
d’assurer l’exécution de toutes les phases de correction sans duplication d’efforts. Il en
résulte un ensemble de corpus à peu près exempts d’erreurs qui peuvent être utilisés
en toute confiance pour étudier maintes phénomènes morphosyntaxiques et lexicaux
sans recours aux enregistrements audio d’origine. De plus, un protocole de
transcription d’une telle simplicité peut aisément s’adapter à d’autres outils (p. ex. les
concordanciers (section 4.1) ou les logiciels d’alignement forcé (Mielke, 2013)).
Corpus, 22 | 2021
17
sans grandes modifications. Concorder X est un outil polyvalent qui crée efficacement
des listes de mots et des concordances selon différents paramètres (p. ex. par ordre
alphabétique ou selon la fréquence) tant pour un seul locuteur que pour le corpus
entier ou un sous-ensemble de celui-ci. Ces fonctionnalités réduisent considérablement
le temps requis pour repérer et extraire les données recherchées. La concordance
affiche chaque élément lexical sous forme de mot-clé entre les contextes linguistiques
le précédant et le suivant, en plus d’identifier le locuteur et l’adresse du mot dans la
transcription. En cliquant sur le mot-clé, l’utilisateur accède à l’emplacement du mot
dans le corpus et à son contexte d’origine en entier.
23 Les analyses variationnistes ont souvent pour but de déterminer pourquoi une variante
d’une variable est choisie plutôt qu’une autre dans un contexte variable (point où les
variantes alternent sans changer de valeur référentielle) préalablement défini. L’entrée
pour chaque occurrence dans la concordance contient généralement suffisamment
d’informations pour permettre à l’analyste d’en capter les facteurs potentiellement
explicatifs (p. ex. la polarité de l’énoncé, la personne grammaticale, le positionnement
dans la phrase, etc.). À noter cependant que l’extraction à partir d’un repère lexical
risque de relever un surplus d’occurrences qui débordent du contexte variable. Ainsi,
en cherchant « que » pour localiser les contextes du subjonctif, on finira avec
l’ensemble des propositions subordonnées ; la recherche de « si » fera apparaître non
seulement les protases hypothétiques, mais aussi les propositions comparatives. Les cas
non pertinents doivent être identifiés et éliminés manuellement. Le repérage des
occurrences est également compliqué par le fait que de nombreux mots grammaticaux
(p. ex. « que ») sont souvent carrément supprimés à l’oral, tout comme le sont les
sujets, les copules et les prépositions, pour ne nommer que ceux-là. Certaines de ces
formes élidées constituent des variantes de la variable à l’étude, et doivent donc être
considérées parallèlement à leurs homologues explicites. Le repérage doit donc
s’effectuer en combinant la recherche automatisée (pour les formes ayant des
représentations lexicales) et l’extraction manuelle (pour les éléments nuls et les
variables syntaxiques comme les stratégies de formation de propositions relatives et la
variation dans l’ordre des mots). L’extraction manuelle est sans contredit extrêmement
exigeante, surtout dans le cas de grands corpus, mais elle présente l’avantage de
permettre aux chercheurs de relever l’ensemble des variantes d’une variable donnée,
condition sine qua non de l’analyse variationniste. Cet ensemble peut comprendre des
variantes qui n’ont pas été reconnues ou identifiées au départ, comme le choix du
conditionnel ou de l’imparfait dans les contextes qui demandent théoriquement le
subjonctif, ou l’absorption de la préposition dans les propositions relatives françaises.
Le repérage manuel oblige aussi l’analyste à se (re)familiariser continuellement avec les
données analysées, données que le degré de détail de l’annotation rend
proportionnellement beaucoup plus abstraites. Ce faisant, nous souscrivons à un autre
principe fondamental du paradigme variationniste, à savoir que la variation
linguistique doit être étudiée dans le contexte où elle se produit.
4.2. Codification
24 Quelle que soit la méthode utilisée pour les repérer, les occurrences extraites sont
ensuite codées en fonction d’une série de facteurs (eux-mêmes des matérialisations
d’hypothèses sur ce qui motive le choix des variantes) en vue de l’analyse statistique. Le
codage des données commence par la transcription des occurrences pertinentes
Corpus, 22 | 2021
18
25 L’utilité d’un corpus se mesure en grande partie par la polyvalence de ses applications.
Les corpus du Labo relèvent le défi ; ils se prêtent à l’étude d’une grande variété de
questions théoriques, dont beaucoup ont déjà fait l’objet de nos recherches, par
exemple, le comportement des différentes manifestations du contact linguistique
(emprunt lexical, alternance de codes, convergence grammaticale) (Poplack, 2008 ;
2018 ; Poplack et Levey, 2011), les modalités du changement linguistique (au long de la
vie (Poplack et Lealess, 2009), provoqué par le contact (Leroux et Jarmasz, 2006 ;
Poplack et al., 2012)), la résistance des isolats linguistiques (Adams, 2005 ; Petrik, 2005 ;
Poplack et Tagliamonte, 2010 ; Yoshizumi, 2006), le rôle des médias (Poplack et Dion,
2007), la grammaticalisation (en anglais (Poplack et Tagliamonte, 1996 ; 2000), en
français (Poplack, 2011) et dans les langues romanes (Poplack et al., 2018)), le maintien
des langues ancestrales (Budzhak-Jones et Poplack, 1997), la tension entre la langue
prescrite et la langue parlée (Poplack, 2015 ; Poplack et al., 2015 ; Poplack et al., 2002) et
les origines de l’AVAA (Poplack, 2000 ; Poplack et Tagliamonte, 2001), pour ne nommer
que celles-ci. Les variables linguistiques exploitées pour éclairer ces questions
comprennent des phénomènes aussi disparates que l’élision de la copule (Walker, 2000),
l’alternance des cas (Sankoff et al., 1990), les structures interrogatives (Elsig, 2009 ; Van
Herk, 2000), la variation dans l’ordre des mots (Toth, 2014), l’échouage de la préposition
(Poplack et al., 2019), les stratégies de formation des propositions relatives (Lealess et
Smith, 2011 ; Tottie et Harvie, 2000), l’alternance des auxiliaires (Willis, 2000),
l’expression variable de la référence au présent (Walker, 2001), au passé (Leroux, 2005 ;
Tagliamonte, 1991 ; Van Herk, 2002) et au futur (Poplack et Dion, 2009 ; Poplack et
Tagliamonte, 2000 ; Torres Cacoullos et Walker, 2009), la variation modale (Poplack,
2001 ; Poplack et al., 2013 ; St-Amand, 2002), l’assignation du genre (Klapka, 2002), le
marquage du pluriel (Tagliamonte et al., 1997) et bien d’autres encore.
26 Toutes les données archivées au Labo ont été recueillies, traitées et entreposées
conformément aux attentes déontologiques des organismes subventionnaires
concernés et du Comité d’éthique de la recherche de l’Université. La seule dérogation
concerne l’obtention du consentement éclairé avant d’entreprendre la collecte de
données. Comme on pourrait s’y attendre, amorcer une interaction en présentant les
détails linguistiques du projet et en demandant au participant de lire, discuter et signer
les formulaires de consentement va à l’encontre de la création d’une atmosphère
favorable au parler informel, et encore moins au vernaculaire. Nous expliquons plutôt
le but de l’entrevue d’abord en termes généraux, sans manquer de signaler notre
intérêt pour la langue, puis nous obtenons le consentement éclairé en faisant remplir le
Corpus, 22 | 2021
19
Épilogue
29 Dans le climat disciplinaire actuel, la recherche empirique que permettent les corpus
est souvent dénigrée ou considérée comme théoriquement peu intéressante. En dehors
du domaine de la sociolinguistique variationniste, les chercheurs sont rarement (sinon
jamais) crédités pour les efforts titanesques déployés pour recueillir, transcrire,
organiser et partager les vastes quantités de données de parole spontanée qui
constituent bon nombre de corpus. Au contraire, ils sont souvent fustigés pour les
distributions bizarres, les cases vides et les quantités parfois sous-optimales de
variantes rares qui caractérisent la parole spontanée. Il arrive souvent que des revues
de linguistique de pointe, considérées comme porte-parole du domaine, rejettent ou
demandent une révision en profondeur des travaux quantitatifs rapportant des
distributions éparses ou disproportionnées, même lorsque l’analyste a
systématiquement parcouru de vastes corpus pour en extraire toutes les occurrences
pertinentes. Les linguistes habitués à une analyse minutieuse de la langue parlée
entendent que ces répartitions inégales des données constituent la règle plutôt que
Corpus, 22 | 2021
20
BIBLIOGRAPHIE
Adams J. (2005). Concord Variation, Convergence, and Quebec English : ‘There’s Lots of Things to
Consider’. Université d’Ottawa. Mémoire de maîtrise.
Bailey G., Maynor N. & Cukor-Avila P. (1991). The Emergence of Black English : Texts and Commentary.
Amsterdam/Philadelphia : John Benjamins.
Baude O. & Dugua C. (2016). « Les ESLO, du portrait sonore au paysage digital », Corpus 15 : 29-56.
Beal J., Corrigan K. & Moisl H. (2007). Creating and Digitizing Language Corpora : Synchronic Databases.
Houndmills : Palgrave-Macmillan UK.
Budzhak-Jones S. & Poplack S. (1997). « Two generations, two strategies : The fate of bare English-
origin nouns in Ukrainian », Journal of Sociolinguistics 1(2) : 225-258.
Elsig M. (2009). Grammatical Variation Across Space and Time : The French Interrogative System.
Amsterdam/Philadelphia : John Benjamins Publishing.
Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). « Un grand corpus
oral ‘disponible’ : le corpus d’Orléans 1968-2012 », Ressources linguistiques libres, TAL 52(3) : 17-46.
Heine B. & Kuteva T. (2005). Language Contact and Grammatical Change. Cambridge University Press.
Howe D. & Walker J.A. (2000). « Negation and the creole-origins hypothesis : Evidence from early
African American English », dans Poplack S. (éd.), The English History of African American English.
Oxford & Malden : Blackwell Publishers, 109-140.
Klapka L. (2002). Étude comparative : l’accord du genre en français québécois au XIXe et au XXe siècles.
Université d’Ottawa. Mémoire de maîtrise.
Labov W. (1966/2006). The Social Stratification of English in New York City. 2 e édition. Cambridge :
Cambridge University Press.
Corpus, 22 | 2021
21
Labov W. (1984). « Field methods of the project on linguistic change and variation », dans
Baugh J. & Sherzer J. (éd.), Language in Use. Englewood Cliffs : Prentice Hall, 28-54.
Lealess A.V. (2014). « J’ai tout le temps eu de misère » : A Variationist Study of Adverb Placement in
Quebec French. Université d’Ottawa. Thèse doctorale.
Lealess A.V. & Smith C. (2011). « Assessing contact-induced language change : The use of subject
relative markers in Quebec English », Cahiers linguistiques d’Ottawa 36 : 20-38.
Leroux M. (2005). « Past but not gone : The past temporal reference system in Quebec French »,
Penn Working Papers in Linguistics (Selected Papers from NWAV 33) 11(2) : 119-131.
Leroux M. & Jarmasz L.G. (2006). « A study about nothing : Null subjects as a diagnostic of
convergence between English and French », Penn Working Papers in Linguistics (Selected Papers from
NWAV 34) 12(2) : 1-14.
Levey S., Groulx K. & Roy J. (2013). « A variationist perspective on discourse-pragmatic change in
a contact setting », Language Variation and Change 25(2) : 225-251.
McOrmond-Arenja S. (2020). ‘It Don’t Be Like That No More’ : Meanings and Function of Invariant Be in
Early Black English. Université d’Ottawa. Mémoire de maîtrise.
Mielke J. (2013). « Ultrasound and corpus study of a change from below : Vowel rhoticity in
Canadian French », University of Pennsylvania Working Papers in Linguistics 19(2) : article 16.
Petrik K. (2005). Deontic Modality in Quebec English : ‘Everything You Need to Know’. Université
d’Ottawa. Mémoire de maîtrise.
Poplack S. (1989). « The care and handling of a mega-corpus », dans Fasold R. & Schiffrin D. (éd.),
Language Change and Variation. Amsterdam : Benjamins, 411-451.
Poplack S. (éd.) (2000). The English History of African American English. Oxford : Blackwell
Publishers.
Poplack S. (2007). « Foreword », dans Beal J., Corrigan K. & Moisl H. (éd.), Creating and Digitizing
Language Corpora. Houndmills : Palgrave-Macmillan UK, ix-xiii.
Poplack S. (2008). « Quebec English », Anglistik International Journal of English Studies 19(2) (Special
issue : Focus on Canadian English) : 189-200.
Poplack S. (2018). Borrowing : Loanwords in the Speech Community and in the Grammar. Oxford :
Oxford University Press.
Poplack S. & Dion N. (2007). « Linguistic mythbusting : The role of the media in diffusing
change », Colloque « NWAV 36 », University of Pennsylvania, 11-14 octobre 2007, Philadelphie.
Poplack S. & Dion N. (2009). « Prescription vs. praxis : The evolution of future temporal reference
in French », Language 85(3) : 557-587.
Corpus, 22 | 2021
22
Poplack S., Dion N. & Zentz L. (2019). « L’anglicisme syntaxique : produit inévitable du contact des
langues ? », Circula : revue d’idéologies linguistiques 9 : 78-105.
Poplack S., Jarmasz L.G., Dion N. & Rosen N. (2015). « Searching for ‘Standard French’ : The
construction and mining of the Recueil historique des grammaires du français », Journal of Historical
Sociolinguistics 1(1) : 13-56.
Poplack S. & Lealess A.V. (2009). « Language change over the lifespan revisited : Further insights
from the ‘Up’ series », Colloque « NWAV 38 », Université d’Ottawa, 22-25 octobre 2009, Ottawa.
Poplack S., Lealess, A.V. & Dion N. (2013). « The evolving grammar of the French subjunctive »,
Probus 25(1) : 139-193.
Poplack S. & Levey S. (2011). « Variabilité et changement dans les grammaires en contact », dans
Martineau F. & Nadasdi T. (éd.), Le français en contact : hommages à Raymond Mougeon,
collection « Les Voies du français ». Québec : Presses de l’Université Laval, 247-280.
Poplack S., Robillard S., Dion N. & Paolillo J.C. (2020). « Revisiting phonetic integration in
bilingual borrowing », Language 96(1) : 126-159.
Poplack S. & Sankoff D. (1987). « The Philadelphia story in the Spanish Caribbean », American
Speech 62(4) : 291-314.
Poplack S. & St-Amand A. (2009). « Les Récits du français québécois d’autrefois : reflet du parler
vernaculaire du XIXe siècle », Revue canadienne de linguistique 54(3) : 511-546.
Poplack S. & Tagliamonte S. (1989). « There’s no tense like the present : Verbal -s inflection in
Early Black English », Language Variation and Change 1(1) : 47-84.
Poplack S. & Tagliamonte S. (1991). « African American English in the diaspora : Evidence from
old-line Nova Scotians », Language Variation and Change 3(3) : 301-339.
Poplack S. & Tagliamonte S. (1996). « Nothing in context : Variation, grammaticization and past
time marking in Nigerian Pidgin English », dans Baker P. & Syea A. (éd.), Changing Meanings,
Changing Functions. Papers Relating to Grammaticalization in Contact Languages. Westminster, UK :
University Press, 71-94.
Poplack S. & Tagliamonte S. (2001). African American English in the Diaspora. Oxford : Basil
Blackwell.
Poplack S. & Tagliamonte S. (2010). « African Nova Scotian English in an enclave », dans Gold E. &
McAlpine J. (éd.), Canadian English : A Linguistic Reader. Kingston : Strathy Language Unit, Queen’s
University, 146-154.
Poplack S., Torres Cacoullos R., Dion N., de Andrade Berlinck R., Digesto S., LaCasse D. & Steuck J.
(2018). « Trajectories of change in Romance sociolinguistics », dans Ayres-Bennett W. &
Carruthers J. (éd.), Manual of Romance Sociolinguistics. Berlin/Boston : de Gruyter, 217-252.
Poplack S., Van Herk G. & Harvie D. (2002). « ‘Deformed in the dialects’ : An alternative history of
non-standard English », dans Trudgill P. & Watts D. (éd.), Alternative Histories of English, 87-110.
London : Routledge.
Poplack S., Walker J.A. & Malcolmson R. (2006). « An English ‘like no other’ ? : Language contact
and change in Quebec », Revue Canadienne de linguistique 51(2/3) : 185-213.
Corpus, 22 | 2021
23
Poplack S., Zentz L. & Dion N. (2012). « Phrase-final prepositions in Quebec French : An empirical
study of contact, code-switching and resistance to convergence », Bilingualism : Language and
Cognition 15(2) : 203-225.
Sankoff D., Poplack S. & Vanniarajan S. (1990). « The case of the nonce loan in Tamil », Language
Variation and Change 2(1) : 71-101.
St-Amand A. (2002). Le subjonctif suivant une expression non-verbale. Université d’Ottawa. Mémoire
de maîtrise.
Tagliamonte S. (1991). A Matter of Time : Past Temporal Reference Verbal Structures in Samaná English
and the Ex-Slave Recordings. Université d’Ottawa. Thèse doctorale.
Tagliamonte S., Poplack S. & Eze E. (1997). « Plural marking patterns in Nigerian Pidgin English »,
Journal of Pidgin and Creole Languages 12(1) : 103-129.
Torres Cacoullos R. & Walker J.A. (2009). « The present of the English future : Grammatical
variation and collocations in discourse », Language 85(2) : 321-54.
Toth C. (2014). Deciphering the Dative Alternation : Assessing Aspects Often Overlooked. Université
d’Ottawa. Mémoire de maîtrise.
Tottie G. & Harvie D. (2000). « It’s all relative : Relativization strategies in early African American
English », dans Poplack S. (éd.), The English History of African American English. Oxford : Blackwell
Publishers, 198-230.
Van Herk G. (2000). « The question question : Auxiliary inversion in early African American
English », dans Poplack S. (éd.), The English History of African American English. Oxford : Blackwell
Publishers, 175-197.
Van Herk G. (2002). Message from the Past : Past Temporal Reference in Early African American Letters.
Université d’Ottawa. Thèse doctorale.
Van Herk G. & Poplack S. (2003). « Rewriting the past : Bare verbs in the Ottawa Repository of Early
African American Correspondence », Journal of Pidgin and Creole Languages 18(2) : 231-266.
Walker J.A. (2000). Present Accounted For : Prosody and Aspect in Early African American English.
Université d’Ottawa. Thèse doctorale.
Walker J.A. (2001). « Using the past to explain the present : Tense and temporal reference in Early
African American English », Language Variation and Change 13(1) : 1-35.
Willis L. (2000). ‘Être ou ne plus être’ : Auxiliary Alternation in Ottawa-Hull French. Université
d’Ottawa. Thèse de maîtrise.
Yoshizumi Y. (2006). ‘She’s Got an English Thing There’ : The Variation of the Stative Possessives in
Quebec City English. Université d’Ottawa. Mémoire de maîtrise.
NOTES
*. Les travaux dont il est question ici ont été généreusement subventionnés par le Conseil de
recherches en sciences humaines du Canada par l’entremise de son programme des Chaires de
recherche du Canada et de nombreuses subventions de recherche, ainsi que par la Fondation
Killam, la Fondation Pierre Elliott Trudeau, le ministère de la Recherche et de l’innovation de
Corpus, 22 | 2021
24
l’Ontario, la Fondation canadienne pour l’innovation et les Fonds ontariens pour l’innovation.
C’est Bill Labov qui m’a initiée au concept de « corpus ». Le respect des données et des locuteurs
qui les fournissent a toujours été au cœur de sa démarche. Les connaissances que j’ai acquises
dans son célèbre cours LING 560 à l’Université de Pennsylvanie sous-tendent toutes les pratiques
de collecte et de traitement des données du Laboratoire de sociolinguistique de l’Université
d’Ottawa, ainsi que les cours de Dialectologie urbaine que nous donnons depuis lors. Mes efforts
dans ce domaine ont été immensément secondés, puis surpassés, par des générations d’étudiants
et associés brillants, engagés, enthousiastes et, surtout, extrêmement bien organisés ! Ils ont
grandement contribué à traduire les enseignements de Labov en méthodes chaque fois plus
performantes et efficaces. Si je peux me vanter du fait que nous parvenons à reproduire une
analyse des décennies plus tard, c’est entièrement grâce à eux. Je remercie Véronique Lessard et
Nathalie Dion pour leur aide précieuse avec la formulation française de cet article.
1. Anglais/igbo, anglais/tamoul, anglais/ukrainien, anglais/finnois, français/wolof, français/
fongbe, français/arabe tunisien, français/vietnamien/anglais.
2. (Pour n’en nommer que quelques-uns des plus récents, voir Barysevich (2012), Kastronic
(2016), Lealess (2014), Levey et al. (2013), McOrmond-Arenja (2020), Poplack (2018), Poplack et al.
(2019), Poplack et al. (2015, 2018, 2020) et Toth (2014)). Pour des références à d’autres publications
qui utilisent les corpus du Labo, consulter http://www.sociolinguistique.uottawa.ca/
publications.html.
3. Il s’agit de trois sous-corpus : Samaná English Corpus (21 locuteurs, 22 heures
d’enregistrements ; Poplack et Sankoff, 1987), African Nova-Scotian English Corpus (79 locuteurs,
181 heures d’enregistrements ; Poplack et Tagliamonte, 1991), Ex-Slave Recordings (11 locuteurs;
Bailey et al., 1991 ; Poplack et Tagliamonte, 1989).
4. Corpus du français parlé à Ottawa-Hull (120 locuteurs ; Poplack, 1989) ; Le français en contexte :
milieux scolaire et social (166 locuteurs ; Poplack, 2015) ; Quebec English Corpus (183 locuteurs ;
Poplack et al., 2006).
5. Les noms réels sont conservés dans un endroit sécurisé et confidentiel pendant la construction
du corpus, et sont détruits une fois l’anonymisation terminée.
6. Les codes entre parenthèses renvoient au nom du corpus, au numéro du locuteur et à l’adresse
de l’extrait dans le Quebec English Corpus (Poplack et al., 2006) en (1) et dans le African Nova Scotian
English Corpus (Poplack et Tagliamonte, 1991) en (2). Les exemples sont cités verbatim à partir des
enregistrements.
7. Les extraits en (1) et (2) fournissent des exemples de tels renvois.
RÉSUMÉS
Cet article détaille les principes et pratiques de gestion de données en vigueur au Laboratoire de
sociolinguistique de l’Université d’Ottawa (le Labo ; http://www.sociolinguistique.uottawa.ca/
laboratoire.html), centre qui abrite 19 importants corpus correspondant à des centaines d’heures
d’enregistrement de parler spontané. Notre propos s’inscrit dans le cadre de la sociolinguistique
variationniste et fournit un aperçu des méthodes éprouvées en matière de constitution de
corpus, qui comprend notamment la collecte, la transcription, l’annotation, le repérage, le
codage, et l’analyse des données. Nous abordons également la préservation et le cycle de vie des
données, et jetons un coup d’œil aux considérations déontologiques qui caractérisent la collecte
Corpus, 22 | 2021
25
This article details the data management principles and practices developed by the University of
Ottawa Sociolinguistics Lab (http://www.sociolinguistics.uottawa.ca/thelab.html), home to 19
major corpora representing hundreds of hours and millions of words of recorded everyday
speech. Couched within the variationist framework for linguistic analysis, it provides a practical
overview of tried-and-true methods for corpus construction, including data collection,
transcription, annotation, and citation, as well as data retrieval, coding, and analysis. It also
features observations on data preservation and data lifecycle, and discusses ethical
considerations involved in collecting and analyzing vernacular speech. It concludes with a
summary of the wide variety of linguistic applications to which properly managed spontaneous
speech data can be put.
INDEX
Keywords : Data management, Data collection, Corpus construction, Data transcription, Speech
data, Variationist sociolinguistics
Mots-clés : Gestion de données, Collecte de données, Constitution de corpus, Transcription de
données, Données de production orale, Sociolinguistique variationniste
AUTEUR
SHANA POPLACK
Université d’Ottawa
Corpus, 22 | 2021
26
AUTHOR'S NOTE
This research was supported by SSHRC research grants #435-2019-0640 40 ans de
changement linguistique à Montréal et à Welland: le rôle de l’individu et de la communauté
(M. Tremblay) and #412-2011-1005 Le français à la mesure d’un continent (F. Martineau).
We would like to thank our colleagues, France Martineau, Yves Frenette, and Paul-
André Linteau, as well as Raymond Mougeon for their contribution to this research
endeavor, our research assistants (Guillaume Beauchamp, Geneviève Gauthier, Philippe
Morneau), the participants at the conference 50 ans de linguistique sur corpus oraux (U. of
Orléans), NWAV48 2019 (U. Oregon) for their feedback, two anonymous reviewers and
the editors of the volume for their useful comments. Any remaining errors are entirely
our own.
1. Introduction
1 Sociolinguistic surveys conducted in Montréal since the early 1970s have contributed to
the description of linguistic variation in spoken French from the perspective of
apparent and real time. Longitudinal analyses of these corpora collected in three waves
—1971 (Sankoff et al 1976), 1984 (Thibault & Vincent 1990) and 1995 (Vincent et al.
1995)—led to major advances in understanding linguistic change in the community and
across the lifespan (Sankoff 2017, 2019).
Corpus, 22 | 2021
27
2 In the context of the project Le français à la mesure d’un continent, a team of researchers
put together the FRAN corpus which includes data representing French varieties
spoken in North America (Martineau & Séguin 2016). This article introduces one of the
components of the FRAN corpus: the Hochelaga-Maisonneuve variationist sub-corpus
(HOMA) collected in Montréal in 2012 (Blondeau, Frenette, Martineau & Tremblay
2012).
3 In section 2, we provide background information on previous Montréal French corpora
and explain the objectives prompting the collection of new data. In section 3, we
discuss the methodological choices regarding the composition of the Hochelaga-
Maisonneuve sub-corpus including the historical and demo-linguistic criteria that led
to the selection of this neighborhood. In section 4, we introduce the socially stratified
sample and criteria for participant selection, and detail the data collection protocols.
The conditions of access to the corpus and their limits are also discussed. Section 5 is
devoted to the treatment and analysis of the data with a focus on how technological
advances have changed the way we process and access it. Finally, in section 6, we
illustrate with two case studies the revival of research on linguistic variation made
possible by the Hochelaga-Maisonneuve sub-corpus. We first focus on variation in the
use of consequence markers over time. We then turn to a case of phonomorphological
variation in the use of the preposition dans.
5 In the 1970s, documenting local varieties of spoken French in Québec was a pressing
issue (Blondeau 2020). The first large sociolinguistic survey undertaken focused on the
variety of French spoken in Montréal and marked the development of the emerging
field of sociolinguistics (Labov 2006). Drawing on the work of Labov in New York (1966),
the Sankoff-Cedergren Corpus project (Sankoff et al. 1976) began in 1971. It involved
the large-scale collection of spoken data conducted by a multidisciplinary team. Their
main goal was to describe linguistic variation in Montréal French and discover the
ordered heterogeneity (Weinreich et al. 1968) at play at the community level. In the
researchers’ own words, the contribution of the Sankoff-Cedergren corpus was as
follows:
Nous voulions contribuer à une meilleure compréhension du français parlé au Québec en
considérant ses aspects propres non comme des erreurs ou aberrations ou encore en terme
de mélange non structuré d’anomalies grammaticales, mais en tant qu’éléments d’un
système cohérent partagé par tous les membres de la communauté (Sankoff D. et al. 1976:
88).
6 This first corpus was based on a socially constructed sample of Montréal’s Francophone
population. It was comprised of 120 recorded interviews, followed by a reading task. All
participants were native French speakers born and raised in Montréal and selected via
Corpus, 22 | 2021
28
9 Thirteen years later, a longitudinal project was launched by Thibault and Vincent, two
former doctoral students of G. Sankoff, in collaboration with D. Sankoff. It led to the
collection of the Montréal-1984 corpus (Thibault & Vincent 1990). The goals were to
verify how changes postulated according to the apparent-time model were validated in
real-time and to answer questions related to interactional sociolinguistics and
discourse analysis.
10 The team succeeded in tracing and re-interviewing 50% (n=60) of the initial
participants to the 1971 study, despite the fact that a second wave of data collection
had not been part of the initial 1971 study-design (Daveluy & Laforest 1994). To ensure
balanced representation across age groups, 12 interviews were also conducted with
new participants between the ages of 15 and 25. In total, the corpus was comprised of
72 interviews. The data collection protocol was similar to that of 1971 with the
exception of the reading task, which was discarded in 1984.
11 This kind of follow-up with a community after an initial sociolinguistic survey was an
innovative direction in sociolinguistics (see Trudgill 1988 for English and Cedergren
1988 for Spanish). Although Thibault & Vincent (1990) recognized that the reduction in
size of the 1984 sample resulted in some loss of representativity—particularly with
regard to the lower socio-economic status (SES)—the corpus was innovative in that it
offered two avenues for monitoring language change over time: community trend
follow-up and panel study (Sankoff 2017). For the sixty participants who were re-
interviewed, it was possible to follow changes in individuals across a span of 13 years. It
Corpus, 22 | 2021
29
was also possible to compare a sample of the community at Time 1 (120 speakers in
1971) with Time 2 (72 speakers in 1984) in order to identify community trends.
12 This re-examination of community speech patterns provided a better understanding of
the relationship between community change and age-grading phenomena; a
relationship that apparent-time cannot capture (Labov 1994). This distinction was well
illustrated by a real-time analysis of the use of discourse markers over time (1971-1984)
using both the trend and the panel components (Thibault & Daveluy 1989). In
particular, the use of the consequence marker alors ‘then’—initially considered to be
part of a change in progress at the community level due to its association with older
speakers (Dessurault-Dober 1973)—was argued to be associated instead with an age-
grading phenomenon.
13 In sum, research based on this second wave of Montréal data had a significant impact
on real-time sociolinguistic research (Sankoff & Blondeau 2007; Sankoff 2019). The
methodological distinction between trend study and panel study provided a better
understanding of the dynamics of language change both at the community level and at
the individual level. This distinction was impossible to discern based on a strict analysis
of the effect of age on synchronic variation and has contributed to refinements in the
theory of language variation and change (Sankoff 2017).
14 In 1995, Vincent and her collaborators returned to the Montréal community to compile
a third corpus. Smaller in size, the Montreal 1995 corpus was comprised of
sociolinguistic interviews with twelve of the participants interviewed in both 1971 and
1984. In addition, the sample included two of the twelve young speakers who were
added to the Montréal 1984 corpus (Vincent et al. 1995). These fourteen 1995
sociolinguistic interviews were similar in form and content to those conducted in 1971
and 1984. Additionally, the 1995 protocol included recordings of spontaneous speech of
four participants in their respective homes, giving access to a variety of speech events
involving the participant and other family members or friends without the presence of
an interviewer. Despite the reduced sample size, the longitudinal nature of this corpus
allowed for the examination of intra-individual variation over time, from 1971 to 1995.
Moreover, the situational range of the data collected broadened the potential of the
analyses from an interactional perspective.
15 The research based on the Montréal corpora has played a major role in the
development of the research stream on language change over the lifespan (Buchstaller
& Wagner 2017). Until the 1990s, the phenomena related to the sociolinguistic
development of individuals over the lifespan was under-explored (Sankoff 2019), and
thus the 1995 Montréal French data contributed to a better understanding of this
dimension. Although less suitable for the identification of community trends, the
Montréal 1995 corpus did provide an opportunity to examine intra-individual variation
over time and its social significance. Indeed, it extended the time scope for the study of
the sociolinguistic positioning of the individual over time for various linguistic
variables (Sankoff et al. 2001; Sankoff 2017; Blondeau 2001; Blondeau et al. 2018).
Studies of intra-individual variation over time remain rare for the French language.
Apart from the Montréal project, two corpora on French varieties include a similar
longitudinal dimension. In Welland, Ontario, Raymond Mougeon has been documenting
community and lifespan change (Beniak et al. 1985; Martineau & Mougeon 2013).
Corpus, 22 | 2021
30
3. Montréal 2012
3.1. The need for a new corpus
16 The 20th century corpora were successful in their attempts to model change both in
progress at the community level (apparent- and real-time) and across the lifespan
(real-time). As demonstrated above, the three-pronged longitudinal study provided a
unique opportunity to describe Montréal French over time. Research that developed
out of these three milestone corpora contributed to the theory of language change, in
particular towards the establishment of a better understanding of the relationship
between age-grading and generational change at the community level (Blondeau 2011;
Buchstaller & Wagner 2017; Sankoff 2019; Sankoff & Blondeau 2007; Thibault & Daveluy
1989; Wagner & Sankoff 2011).
17 However, because these three corpora were not initially designed to model community
change in real-time, the 1984 and 1995 corpora did not allow for a perfect comparison
with the 1971 corpus. The trend comparisons between 1971 and 1984 offered a
relatively short window of 13 years for the possible identification of linguistic change.
Although a longer period of 24 years elapsed between 1971 and 1995 corpora, the small
sample size of the 1995 corpus (only 12 were interviewed in both 1971 and 1995) made
any comparison with the much larger 1971 corpus difficult. The 1995 corpus was also
limited in its potential for the identification of community trends as it was composed of
data from the same speakers surveyed in previous corpora. There was also an over-
representation of the middle and upper classes in the 1984 and 1995 corpora.
18 It was therefore clear that a new stratified corpus was needed to observe community
changes in real time over a wider time span. Such a corpus would allow to further
verify the hypothesis that linguistic and social synchronic variation was the basis for
diachronic variation (Labov 1994). By comparing community linguistic dynamics from
1971 and 2012, we can further test the apparent-time model to see if its predictions can
be confirmed in real time.
19 While the greater Montréal area still bears the evidence of the traditional split between
Francophone and Anglophone communities along its eastern and western parts, most
neighborhoods are increasingly culturally and socially diverse. This poses a challenge
for any comparison with previous corpora assembled at a time when Montréal’s
Francophone neighborhoods were more homogeneous. Over the last forty years, the
social configuration of Montréal has evolved due to the effects of globalization and the
implementation of the French Language Charter (Bill 101) in 1976. The latter measure
has reduced the presence of English, increased the use of French in the workplace and
its visibility in the linguistic landscape, and required new immigrants to Québec to send
their children to Francophone schools. At the same time, an influx of more affluent
residents into previously working class neighborhoods has produced an effect of
Corpus, 22 | 2021
31
gentrification. In the 2010s, neighborhoods are less socially and culturally homogenous
than they once were. The 1971 sample selection procedure cannot be used because
neighborhoods can no longer be selected on the assumption that they reflect a
particular social class. In the 21st century, the sample selection procedure must take
into account both the cultural and social diversification of neighborhoods.
20 In the context of the project Le français à la mesure d’un continent: un patrimoine en
partage (Martineau et al. 2011-2018) (continent.uottawa.ca), a multidisciplinary team
explored various Francophone communities across North America (Martineau & Seguin
2016). New fieldwork was undertaken in order to explore the situation of 21 st century
Montréal and to take into account how these social changes affected language practices
in the Francophone community. A neighborhood-based approach was adopted, and
sub-corpora were collected in two Francophone neighborhoods of Montréal:
Hochelaga-Maisonneuve and St-Michel-Montréal-Nord.3 In this article, we focus on the
Hochelaga-Maisonneuve sub-corpus (Blondeau et al. 2012).
22 Initially, the team planned for a sample of 48 speakers selected on the basis of age,
socio-economic status and gender. Roughly an equal number of male and female
participants of diverse age and socio-economic status (SES) were intended in order to
construct a speech corpus suitable for the sociolinguistic analysis of language variation.
A stratified sample scheme was initially devised: 48 participants (24 M and 24 F), from
4 age groups (emerging adults 18-25, young adults 26-39, older adults 40-60, and mature
adults 61+), and six socioeconomic backgrounds. The categorization of speakers
according to SES was based on the occupational history of the speakers or their
Corpus, 22 | 2021
32
Table 1. Sample
SES 4 SES 5
SES 1 SES 2
SES 3 White- Blue-
Liberal Bachelor SES 6
Technician/ collar/ collar/
profession/ Degree / Unemployed
Supervisor Office manual
Business Person Intellectual
worker worker
F M F M F M F M F M F M
Emerging
1 1 1 1 1 1 1 1 1 2 1 1
Adults 18-25
Younger
1 1 1 1 1 1 1 1 1 1 1 1
Adults 26-39
Older Adults
1 1 2 1 1 1 1 1 0 2 1 1
40-60
Mature
0 0 0 1 0 4 1 1 2 2 2 0
Adults 61+
Corpus, 22 | 2021
33
the 1971 and 1984 interviews, some of the topics covered in 2012-2015 reflected
changes in the cultural and socioeconomic context of Montréal as well as the local
context of the neighborhood. The interviews lasted between one and two hours and
were usually conducted in the home of the participant.
5. Data management
5.1. Transcription
5.2. Annotation
26 The audio-alignment of interviews allows for easy tracking and annotation of relevant
occurrences. Annotation directly under the segment means that it is possible to listen
to the interview without having to search for the matching segment in a separate audio
file. This alignment also allows for on-going modification. In particular, Elan can be
used to codify various types of linguistic information, which can then be extracted and
analyzed. The information can be codified according to a predetermined scheme on
individual tiers, simplifying the subsequent linguistic analyses as the information is
wellorganized in a unique environment.
6. Illustration
27 This section illustrates the advantages of the corpus with its sound-text aligned
transcription and dynamic annotation in the renewal of the questioning of linguistic
variation. We first discuss variation in the use of the consequence markers alors, donc,
and (ça) fait que. This variable is involved in a vigorous change in progress at the
community level. We then turn to preposition-determiner contraction, a phenomenon
that is losing momentum in Montréal French.
Corpus, 22 | 2021
34
Corpus, 22 | 2021
35
34 While standard French allows P+Det fusion only in the context of the prepositions de
“of” and à ‘to’, Québec French extends this phenomenon to the prepositions dans “in”
and sur ‘on’, as shown in (3) and (4).
(3) a. Oui je me rappelle avoir patiné dans la [dɑ̃ :] rue. (HOMA_004M25)
‘I remember skating in the street.’
b. J’étais bon dans les [dɛ̃ :] dictées. (HOMA_010M31)
‘I was good at dictation.’
(4) a. Sur la [sa:] rue Bourbonnière là c’est vraiment des vieux logements .
(HOMA_016F44)
‘On Bourbonnière Street, it’s really old housing’
b. On disait que les gens en campagne ils étaient un peu en retard sur les [se:z] autres.
(HOMA_002F52)
‘We used to say that people in the countryside they were a little behind the others.’
35 While many have focused on describing this phenomenon (Baronian 2006, Dumas 1974,
Walker 1984), no quantitative study had yet attempted to measure its full extent.
Alignment of the audio files with transcriptions allowed us to fill this gap.
36 Our data come from a sub-corpus of 38 semi-directed interviews of the corpus. We
present the results for the preposition dans combined with the determiners la, les, un
and une . Each P+DET combination was classified as non-contracted or contracted
(vernacular) according to its phonological form. In addition, each occurrence was
coded according to linguistic (definiteness and gender of the determiners) and
extralinguistic (gender, age, socio-economic status) factors.
37 Our multivariate analysis was based on 1296 occurrences. Table 2 provides the
distribution of the non-contracted variant for the determiners la, les, un and une 7. The
overall results show a much higher rate of vernacular forms with the definite
determiners la and les (grammatical gender was not significant).
38 Turning now to the social dimension of the variation, the three factor groups
considered were significant (p<.05). Figure 1 shows the effect of extralinguistic factors
on the choice of the non-contracted variant. SES plays the most important role in the
variation, followed by age and gender. The non-contracted variant is strongly
disfavored by older speakers and those with a low SES; the non-contracted variant is
favored by younger speakers and women.
Corpus, 22 | 2021
36
Figure 1. Influence of extralinguistic factors on the use of non-contracted vs. contracted dans
39 In light of the apparent-time model, the P+DET fusion of the preposition dans—although
still relatively frequent—would be a regressive phenomenon in Montréal French. The
variable is characterized by a regular age distribution and the analysis suggests a shift
towards more standard forms; older Montrealers favor vernacular forms, while
younger Montrealers disfavor these variants in a shift that appears to be led by women.
Conclusion
40 This article introduced the methodological choices that guided the design of the
Hochelaga-Maisonnevue corpus, a data set that complements previous sociolinguistic
corpora and represents a new milestone for the study of sociolinguistic variation in
Montréal French. This corpus collected in 2012 connects in many ways with previous
corpora collected in 1971, 1984, and 1995. It is therefore a valuable resource for the
microdiachronic study of spoken French, particularly with respect to community
trends spanning 1971 to 2012.
41 After providing information on previously available sociolinguistic corpora, we
discussed the historical and demo-linguistic information that led to the choice of the
Hochelaga-Maisonneuve neighborhood. The presentation of the sample showed how
social stratification across age, gender and SES ensured comparability with previous
Montréal French corpora. Additionally, we provided information on data collection
protocols and type of sociolinguistic interview, which are another guarantee of
comparability. One notable difference with previous Montréal French corpora is the
methodological advances in transcription and annotation. As demonstrated,
transcription softwares allowing dynamic annotations and audio-aligned transcriptions
provide greater flexibility and precision in the analysis of the dynamics of
sociolinguistic variation.
42 A study of two sociolinguistic variables involved in community changes in progress
highlighted the potential for new analyses. We summarized the real-time analysis on
lexical variation in the use of consequence markers between 1971 and 2012 and
compared it with a 2012 apparent-time analysis of the sociophonetic variation. In
addition, we examined in apparent time the phonomorphological variation in the use
of preposition dans ‘in’ when followed by a determiner and demonstrated a case of de-
vernacularisation.
43 In sum, the characteristics of the Hochelaga-Maisonneuve corpus ensure comparability
with previous studies and allow for a better understanding of the dynamics of change
in real- and apparent-time. Likewise, this corpus allows us to revisit questions
surrounding well-studied sociolinguistic variables, and to investigate variables that
have not yet been the subject of quantitative studies.
Corpus, 22 | 2021
37
BIBLIOGRAPHY
Abouda L. & Baude O. (2007). “Constituer et exploiter un grand corpus oral, choix et enjeux
théoriques: le cas des ESLO”, in Actes du colloque Corpus en lettres et sciences sociales, Des documents
numériques à l’interprétation. Colloque d’Albi, Langages et signification, juin 2006. Toulouse: Presses
universitaires de Toulouse, 161-168.
Baude O. & Dugua C. (2016). “Les ESLO, du portrait sonore au paysage digital”, Corpus 15.
Beniak É., Mougeon R. & Valois D. (1985). Contact des langues et changement linguistique: étude
sociolinguistique du français parlé à Welland. Québec: Centre International de Recherche sur le
Bilinguisme.
Blondeau H. (2011). Cet “autres” qui nous distingue Tendances communautaires et parcours individuels
dans le système des pronoms en français québécois. Québec: Presses de l’Université Laval.
Blondeau H. (2020). “La sociolinguistique au Québec des années 1960 à 2000”, in G. Dostie (ed.),
Combats pour la linguistique au Québec. Courants, théories, domaines (1960-2000). Bruxelles: Peter Lang,
251-278.
Blondeau H., Mougeon R. & Tremblay M. (2018). “Variation and change in real time in two
French-Canadian communities”, Paper presented at Discourse-pragmatic variation and change
(DiPVaC) 4, University of Helsinki, June 2018, Helsinki.
Blondeau H., Mougeon R. & Tremblay M. (2019). “Analyse comparative de ça fait que, alors, donc et
so à Montréal et à Welland: mutations sociales, convergences, divergences en français
laurentien”. Journal of French Language Studies 29: 35-65.
Blondeau H. & Tremblay M. (2012). “Social mixing in HOMA: Young urban Francophones and
language variation”, Paper presented at the Sociolinguistics Symposium 19, Freie Universität
Berlin, June 22-24, Berlin.
Blondeau H. & Tremblay M. (2016). “Le traditionnel et l’émergent. L’apport de jeunes montréalais
issus de l’immigration au français vernaculaire”, in H. Blondeau & W. Remysen (eds.), Special
Issue: Du local au global: pratiques et idéologies linguistiques en contexte montréalais, Cahiers
Internationaux de Sociolinguistique 10: 19-45.
Blondeau H., Frenette Y., Martineau F. & Tremblay M. (dir.) (2012). Sous-corpus variationniste de
Hochelaga-Maisonneuve du Corpus FRAN.
Bourdieu P. & Boltanski L. (1975). “Le fétichisme de la langue”, Actes de la recherche en sciences
sociales 4: 2-32.
Buchstaller I. & Wagner S. E. (2018). “Introduction. Using panel data in the sociolinguistic study
of variation and change”, in S. E. Wagner & I. Buchstaller (eds.), Panel Studies of variation and
change. New York: Routledge, 1-18.
Corpus, 22 | 2021
38
Clermont J. & Cedergren H. (1979). “Les R de ma mère sont perdus dans l’air”, in P. Thibault (ed.),
Le français parlé. Études sociolinguistiques. Edmonton, Alberta: Linguistic Research, 13-28.
Daveluy M. (éd.) (1994). “Thematic section for the tenth anniversary of the Montreal 1984 corpus:
Spoken French, a retrospective”, Culture 14 (2); 15 (1) Montréal: Société canadienne
d’anthropologie.
Dumas D. (1974). “La fusion vocalique en français québécois”, Montréal Working Papers in
Linguistics 2, Montreal: McGill University, Université de Montréal, Université du Québec à
Montréal.
Labov W. (2006 [1966]). The Social Stratification of English in New York City. Washington, D.C.: Center
for Applied Linguistics.
Labov W. (1972). Language in the Inner City: Studies in the Black English Vernacular. Philadelphie:
University of Pennsylvania Press.
Labov W. (1994). Principles of Linguistic Change. Volume I: Internal Factors, Oxford and Malden:
Blackwell.
Linteau P.-A. (1981). Maisonneuve ou comment des promoteurs fabriquent une ville 1883-1918. Montréal:
Boréal.
Martineau F. & Séguin M.-C. (2016). “Le corpus FRAN: Réseaux et maillages en Amérique
française”, Corpus 15.
Rousseau P. & Sankoff D. (1978). “Advances in variable rule methodology”, in D. Sankoff (ed.),
Linguistic Variation, Models and methods, New York: Academic Press, 57-69.
Sankoff D. & Laberge S. (1978). “The linguistic market and the statistical explanation of
variability”, in D. Sankoff (ed.), Linguistic Variation, Models and methods. New York: Academic Press,
239-250.
Sankoff D., Sankoff G., Laberg S. & Topham M. (1976). “Méthodes d’échantillonnage et utilisation
de l’ordinateur dans l’étude de la variation grammaticale”, Cahiers de linguistique de l’Université du
Québec 6: 85-125.
Sankoff G. (2017). “Before there were corpora: The evolution of the Montréal French project as a
longitudinal study”, in S. Wagner & I. Buchstaller (dir.), Panel studies of language variation and
Change, New York, NY: Routledge, 21-52.
Sankoff G. (2019). “Language change across the lifespan: Three trajectory types” Language 62(2):
197-229.
Sankoff G. & Blondeau H. (2007). “Language change across the lifespan: /r/ in Montréal Frenc”.
Language 83(3): 560-588.
Sankoff G. Blondeau H. & Charity A. (2001). “Individual roles in a real-time change: Montreal R- r
1947-1995”, in H. Van de Velde & R. van Hout (eds.), r-atics: Sociolinguistic, phonetic and phonological
characteristics of /r/, Brussels, Belgique: ILVP, 141-157.
Corpus, 22 | 2021
39
Tagliamonte S. (2015). Making waves: The story of variationist sociolinguistics. Malden, MA: John
Wiley & Sons.
Thibault P. & Daveluy M. (1989). “Quelques traces du passage du temps dans le parler des
Montréalais, 1971-1984”, Language Variation and Change, 1(1): 19-45.
Trudgill P. (1988). “Norwich revisited: recent changes in an English urban dialect”, English World
Wide 9: 33-49.
Vincent D. Laforest M. & Martel G. (1995). “Le corpus de Montréal 1995: adaptation de la méthode
d’enquête sociolinguistique pour l’analyse conversationnelle”, Dialangue 6: 29-46.
Wagner S. E. & Sankoff G. (2011). “Age grading in the Montréal French inflected future”, Language
Variation and Change 23: 275-313.
Walker D. C. (1984). The Pronunciation of Canadian French. Ottawa: University of Ottawa Press.
Weinreich U., Labov W. & Herzog M. (1968). “Empirical foundations for a theory of language
change”, in W. Lehmann & Y. Malkiel (eds.), Directions for historical linguistics: A symposium. Austin:
University of Texas Press.
NOTES
1. The sample universe was based on the 188 Census tracts with a minimum of 64% of
Francophones.
2. Inspired by Bourdieu’s theory of sociosymbolic market dynamics (Bourdieu & Boltanski 1975),
this numerical index was developed to serve as an independent variable to establish the
relationship between linguistic and social variation. This index, constructed a posteriori, proved
to be more revealing than the simple use of social origin (Sankoff D. 1980).
3. Information on the variationist corpus collected in St-Michel-Montréal-Nord (Blondeau et al.
2012) is available in Blondeau & Tremblay (2016).
4. In the borough of Mercier-Hochelaga-Maisonneuve, among the population that declared a
single mother tongue, individuals with French as their mother tongue are in the vast majority
(79%) (Montréal en statistiques 2011). Moreover, there are more individuals who communicate in
French at home than individuals with French as their mother tongue. Therefore, French is
gaining relative ground over other languages as the language of communication in the home in
this neighborhood. In comparison, 54.3% of the entire Montreal population reported speaking
mostly French at home, 25.3% mostly English and the remaining 20.4% mostly other languages. It
is worth noting that in the greater Montréal, Francophones represent 69.9% and in the province
of Québec 85.2% of the population. Data on knowledge of official languages (specifically the
ability to hold a conversation in the official languages) reveal that in Mercier-Hochelaga-
Maisonneuve area, of the individuals whose mother tongue is French, 63% can only converse in
French, and 37% can converse in both French and English.
5. In the 1971 data collection, most of the speakers interviewed in this area of Montréal
originated from Hochelaga (the western part of the neighborhood) and were classified at the
lower end of the social ladder.
Corpus, 22 | 2021
40
6. For comparability purposes, these SES categories were based on the Montréal-1984
categorization scheme (Thibault & Vincent 1990).
7. In this analysis, the category “non-contracted” for indefinites includes both [dɑ̃ z] (with
liaison) and [dɑ̃ ] (without liaison). In this category, the variant with liaison was used 87% of the
time.
ABSTRACTS
This article introduces the 2012 Montréal FRAN-HOMA corpus, collected in the Francophone
neighborhood of Hochelaga-Maisonneuve, and how it relates to the heritage corpora of Montréal
French collected since the 1970s. We discuss the methodological choices made regarding the
composition of this corpus including the historical and demo-linguistic information that led to
the selection of the Hochelaga-Maisonneuve neighborhood for fieldwork. A presentation of the
socially stratified sample and criteria for participant selection is followed by a discussion on data
collection and the sociolinguistic interview. After a brief review of the transcription protocol and
the advantages of audio-aligned transcription, we provide two illustrations of the revival of
research on linguistic variation made possible by this new corpus.
Cet article présente le corpus FRAN-HOMA de Montréal 2012 recueilli dans le quartier
francophone d’Hochelaga-Maisonneuve, et son rapport avec les corpus patrimoniaux de français
montréalais recueillis depuis les années 1970. Nous discutons des choix méthodologiques
effectués concernant la composition de ce corpus, y compris les informations historiques et
démo-linguistiques qui ont conduit à la sélection d’Hochelaga-Maisonneuve comme site pour le
travail de terrain. Une présentation de l’échantillon socialement stratifié et des critères de
sélection des participants est suivie d’une discussion sur la collecte des données et l’entretien
sociolinguistique. Après un bref exposé sur le protocole de transcription et les avantages de la
transcription audio-alignée, nous fournissons deux illustrations de la relance de la recherche sur
la variation linguistique rendue possible par ce nouveau corpus.
INDEX
Mots-clés: Variation, Changement, Corpus, Temps apparent, Temps réel, français québécois
Keywords: Variation, Change, Corpus, Apparent Time, Real Time, Québec French
AUTHORS
HÉLÈNE BLONDEAU
University of Florida
MIREILLE TREMBLAY
Université de Montréal
Corpus, 22 | 2021
41
ANNE BERTRAND
University of British Columbia
ELIZABETH MICHEL
Université de Montréal
Corpus, 22 | 2021
42
Variation sociolinguistique et
réseau social :
constitution et traitement d’un
corpus de données orales massives1
Aurélie Nardy, Hélène Bouchet, Isabelle Rousset, Loïc Liégeois, Laurence
Buson, Céline Dugua et Jean-Pierre Chevrot
Corpus, 22 | 2021
43
[…] the network concept was developed for the very purpose for which we require
it now – to explain individual behaviour of various kinds which cannot be
accounted for in terms of corporate group membership (Milroy, 1987 : 135).
Une approche de la variation sociolinguistique à partir de l’étude du réseau social
présente plusieurs avantages. Elle permet à la fois d’étudier des petits groupes de
locuteurs qui ne sont pas opposables sur des critères macrosociologiques et
d’appréhender la variation interindividuelle plutôt que la variation entre des groupes
de locuteurs établis sur la base de catégories sociales prédéterminées (Milroy, 2002),
tout en cernant la dynamique sous-jacente aux comportements langagiers variables des
locuteurs. Par exemple, elle permet de rendre compte des patrons de variation
observés chez les hommes et les femmes par des réseaux de socialisation différenciés.
Les hommes, dont les usages sont plus vernaculaires, contractent généralement des
liens plus denses et plus multiplexes dans le réseau local que les femmes qui
manifestent des usages plus standards (Milroy, 1987 ; Labov, 2001 ; Chambers, 2009 ;
Milroy & Llamas, 2013). Un dernier avantage, que nous reprenons à Labov (2001), est le
fait que l’étude des usages langagiers des locuteurs au sein de leur réseau social permet
de recueillir leurs productions dans leurs manifestations quotidiennes (conversations
avec la famille, les amis, les collègues de travail). Cette approche plus
microsociologique n’est pas incompatible avec une approche plus macrosociologique
opposant différentes catégories de locuteurs. Il s’agit de deux niveaux d’analyse
différents mais complémentaires puisque les réseaux sociaux des locuteurs ne sont pas
indépendants de leur environnement social plus global qui lui-même affecte leur
comportement langagier individuel. Notre position rejoint d’ailleurs celle de Milroy &
Gordon (2003) qui avancent que l’examen des usages dans leurs conditions locales de
production permet de comprendre les corrélations entre langage et catégories sociales
plus globales.
Le réseau social d’un individu est défini comme étant l’ensemble des relations qu’il
entretient avec les autres. Analyser ce réseau consiste à étudier les différentes
structures et propriétés de ces relations (Milroy, 2002). Dans le cadre de l’approche par
le réseau social en sociolinguistique, différents indicateurs ont été considérés ; les trois
principaux étant des indicateurs sur les liens dans le réseau – densité et multiplexité
(Milroy, 1987 ; Biichlé, 2018) –, des indicateurs d’intégration sociale (Milroy, 1987 ;
Auer, Barden & Grosskopf, 2000 ; Kerswill & Williams, 2000 ; Beaulieu & Cichocki, 2002)
et des indicateurs de statut sociométrique (Labov, 1972 ; Cheshire, 1982 ; Russell, 1982).
Quels que soit la méthodologie adoptée et l’indice de réseau social choisi, les résultats
des études menées chez l’adulte et l’adolescent aboutissent à une conclusion
semblable : les liens forts renforcent l’usage des formes locales. À l’inverse, les liens
faibles favoriseraient le changement linguistique.
Les enquêtes traditionnellement menées en sociolinguistique se sont appuyées sur les
déclarations des enquêtés en saisissant les réseaux personnels des individus auprès
d’échantillons ne dépassant pas la cinquantaine de participants. Cette approche
égocentrée du réseau permet de rendre compte des influences sociales reçues par les
individus mais elle ne permet pas de saisir l’influence réciproque des individus dans le
réseau, ni de préserver l’écologie globale des liens sociaux au sein d’une communauté
entière.
Corpus, 22 | 2021
44
2. Le projet DyLNet
En vue de dépasser ces limites, dans le projet DyLNet 2 – Dynamiques langagières,
apprentissages linguistiques et sociabilité à l’école maternelle : apport des capteurs de proximité
pour le recueil de données massives – nous avons mis en place une démarche empirique
fondée sur le recueil de données massives, profondes et longitudinales 3 (Nardy, Fleury,
Chevrot, Karsai, Buson, Bianco, Rousset, Dugua, Liégeois, Barbu, Crespelle, Busson, Léo,
Bouchet & Dai, 2016). Il s’agit de cerner l’ensemble des relations dans une communauté
– une école maternelle – au travers d’une approche en termes de réseau complet qui
permet de conserver l’écologie des liens sociaux et de capturer la réciprocité des
influences au travers du recueil dense, exhaustif et objectif des interactions sociales.
Le choix de l’école maternelle est un point de vue particulier mais il présente plusieurs
avantages. Premièrement, ce terrain donne l’occasion d’étudier un phénomène rare : la
formation d’un réseau social. Dans la vie de tous les jours, il est rare qu’un ensemble
d’individus, qui ne se fréquentaient pas auparavant, se retrouvent régulièrement dans
un même lieu dans lequel ils sont amenés à interagir et à tisser des liens.
Deuxièmement, en France, la quasi-totalité des enfants de 3-5 ans est scolarisée. Du fait
de cette généralisation de la scolarisation précoce et de la quantité de temps passée à
l’école maternelle (24h par semaine, 864h par an), cette communauté est considérée
comme une unité sociale signifiante dans les cultures occidentales (Hartup, 1984).
Troisièmement, ce lieu permet d’observer la formation des réseaux affinitaires chez des
individus dont la sociabilité est « neuve », les enfants entrant à l’école maternelle avec
une expérience des pairs souvent limitée (à l’exception de ceux gardés en crèche ou
faisant partie d’une fratrie). Contrairement au voisinage ou à la famille, la scolarisation
met les enfants en position d’opérer des choix parmi l’abondance et la diversité des
relations possibles et ce, souvent, pour la première fois de leur vie (Schaefer et al. 2010 ;
Martin et al., 2005). Quatrièmement, sur le plan développemental, la tranche d’âge
3-5 ans marque l’émergence des relations sociales avec les pairs du fait des
modifications de leurs habiletés sociales et cognitives. C’est pendant cette période que
les jeunes enfants passent d’une tendance à jouer seul ou à côté des autres à la mise en
œuvre de jeux avec autrui accompagnés de comportements sociaux de recherche
d’affiliation et d’engagement avec les pairs (Barbu 2003 ; Rubin et al., 2006). Par rapport
aux tout-petits, les enfants d’âge de maternelle affichent des réseaux plus grands, plus
denses et plus organisés manifestant des amitiés réciproques avec des pairs particuliers
plus stables (Johnson et al., 1997 ; Strayer & Santos, 1996 ; Ladd, 1990). Finalement, sur
un plan méthodologique, l’école ou la classe sont des collectifs dont les contours sont
définis de manière exogène (Butts, 2008) par la frontière spatiale de l’institution et le
temps scolaire (et non par les individus eux-mêmes) (Almquist, 2011). Ainsi, pour toutes
ces raisons, la période de scolarisation en maternelle apparaît comme une occasion
unique d’étudier la dynamique du développement interactionnel social et langagier
précoce (Martin et al., 2005).
Puisque les individus ne sont pas uniquement des réceptacles des processus de
diffusion/circulation linguistique dans le réseau mais sont aussi des agents de ces
processus qui possèdent des caractéristiques qui leur sont propres, nous disposons
pour chacun d’eux d’informations sociocognitives, linguistiques et
sociodémographiques. Enfin, les données longitudinales nous permettent de suivre
Corpus, 22 | 2021
45
Afin de recueillir les usages langagiers des participants durant tous leurs déplacements
dans l’enceinte de l’école, nous avons opté pour un dispositif d’enregistrement
embarqué que nous avons conçu afin qu’il satisfasse à la fois aux spécificités de notre
terrain d’enquête et à nos besoins pour la recherche. La majorité des participants sont
de jeunes enfants (âgés de 2 ans et demi à 6 ans et demi) qui sont enregistrés en continu
une semaine par mois lors de leurs différentes activités quotidiennes à l’école (classe,
cour de récréation, sport). Le dispositif d’enregistrement devait donc ne pas gêner ceux
qui le portent et répondre à des exigences d’innocuité et de facilité d’équipement. Dans
le même temps, il devait inclure une capacité de stockage suffisante (24 heures
d’enregistrement chaque semaine), satisfaire des critères de qualité des signaux
enregistrés et enfin permettre leur horodatage.
En partenariat avec une entreprise de la région Auvergne-Rhône-Alpes, nous avons
développé des boîtiers de 58,15 x 50 x 15 mm (hauteur x largeur x profondeur) portés
Corpus, 22 | 2021
46
au col grâce à une pince bretelle qui, en plus d’enregistrer toutes les 5 secondes les
proximités entre individus, incluent deux microphones sur la face avant (cf. Figures 1
et 2).
Les signaux recueillis sont enregistrés au format .wav (encodage 16-bit signed PCM,
stéréo, 32kHz) sur une carte SD de 32 gigas. Par ailleurs, le système inclut un dispositif
d’horodatage.
Corpus, 22 | 2021
47
génère des fichiers d’une durée d’une heure maximum. Par exemple, pour une matinée,
nous obtenons 4 fichiers : 8h34-9h, 9h-10h, 10h-11h, 11h-11h18. Pour chacun de ces
fichiers, nous disposons de différentes versions : originales et post-traitées.
Concernant les versions stéréo originales, elles se présentent d’une part au format .wav
(version à partir de laquelle se font les transcriptions) et d’autre part au format .flac
(format de compression sans perte de qualité pour le stockage et la conservation 6).
À partir de la version stéréo originale, un post-traitement automatique des signaux est
appliqué par un filtrage spatial (beamforming) réalisé sur la base du décalage physique
entre les deux micros intégrés à chaque capteur. La figure 2, ci-après, illustre le
principe général de ce post-traitement automatique des signaux.
Comme l’illustre la photo sur la Figure 2, lorsque le porteur du boîtier parle, sa voix
arrive d’abord au micro 1 (plus proche de sa bouche) puis quelques millièmes de
secondes plus tard au micro 2. Les autres sons environnants (autres que ceux de la voix
du porteur) arrivent quant à eux plus ou moins en simultané aux 2 micros ou avec un
décalage différent de celui suscité par la voix du porteur. Dans le cas de la voix du
porteur, le post-traitement aligne les signaux identiques reçus par les 2 micros en
décalé (ce décalage est maîtrisé puisque nous connaissons la distance exacte entre les
deux micros). Ensuite, les signaux reçus par le micro 1 et le micro 2 sont sommés pour
créer une voie mono qui permet de générer 2 versions post-traitées des fichiers
originaux :
• une version MASKED dans laquelle seuls les segments audio identifiés par le post-traitement
comme émanant du porteur du capteur sont présents, le reste des segments correspondant
aux bruits environnants étant remplacés par du silence. Ainsi, la version MASKED conserve le
décours temporel de l’enregistrement ;
Corpus, 22 | 2021
48
• une version CUT dans laquelle les segments identifiés comme parole du porteur sont mis
bout à bout.
Ce post-traitement automatique, qui dépend en grande partie de la position du locuteur
par rapport aux micros du capteur, n’est pas parfait : certaines prises de parole du
porteur peuvent ne pas être détectées ou certains bruits, comme le frottement du
boîtier par exemple, peuvent être détectés. Il est toutefois précieux pour deux raisons
principales. Premièrement, il est utile lors de la sélection des fichiers audio à transcrire
puisque le ratio entre la durée du fichier stéréo original et celle du fichier CUT
correspondant permet d’avoir une idée approximative du temps de parole du porteur
sur la durée totale du fichier. Deuxièmement, il est utile lors de la phase de
transcription pour cibler la voix du porteur. Sur la version MASKED, un script 7 qui
segmente le signal en silence/parole est lancé depuis PRAAT (Boersma & Weenink,
2013). À l’issue de ce processus, nous récoltons un fichier .TextGrid qui contient les
temps de silence et de parole. Ce fichier est ensuite ouvert dans le logiciel de
transcription alignée ELAN (Wittenburg, Brugman, Russel, Klassmann & Sloetjes, 2006)
avec le fichier audio stéréo original, affichant ainsi les segments temporels qui
indiquent au transcripteur les passages lors desquels le porteur prend la parole.
Figure 3. Vue d’ELAN avec les bornes placées automatiquement et la grille d’annotation
Lors de cette 1re étape, sa tâche est d’écouter les segments repérés par le post-
traitement automatique présenté plus haut, de les ajuster au signal et de procéder à
l’annotation de différents éléments contextuels nécessaires à l’étude de la variation tels
Corpus, 22 | 2021
49
Corpus, 22 | 2021
50
Corpus, 22 | 2021
51
eux. Si des individus restent dans la même communauté entre deux temps
d’observation, nous caractériserons la probabilité que la distance linguistique entre eux
diminue entre ces deux temps d’observation ou dans ceux qui suivent. De la même
façon, nous nous demanderons si la distance sociale entre des individus au temps T ou
son évolution entre T et T+n prédit leur distance linguistique à T+p (avec p ≥ n).
L’approche consistant à mesurer l’influence du langage sur la structure sociale testera
si la distance linguistique entre des individus prédit leur distance sociale. Si des
individus appartiennent au même groupe linguistique (établi à partir de leurs usages
sociolinguistiques) au temps T, nous déterminerons si la probabilité qu’ils soient dans
la même communauté augmente à T+n. Similairement, nous verrons si la distance
linguistique entre des individus au temps T ou son évolution entre T et T+n prédit leur
distance sociale à T+p.
Notre étude longitudinale, d’une durée de 3 ans, permettra aussi l’examen de la
propagation – ou, à l’inverse, de l’absorption – d’un changement ponctuel à la fois dans
la structure sociale et dans le langage en mesurant, quantifiant et modélisant les
processus d’influence à long terme. En effet, un élément que notre étude a
l’opportunité de saisir de façon très fine est la perturbation des classes due aux
rentrées scolaires, notamment lors des deuxième et troisième années de recueil de
données, car elles remanient partiellement la composition des classes et donc
potentiellement les communautés qui s’étaient mises en place durant l’année
précédente. Nous pourrons ainsi évaluer l’effet de l’intégration dans une nouvelle
communauté. Une communauté a-t-elle systématiquement un rôle homogénéisateur,
d’absorption des changements linguistiques ou, au contraire, peut-elle accueillir les
usages des nouveaux membres et les amplifier en les diffusant ?
BIBLIOGRAPHIE
Almquist Y. (2011). « The school class as a social network and contextual effects on childhood and
adult health : findings from the Aberdeen Children of the 1950s cohort study », Social Networks
33(4) : 281-291.
Aral S., Muchnik L. & Sundararajan A. (2009). « Distinguishing influence-based contagion from
homophily-driven diffusion in dynamic networks », Proceedings of the National Academy of Sciences
106(51) : 21544-21549.
Auer P., Barden B. & Grosskopf B. (2000). « Long-term linguistic accomodation and its
sociolinguistic interpretation : evidence from the inner-German migration after the Wende », in
Mattheier K. (dir.), Dialect and Migration in a Changing Europe. New York, Peter Lang, 79-98.
Barbu S. (2003). « Stability and flexibility in preschoolers' social networks : a dynamic analysis of
socially directed behavior allocation », Journal of Comparative Psychology 117(4) : 429-439.
Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf,
linguiste ? », Corpus 10 : 99-118.
Corpus, 22 | 2021
52
Bayley R. (2002). « The quantitative paradigm », in Chambers J. K., Trudgill P. & Schilling-
Estes N. (dir.), The handbook of language variation and change. Malden, Oxford : Blackwell, 117-141.
Beaulieu L. & Cichocki W. (2002). « Le concept de réseau social dans une communauté acadienne
rurale », Canadian Journal of Linguistics 47(3-4) : 123-150.
Busby P. A. & Plant G. L. (1995). « Formant frequency values of vowels produced by preadolescent
boys and girls », Journal of the Acoustical Society of America 97(4) : 2603-2607.
Chambers J. K. (2009). Sociolinguistic theory : linguistic variation and its social significance. Oxford,
Cambridge : Wiley-Blackwell.
Coupland N. & Jaworski A. (1997). Sociolinguistics : a reader and coursebook. Basingstoke : Macmillan
Press.
De Mauro A., Greco M. & Grimaldi M. (2016). « A formal definition of Big Data based on its
essential features », Library Review 65(3) : 122-135.
Fagot J. & Hamrouni Y. (2020). Outil d’analyse automatique de transcriptions issues d’un corpus oral.
Projet Professionnel du Master 2 Industries de la langue, Univ. Grenoble Alpes.
Hartup W. W. (1984). « The peer context in middle childhood », in Collins W. A. (dir.), Development
during middle childhood. Washington DC, National Academy Press, 240-282.
Hriba L., Baude O. & Dugua C. (2011). Transcrire : la norme, la variation et le linguiste. Colloque du
CerLiCO : Transcrire, écrire, formaliser 2. Orléans.
Johnson J. C., Ironsmith M., Whitcher A. L., Poteat G. M., Snow C. W. & Mumford S. (1997). « The
development of social networks in preschool children », Early Education and Development 8(4) :
389-405.
Kamper H. (2017). Unsupervised neural and Bayesian models for zero-resource speech processing. PhD
thesis. https://arxiv.org/pdf/1701.00851.pdf
Kerswill P. & Williams A. (2000). « Creating a new town koine : children and language change in
Milton Keynes », Language in Society 29(1) : 65-115.
Labov W. (1966). The social stratification of English in New York City. Washington DC : Center for
Applied Linguistics.
Labov W. (1972). Language in the inner city : studies in the Black English Vernacular. Oxford : Basil
Blackwell.
Labov W. (2001). Principles of linguistic change, vol. 2 : social factors. Oxford : Blackwell.
Ladd G. W. (1990). « Having friends, keeping friends, making friends, and being liked by peers in
the classroom : predictors of children’s early school adjustment ? », Child Development 61(4) :
1081-1100.
Corpus, 22 | 2021
53
Laks B. (2013). « Why is there variation rather than nothing ? », Language Sciences 39 : 31-53.
Lee S., Potamianos A. & Narayanan S. (1999). « Acoustics of children’s speech : developmental
changes of temporal and spectral parameters », Journal of the Acoustical Society of America 105 :
1455-1468.
Martin C. L., Fabes R. A., Hanish L. D. & Hollenstein T. (2005). « Social dynamics in the
preschool », Developmental Review 25(3-4) : 299-327.
Milroy L. (2002). « Social networks », in Chambers J. K., Trudgill P. & Schilling-Estes N. (dir.), The
handbook of language variation and change. Oxford : Blackwell, 549-572.
Milroy L. & Gordon M. (2003). Sociolinguistics : method and interpretation. Oxford : Blackwell.
Milroy L. & Llamas C. (2013). « Social networks », in Chambers J. K. & Schilling N. (dir.), The
Handbook of Language Variation and Change (second edition). Malden : Blackwell Publishing, 407-427.
Nardy A., Fleury É., Chevrot J.-P., Karsai M., Buson L., Bianco M., Rousset I., Dugua C., Liégeois L.,
Barbu S., Crespelle C., Busson A., Léo Y., Bouchet H. & Dai S. (2016). « DyLNet – Language
Dynamics, Linguistic Learning, and Sociability at Preschool : Benefits of Wireless Proximity
Sensors in Collecting Big Data (https://dylnet.univ-grenoble-alpes.fr/) », <ANR-16-CE28-0013>:
https://hal.archives-ouvertes.fr/hal-01396652.
Rubin K. H., Bukowski W. & Parker J. G. (2006). « Peer interactions, relationships, and groups », in
Eisenberg N. (dir.), Handbook of child psychology (6th edition) : social, emotional, and personality
development. New York : Wiley, 571-645.
Schaefer D. R., Light J. M., Fabes R. A., Hanish L. D. & Martin C. L. (2010). « Fundamental principles
of network formation among preschool children », Social Networks 32(1) : 61-71.
Strayer F. F. & Santos A. J. (1996). « Affiliative structures in preschool peer groups », Social
Development 5(2) : 117-130.
Weinberg B. & Bennett S. (1971). « Speaker sex recognition of 5- and 6-year-old children’s
voices », Journal of the Acoustical Society of America 50(4) : 1210-1213.
Weinreich U., Labov W. & Herzog M. I. (1968). « Empirical foundations for a theory of language
change », in Lehmann W. P. & Malkiel Y. (dir.), Directions for Historical Linguistics : a symposium.
Austin : University of Texas Press, 96-195.
Wittenburg P., Brugman H., Russel A., Klassmann A. & Sloetjes H. (2006). « ELAN : a professional
framework for multimodality research », in, Proceedings of the Fifth International conference on
Language Resources and Evaluation. 1556-1559.
NOTES
1. Cette recherche est financée par l’Agence Nationale de la Recherche <ANR-16-CE28-0013>.
2. Site web : https://dylnet.univ-grenoble-alpes.fr/.
3. Ce projet s’inscrit dans une collaboration multidisciplinaire réunissant des sociolinguistes
(LIDILEM, Univ. Grenoble Alpes) et des chercheurs en science des réseaux (équipe DANTE,
Laboratoire de l'Informatique du Parallélisme, INRIA Grenoble Rhône-Alpes, ENS de Lyon).
Corpus, 22 | 2021
54
4. Validation du protocole de l'étude par le Comité Opérationnel d’Évaluation des Risques Légaux et
Éthiques (COERLE) de l’INRIA (avis favorable n° 2017-014), déclaration auprès de la Commission
Nationale de l'Informatique et des Libertés (CNIL) pour la mise en œuvre du projet de recherche (avis
favorable n° 2017_0980683), déclaration de la base de données auprès de la CNIL pour la
constitution d'une base de données de recherche (avis favorable n° 2019_0980683).
5. Dans le cadre de ce projet, nous ne visons pas la transcription intégrale de l’ensemble des
enregistrements audio recueillis. En collaboration avec des chercheurs en traitement du signal,
nous envisageons une exploitation automatique des signaux notamment au travers du key word
spotting (Kamper, 2017). Il s’agira ainsi d’entraîner un système à la reconnaissance automatique
de séquences sonores correspondant à des mots et séquences de mots spécifiques puis, en cas de
taux de fiabilité satisfaisant, de généraliser la recherche des mots et séquences cibles à
l’ensemble du corpus.
6. Une évaluation faite sur une partie de nos fichiers audio indique un gain de 65% en termes
d’espace de stockage par rapport aux mêmes fichiers en version .wav. Un autre avantage du
format .flac est de permettre aisément la conversion vers le format .wav.
7. Nous remercions S. Rossato du Laboratoire d’Informatique de Grenoble (Univ. Grenoble Alpes)
pour la mise à disposition de ce script.
8. Ces variables pour lesquelles cette procédure de vérification a été mise en place sont celles qui
sont annotées directement lors de l’étape de transcription. D’autres variables sont également
traitées mais elles font l’objet d’autres procédures de codage, ultérieures à l’étape de
transcription. Concernant la variable de la négation en français, nous avons développé un script
permettant, dans les fichiers transcrits, de détecter et annoter automatiquement les cas où la
première particule est présente et ceux où elle est absente (évaluation du script en cours). Pour la
liaison facultative, la procédure se fait en deux étapes. Dans un premier temps, un script fondé
sur des règles lexicales, repère des contextes de suite de deux mots répondant à ces règles et
insère un codage dans les fichiers transcrits. Dans un second temps, deux codeurs experts
réécoutent tous les segments dans lesquels apparaît ce codage. Ils valident ou non le fait que ce
soit un contexte de liaison facultative et, le cas échéant, indiquent si celle-ci est réalisée ou non.
L’ensemble de ces variables seront analysées dans le cadre du projet ainsi que d’autres
permettant d’évaluer le niveau langagier enfantin comme la longueur moyenne des énoncés, la
diversité lexicale, etc.
RÉSUMÉS
Nous présentons une étude originale en cours visant la compréhension des relations entre
variations sociolinguistiques et réseau social. Sa démarche empirique repose sur le recueil de
données sociales et langagières massives et longitudinales au sein d’une école maternelle.
Environ 200 individus (enfants et adultes) sont équipés une semaine par mois pendant 3 ans de
capteurs qui enregistrent en continu à la fois leurs interactions verbales et leurs contacts
sociaux. Dans cet article, à visée principalement méthodologique, nous exposons les dispositifs
mis en place pour le recueil et les procédures mises en œuvre pour la transcription et
l’annotation de données orales massives. Enfin, nous présentons les potentialités offertes par ce
type de recueil pour affiner, automatiser et systématiser l’analyse variationniste des relations
entre réseau social et variations sociolinguistiques.
Corpus, 22 | 2021
55
INDEX
Mots-clés : variation sociolinguistique, réseau social, données massives, transcription
Keywords : sociolinguistic variation, social network, big data, transcription
AUTEURS
AURÉLIE NARDY
Univ. Grenoble Alpes, LIDILEM
HÉLÈNE BOUCHET
Univ. Grenoble Alpes, LIDILEM
ISABELLE ROUSSET
Univ. Grenoble Alpes, LIDILEM
LOÏC LIÉGEOIS
Univ. Paris Diderot, Sorbonne Paris Cité, CLILLAC-ARP et LLF
LAURENCE BUSON
Univ. Grenoble Alpes, LIDILEM
CÉLINE DUGUA
Univ. Orléans, LLL UMR7270
JEAN-PIERRE CHEVROT
Univ. Grenoble Alpes, LIDILEM
Corpus, 22 | 2021
56
Corpus, 22 | 2021
57
Corpus, 22 | 2021
58
cherchons donc à obtenir des scènes du quotidien où l’enfant peut jouer avec des amis,
sa famille, etc. ou encore lorsqu’il est gardé par une baby-sitter. Nous ne nous
restreignons pas aux moments de loisirs, nous captons également des moments simples
mais qui font partie d’un quotidien rythmé par des habitudes comportementales et
langagières. Ainsi, l’enregistrement de scènes contenant les repas en famille, le bain ou
encore le coucher peut être primordial puisque ces dernières contiennent un lexique
récurrent où l’enfant pourrait alors acquérir des routines langagières spécifiques.
Notre but étant de nous rapprocher au mieux des conversations que pourrait avoir
quotidiennement un enfant, pour pouvoir étudier ses différentes sources d’input.
13 Pour résumer, la création d’un module aussi varié va nous permettre de mieux
connaître les influences que les différences socioculturelles peuvent avoir sur
l’acquisition de la langue. Nous approfondirons ce point par l’étude du lien input/
output à travers la diffusion de l’usage de la liaison. Notre projet permet donc de
compléter le corpus ESLO2 avec des locuteurs qui ne sont que marginalement présents
à l’heure actuelle, et dans l’esprit variationniste d’ESLO en veillant à prendre en compte
des niveaux de variations différents tout en complétant les corpus enfantins
francophones existants.
16 Dans les cas ci-dessus, nous voyons que le « s » de « gros » se prononce sous la forme
d’une liaison en /z/ uniquement lorsqu’il précède un mot à initiale vocalique (1).
17 Plusieurs études de corpus avec des méthodes différentes et sur des corpus différents
(Corpus d’Orléans : De Jong 1994, ESLO : Dugua & Baude 2017, PFC : Durand & Lyche
2008, Coquillon et al. 2010, Durand et al. 2011) décrivent d’ailleurs les variations
d’usages des liaisons chez l’adulte. Toutes s’accordent sur le fait qu’il existe au moins
deux types de liaisons :
Corpus, 22 | 2021
59
20 Pour étudier le lien input/output, s’appuyer sur un objet qui peut être à la fois stable et
variable nous fournit un cadre d’analyse riche. Nous pourrons observer par exemple si,
ce qui est stable/invariable chez l’adulte, l’est aussi chez l’enfant et à partir de quel
âge ; si ce qui est stable est reçu par tous les enfants de la même manière, et ce qui peut
différer (la quantité de liaisons stables, la diversité des liaisons stables). Quant aux
liaisons variables nous étudierons comment elles varient d’une famille à l’autre, d’un
enfant à l’autre et d’une situation à l’autre.
21 Notre approche est fondamentalement basée sur l’usage, sur des données de parole
recueillies, et non sur des conceptions normatives ou basées sur des exemples. En
étudiant l’usage des liaisons à la fois dans la parole adulte et dans la parole enfantine et
en décrivant ce que l’enfant peut récupérer, et cela dans différentes familles ayant un
rapport à la langue varié, nous pourrons voir comment la variation se réalise (côté
adultes) et se construit (côté enfant) en perception et en production.
22 Pour convenir à la démarche variationniste recherchée et pour répondre à nos objectifs
sur le plan de l’acquisition du langage, nous avons mis en place une procédure de
collecte particulière pour accéder au quotidien des enfants de la façon la moins
invasive possible, procédure que nous présentons dans la section suivante.
4. Méthodologie d’enquête
23 Rappelons que le corpus ESLO-Enfants s’inscrit dans le plus grand corpus de français
parlé en France, le corpus ESLO (http://eslo.huma-num.fr/). Nous avons donc suivi le
cadre méthodologique de ce projet tout en l’adaptant à notre nouveau public enfantin.
Tout d’abord, l’architecture du corpus ESLO (Baude & Dugua, 2011), à savoir la façon
dont les différents modules coexistent et la forme que cette construction donne au
Corpus, 22 | 2021
60
corpus, est le reflet du « parti pris variationniste des auteurs d’ESLO1 et ESLO2 […] afin
de permettre la prise en compte de différents types de variations » (Baude & Dugua,
2015 : 357). Dans cette architecture, le corpus ESLO-Enfants constitue un module
particulier puisque nous l’envisageons comme un modèle réduit d’ESLO dans le sens où
notre objectif est d’intégrer en son sein la diversité des situations auxquelles un enfant
participe au quotidien. Nous cherchons en effet par la constitution de ce corpus à
balayer une large palette de situations familières des enfants, sachant toutefois que les
contraintes liées à la collecte limiteront les possibilités.
24 Les locuteurs que nous souhaitons enregistrer sont des enfants compris dans une
tranche d’âge entre 2 ans et 7 ans, ce qui correspond à la période qui précède l’entrée à
la maternelle, la maternelle et l’entrée dans l’écrit. La variété des âges nous permet
d’étudier et de comparer des enfants à différents stades de leur acquisition du langage.
De plus, comme le phénomène de liaison est lié à la forme graphique des mots (la
présence d’une liaison se déclenche par une lettre écrite non oralisée), il nous semblait
intéressant de pouvoir observer les enfants avant et après l’entrée dans l’écrit
(Fijalkow, 1997), afin de voir si l’émergence de l’écrit et le rapport à l’écrit peuvent
influencer les usages des liaisons.
25 Les enfants de cette enquête sont issus de familles choisies avec minutie. Les
appartenances socio-économico-culturelles des familles sont diversifiées pour rendre
ce corpus représentatif de la population française et plus précisément, représentatif de
la population de l’agglomération orléanaise, mais aussi pour apporter de nouvelles
données quant aux paroles enfantines.
26 Pour décrire ces familles, nous nous appuyons sur différents critères car nous estimons
que les catégories socioprofessionnelles de l’INSEE ne sont pas suffisantes. Classer les
personnes seulement sur leurs catégories socioprofessionnelles ne suffit pas à
déterminer leur capital culturel et économique qui sont des éléments qui pourraient
nous éclairer sur le capital hérité des enfants, comme Bourdieu le défend en 1979.
27 C’est pour cela que nous avons décidé de créer notre propre échelle qui fait intervenir
trois grands axes : l’axe formation(s)-emploi(s), l’axe temps libre (sorties) et l’axe
médias. Ainsi, nous proposons une échelle socio-linguistico-culturo-professionnelle
(SLCP), pour classer les différentes familles.
28 À l’aide de ces trois axes, nous avons établi une fiche (voir un extrait ci-dessous)
déclinant les principales particularités de chacun des axes. Chaque parent a rempli la
fiche informative en précisant des échelles qui varient de 1 à 10. Ainsi, les parents
inscrivent eux-mêmes la proportion que chaque axe représente dans leur quotidien.
Pour cela, nous nous sommes fondée en partie sur les travaux de Bourdieu (1994) sur la
théorie du monde social, et l’avons adapté à nos exigences en termes de public visé et
d’informations sur leur input quotidien. Pour chaque axe, nous prenons en compte le
temps et la fréquence des activités pratiquées.
Corpus, 22 | 2021
61
29 Dans l’axe formation(s)-emploi(s), nous faisons apparaître la/les formation(s) que les
parents des familles participantes ont suivies, les éventuelles reprises d’études, le lieu
d’étude (pays, région, ville). De la même manière, nous prendrons en compte les
emplois qu’ont effectués les parents, la période durant laquelle ils les ont effectués mais
aussi, si c’est un travail solitaire ou bien en équipe.
30 L’axe du temps libre concerne toutes les sorties et activités que les participants peuvent
effectuer. Nous les regroupons dans différentes catégories : les sorties culturelles (telles
que le théâtre, le cinéma, etc.), les sorties sociales (retrouver des amis pour boire un
verre, aller au restaurant, etc.) et des sorties et activités qui comprennent les activités
extra-professionnelles (concerne les activités en club mais aussi si les personnes
pratiquent des activités à la maison comme par exemple le tricot, les jeux avec leurs
enfants, etc.).
31 Le troisième axe concerne le rapport aux médias. Dès 1950, Queneau faisait remarquer
que les médias influencent fortement notre manière de nous exprimer. Ainsi, depuis
l’arrivée de la télévision, les individus calquent leur manière de s’exprimer sur celle des
présentateurs de télévision car cette forme de langue est jugée plus légitime (Queneau,
1950). Au-delà du petit écran avec le type d’émission que les participants regardent,
nous allons nous intéresser aux types de radio, et de lectures, mais aussi la question des
usages des vidéos et jeux vidéo, des réseaux sociaux.
32 Voici une des représentations sous forme de radars obtenues avec le questionnaire que
nous venons de décrire. Les exemples exposés ci-dessous concernent les familles des
enfants que nous étudierons dans la suite de cet article.
Corpus, 22 | 2021
62
33 Les tracés révèlent que les parents de Lucile et de Camille ont des habitudes de sorties à
tendances socialisantes hors du cadre familial proche avec de hauts résultats
concernant les vacances, le sport en club, les promenades, les restaurants, etc. Tout en
ayant quelques habitudes littéraires.
34 Voyons à présent les habitudes des parents de Roxane :
Corpus, 22 | 2021
63
35 Dans le cas de cette famille, nous voyons que les parents de Roxane aiment les activités
audiovisuelles, mais aussi la lecture. Les sorties à tendances sociales hors du cadre
familial sont néanmoins présentes mais avec des résultats moins élevés que pour la
famille précédente.
36 Nous retiendrons que les pratiques culturelles de la famille de Camille et Lucile sont
plus des activités en extérieur, à visée socialisante alors que les parents de Roxane sont
sur des activités qui peuvent se pratiquer à l’intérieur même de leur foyer, qui ne
sortent donc pas du cadre familial. Ces radars sont un extrait de ce que nous pouvons
obtenir à l’aide de la fiche de renseignements, nous pourrons les croiser avec les
résultats obtenus pour les usages des liaisons dans le corpus afin de voir dans quelle
mesure l’usage des liaisons facultatives peut être influencé par les pratiques d’activités
différentes. Ainsi, notre méthode permettra de croiser des représentations issues du
questionnaire et des pratiques à partir de l’usage des liaisons.
Corpus, 22 | 2021
64
45 Lors de la rencontre avec les familles pour finaliser leur participation, nous faisons
remplir et signer un formulaire de consentement éclairé qui reprend les grandes idées
présentées aux familles. Il y est par exemple précisé par écrit (liste non exhaustive) :
46 - en quoi consiste le projet ESLO-Enfants,
47 - l’anonymisation des données identifiantes, hormis les prénoms des enfants (en accord
avec les familles),
48 - le fait que la vidéo ne sera pas rendue disponible,
49 - que les documents audio et les transcriptions seront diffusés sur deux plateformes
pour le monde de la recherche.
50 Ce document est nécessaire pour rendre compte de ce qui va être fait et le devenir des
données et métadonnées qui vont être récoltées, mais aussi pour protéger les droits des
familles participantes et du Laboratoire Ligérien de Linguistique (LLL).
Corpus, 22 | 2021
65
opératoire aux familles, avec des fiches de suivi que les familles devront remplir 1 pour
chaque enregistrement effectué. Dans ces fiches, nous demandons de noter les
participants à l’enregistrement, la date, le lieu et ce qui se passe durant
l’enregistrement. Les familles peuvent préciser s’il y a des passages qu’elles
souhaiteraient ne pas voir apparaître dans le corpus. Ces informations serviront à
remplir les métadonnées des enregistrements.
53 En ce qui concerne le rythme de collecte des enregistrements, nous tentons de réduire
le temps d’emprunt du matériel par les familles, ce qui n’est pas toujours aisé. Nous
laissons tout de même des libertés aux familles pour ne pas qu’elles se sentent pressées,
ni oppressées par nos demandes. Cette démarche permet de pas ou peu impacter le
comportement des familles pour la réalisation des enregistrements mais présente
l’inconvénient de ne pas avoir des temps de collecte homogènes d’une famille à l’autre.
54 Nous demandons aux familles d’enregistrer au moins 4 scènes par période représentant
des moments clefs de la vie de leurs enfants, tels que les repas, les moments de jeux, les
devoirs, le rituel de la douche, etc. avec les personnes que les enfants côtoient
fréquemment.
55 Voici les caractéristiques des enregistrements récoltés pour la première et la deuxième
période :
56 Nous obtenons une première période de 14h17 et une deuxième période de 9h39. La
différence de durée peut s’expliquer par la non-maîtrise du matériel de la part des
familles. En effet, deux familles ont eu des difficultés à se servir de l’enregistreur et/ou
la caméra lors de la deuxième période. Nous obtenons alors des enregistrements plus
courts que prévu.
57 Les types de situations recueillis sont relativement variés : des repas (goûter, repas de
famille), différents types de jeux (solitaires, jeux de sociétés, dessins, puzzle), des temps
scolaires, les devoirs, des bains/douches. Par ailleurs, d’une période à l’autre, nous
Corpus, 22 | 2021
66
59 Nous effectuons deux séries de tests, la première composée de tests de langage pour
situer l’enfant dans son acquisition langagière et une deuxième série pour évaluer la
manière dont la liaison se met en place. Pour cette dernière série, nous présenterons
des résultats préliminaires de trois enfants : Roxane, Lucile et Camille (les trois enfants
pour lesquels nous avons toutes les données sur les trois périodes).
60 À la suite de chaque période d’enregistrements, les enfants ont effectué des tests de
langage issus de DyLNet (Nardy et al. 2016). Il s’agit de vérifier l’étendue du lexique de
l’enfant, de contrôler sa mémoire des chiffres, de connaître ses compétences
sociolinguistiques en perception et en production, de voir s’il parvient à détecter les
variations stylistiques en fonction des différents interlocuteurs possibles et enfin de
connaître la compréhension syntaxicosémantique. Nous réalisons ces tests avec les
enfants de notre panel les plus petits (Fréïhr, Briséis, Roxane, Lucile et Marise) puisque
ces tests ont été construits pour le niveau « maternelle ». Nos données pourront être
comparées aux données DyLNet, recueillies sur toute une école maternelle de Grenoble.
Corpus, 22 | 2021
67
63 Dans un second temps, nous faisons une tâche avec des pseudo-noms à voyelle initiale
(4 pseudo-noms), où nous présentons chaque pseudo-nom précédé du déterminant
« un », par exemple [œ̃nikat], l’enfant doit alors produire la forme « deux » + « pseudo-
nom », par exemple [døzikat]. Nous relevons trois types de productions :
64 - Production de type maintien : nous disons [œ̃nivak] l’enfant produit [dønivak]
65 - Production de type alternance : nous disons [œ̃nivak] l’enfant produit [døzivak]
66 - Production de type omission : nous disons [œ̃nivak] l’enfant produit [døivak]
67 Le graphique ci-dessous rend compte de la répartition des types de productions
(4 productions au total) pour chaque enfant et à chaque période.
Corpus, 22 | 2021
68
68 Les trois enfants observées présentent des comportements variables sur les formes
d’alternances et de maintien que nous ne pouvons interpréter pour l’instant. Seule
Lucile produit des formes en omissions lors de la deuxième période.
69 Par la suite, nous effectuons une tâche de dénomination d’images en contexte de
liaisons obligatoires après les Mots1 « un » et « deux », par exemple [œ̃nuʁs]. Trois
types de production sont attendus :
70 - Production de type liaison juste :
• Après « un » : [œ̃nuʁs]
• Après « deux » : [døzuʁs]
71 - Production de type remplacement :
• Après « un » : [œ̃zuʁs]
• Après « deux » : [dønuʁs]
72 - Production de type omission :
• Après « un » : [œ̃uʁs]
• Après « deux » : [døuʁs]
73 Le graphique ci-dessous montre les taux de chaque type de production pour chaque
enfant et à chacune des trois périodes.
74 Pour Camille, qui est plus âgée, nous retrouvons des productions de liaisons justes
systématiquement pour les trois périodes. Tandis que pour les plus petites, Lucile et
Roxane, nous relevons des erreurs par remplacement lors de la première période, qui
disparaissent par la suite. Des erreurs d’omission surviennent en période 2 et/ou 3, ce
sont des erreurs qui peuvent subsister jusqu’à 6 ans (Dugua, 2006). Ces résultats sont en
accord avec les données dont nous disposons sur les productions de liaisons.
75 Dans le même principe, la tâche suivante est également une dénomination d’images
mais cette fois en contexte de liaison facultative après les Mots1 « petit » et « gros ».
Trois types de productions sont attendus :
76 - Production de type liaison réalisée :
• Après « petit » : [pətituʁs]
Corpus, 22 | 2021
69
Corpus, 22 | 2021
70
82 D’une manière générale, les performances que nous obtenons chez ces trois enfants
sont supérieures à celle de l’échantillon dans Dugua (2006). Ces résultats seront
détaillés dans de prochains travaux.
83 Lorsque les enfants sont en âge de lire (Marise, Briséis, Camille), ils effectuent deux
tests supplémentaires : un test de lecture et un test d’histoire sans parole.
84 Pour le premier, les enfants doivent lire une série de 32 phrases avec des mots et
contextes de liaisons choisis avec précautions. Pour le second test, la création d’une
histoire sans parole favorisant les contextes de liaison s’est révélée un bon exercice
pour faire parler les enfants à partir de dessins. Nous avons créé ce test pour que les
enfants puissent être amenés à raconter une histoire comme elle pourrait être écrite en
insérant des images favorisant les contextes de liaison. Cette démarche d’histoire sans
parole peut être déjà connue des enfants, de même qu’ils ont déjà dû être amenés à
raconter des histoires qui leur ont été lues par le passé.
85 Ces tests ont une grande importance car ils nous permettent de contrôler, dans des
contextes similaires et ce, d’une période à l’autre, la réalisation de liaisons obligatoires
et de liaisons facultatives et cela dans des modalités variées. Avec les données des tests
recueillies, croisées avec les données « naturelles » que nous avons captées, nous serons
en mesure de mieux comprendre comment s’acquiert la liaison dans des milieux et des
situations variés.
Conclusion et perspectives
86 La création de notre corpus ESLO-Enfants permet d’élargir le périmètre du corpus
ESLO2 tout en s’intégrant dans son architecture, mais permet aussi d’apporter de
nouvelles données aux corpus enfantins déjà existants.
87 Outre les questions relatives à la mise en place du langage chez les jeunes enfants, ce
corpus vise à fournir un cadre variationniste dans lequel nous pourrons décrire la
diversité et la richesse des inputs dans lesquels les enfants évoluent. À travers l’étude
de l’usage des liaisons à la fois obligatoires et variables, dans la parole environnante,
comme dans la parole enfantine, nous chercherons à mettre en évidence les liens entre
l’usage des parents/fratrie/famille et l’usage des enfants, et la façon dont adultes et
enfants adaptent leurs usages à la situation et aux participants. Des entretiens semi-
directifs ont été réalisés (mais n’ont pas été présentés ici par manque de place) et
permettront d’avoir un regard plus approfondi sur la vie au sein des familles, mais
également d’avoir accès à l’usage langagier des parents dans un contexte plus formel
que les scènes quotidiennes. La méthode que nous mettrons en place prendra deux
orientations : (1) étant donné l’échantillon important recueilli, transcrit et annoté en
liaisons, nous pourrons dégager des tendances statistiques (taux de liaisons selon les
situations, selon les participants, etc.). Mais, (2) dans le but de rendre compte des
influences de l’input sur l’output, il nous semble indispensable d’observer les usages
des liaisons avec une approche plus qualitative en repérant, par exemple, des
constructions fréquentes dans une famille et en cherchant à voir comment elles sont
transmises et reprises ou non par les enfants. Ces deux méthodes d’observation et
d’analyse, croisées avec les métadonnées sur les familles d’une part (avec l’échelle
Corpus, 22 | 2021
71
SLCP), et sur le développement langagier des enfants d’autre part (avec les tests de
langage) devraient nous permettre de mieux comprendre la façon dont le langage se
construit dans la diversité des environnements et des situations que rencontre un
enfant.
BIBLIOGRAPHIE
Abouda L. & Baude O. (2005). « Constituer et exploiter un grand corpus oral : choix et enjeux
théoriques. Le cas des ESLO », Corpus en Lettres et Sciences sociales, Des documents numériques à
l’interprétation. Albi, France.
Baude O. & Dugua C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf,
linguiste ? » Corpus 10 : 99-118.
Baude O. & Dugua C. (2015). « Usage de la liaison dans le corpus des ESLOs : vers de nouveaux (z)
ouvrages de référence ? » Dostie, Hedermann (éd.), La dia-variation en français actuel. Bern : Peter
Lang, 349-371.
Blanc M. & Biggs P. (1971). « L’enquête socio-linguistique sur le français parlé à Orléans » Le
français dans le monde 85 : 16-25.
Bourdieu P. (1982). Ce que parler veut dire : L’économie des échanges linguistiques. Fayard.
Bourdieu P. (1994). Raisons pratiques : sur la théorie de l’action. Paris : éd. du Seuil.
Bybee J. & Hopper P. (2001). « Introduction ». Bybee J. & Hopper P. (éd.), Frequency and the
Emergence of Linguistic Structure. Amsterdam/Philadelphia : Benjamins.
Cameron-Faulkner T., Lieven E. & Tomasello M. (2003). « A construction based analysis of child
directed speech ». Cognitive Science 27-6 : 843-873.
Chevrot J.-P., Chabanal D. & Dugua C. (2007). « Pour un modèle de l’acquisition des liaisons basé
sur l’usage : trois études de cas » Journal of French Language Studies 17, 103-128.
Chevrot J.-P., Dugua C. & Fayol M. (2009). « Liaison Acquisition, Word Segmentation and
Construction » Fench : A Usage Based Account. Journal of Child Language 36, 557-596.
Coquillon A., Durand J. & Eychenne J. (2010). « La liaison dans PFC : les chiffres et leur
interprétation » Atelier PFC. University Tulane, New Orleans., Jul 2010, Nouvelle Orléans, États-
Unis.
Dugua C. & Baude O. (2017). « La liaison à Orléans, corpus et changement linguistique : une
première étude exploratoire », Journal of French Language Studies 27, 41-54.
Corpus, 22 | 2021
72
Durand J. & Lyche C. (2008). « French liaison in the light of corpus data » French Language Studies
18, 33-66.
Durand J., Laks B., Calderone B. & Tchobanov A. (2011). « Que savons-nous de la liaison
aujourd’hui ». Langue française 169, 103-135.
Fijalkow J. (1997). « Entrer dans l’écrit : oui, mais par quelle porte ? ». Repères, recherches en
didactique du français langue maternelle 15, 113-129.
Gadet F. (1997). « Classe sociale ». M.L. Moreau (dir.). Sociolinguistique. Concepts de base. Liège :
Mardaga.
Gagnier N. (2011). « Le jugement des autres sur nos attitudes parentales ». La Presse. Mis en ligne
le 22 mars 2011. Consulté le 27 juillet 2019.
Goldin-Meadow S. (2010). « Rôle des gestes dans la création et l’acquisition du langage. » Enfance
62-3 : 347-360.
Liégeois L. (2014). « Usage des variables phonologiques dans un corpus d’interactions naturelles
parents-enfant : impact du bain linguistique et dispositifs cognitifs d’apprentissage » Thèse de
doctorat, Université Blaise Pascal, Clermont 2.
Linard M. & Prax I. (1984). Images vidéo, images de soi ou Narcisse au travail. Paris : Dunod.
Mondada L. (2012). « The conversation analytic approach to data collection ». J. Sidnell &
T. Stivers (éd.) Handbook of Conversation Analysis. Oxford : Blackwell-Wiley.
Nardy A., Fleury É., Chevrot J.-P., Karsai M., Buson L., Bianco M., Rousset I., Dugua C., Liégeois L.,
Barbu S., Crespelle C., Busson A., Léo Y. & Bouchet H. (2016). DyLNet – Language Dynamics,
Linguistic Learning, and Sociability at Preschool : Benefits of Wireless Proximity Sensors in
Collecting Big Data (ANR-16-CE28-0013). https://dylnet.univ-grenoble-alpes.fr/
Neill A.S. (1966). La Liberté, pas l’anarchie. Hart Publishing (New York) 1966, Payot.
Soum-Favaro C., Coquillon A. & Chevrot J.-P. (2014). La liaison : approches contemporaines. Bern :
Peter Lang.
Corpus, 22 | 2021
73
Laboratoire Ligérien de Linguistique - UMR 7270 (LLL) (2017). ESLO [Corpus]. ORTOLANG (Open
Resources and TOols for LANGuage) - www.ortolang.fr, https://hdl.handle.net/11403/eslo/v1.
Laboratoire de Recherche sur le Langage - EA 999 (LRL) (2017). ALIPE (Acquisition de la Liaison et
Interactions Parents Enfants) [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) -
www.ortolang.fr, https://hdl.handle.net/11403/alipe-000853/v1.1.
Morgenstern, A & Parisse, C. (2012). The Paris Corpus. French Language Studies 22(1), 7-12,
Cambridge University Press.
Parisse C., Morgenstern A. (2010). Transcrire et analyser les corpus d’interactions adulte-enfant.
Edy Veneziano, Anne Salazar Orvig, Josie Bernicot. Acquisition du langage et interaction,
L’Harmattan, 201-222.
NOTES
1. Ces informations auraient pu être enregistrées si nous avions rencontré des familles dans
l’impossibilité de remplir la fiche.
RÉSUMÉS
Le module ESLO-Enfants est un corpus variationniste longitudinal issu du grand corpus de langue
française : Enquêtes SocioLinguistiques à Orléans (ESLO). Variationniste car il s’appuie sur un
public varié (enfants de 2 ans à 7 ans avec leur entourage proche) provenant de familles de
différentes catégories socio-économico-culturelles et enregistré dans des situations naturelles
variées formant le quotidien des enfants. Ce corpus, qui sera mis à disposition à la fois sur ESLO
et Childes, a été créé dans le but d’étudier l’impact de l’environnement langagier (input) sur les
productions enfantines (output). Pour cette étude, la liaison, objet à la fois stable et variable, s’est
révélée être un phénomène sociolinguistique propice pour observer sa transmission à des enfants
en cours d’acquisition du langage mais aussi pour observer d’éventuelles différences entre les
familles.
The ESLO-Children module is a longitudinal variationist corpus derived from the large French-
language corpus: Enquêtes SocioLinguistiques à Orléans (ESLO). It is variationist because it is
based on a varied audience (children aged 2 to 7 with their close relatives) from families of
different socio-economic and cultural categories and recorded in a variety of natural situations
that form the daily lives of children. This corpus, which will be made available on both ESLO and
Childes, was created with the aim of studying the impact of the language environment (input) on
Corpus, 22 | 2021
74
children’s productions (ouput). For this study, liaison, an object that is both stable and variable,
has been shown to be a sociolinguistic phenomenon that is conducive to observing its
transmission on children in the process of language acquisition, but also to observing possible
differences between families.
INDEX
Mots-clés : Acquisition du langage, corpus variationniste, liaison, ESLO, parole enfantine,
situation naturelle
Keywords : Language acquisition, variationist corpus, liaison, ESLO, children’s speech, natural
situation
AUTEUR
JENNIFER GANAYE
LLL – UMR7270, Université Orléans
Corpus, 22 | 2021
75
1. Introduction
1 Si la disponibilité croissante des corpus oraux participe à l’essor que vit actuellement la
linguistique de corpus, elle oblige les chercheurs à prendre en main les problématiques
liées à la structuration, la diffusion et le partage des données. En effet, alors que
l’hétérogénéité des méthodologies de structuration des corpus oraux apparaît comme
une marque de la vitalité du domaine, celle-ci peut également représenter un frein
certain dans la réutilisation des données par la communauté. Il n’est pas toujours facile
de jongler entre les formats de structuration des données, fortement dépendants des
logiciels utilisés au départ pour transcrire et/ou annoter et/ou structurer le corpus.
Ainsi, nous sommes partis d’une problématique simple : comment réutiliser le corpus
ESLO (Eshkol-Taravella et al., 2011), qui apparaît actuellement comme l’un des corpus
oraux les plus volumineux librement disponibles, pour mener une étude
sociolinguistique à la croisée des axes syntaxiques et pragmatiques ?
2 Alors que le corpus est à ce jour majoritairement distribué dans son format d’origine,
celui de l’outil de transcription et d’annotation Transcriber (Barras, Geo & Wu, 2001),
l’étude que nous souhaitions mener nécessitait l’utilisation d’un outil de textométrie
puissant, capable de gérer une annotation morphosyntaxique ainsi que la richesse des
métadonnées du corpus. Nous nous sommes dirigés vers l’outil TXM (Heiden, Magué, &
Pincemin, 2010), le plus à même selon nous de répondre à ce cahier des charges. Si la
possibilité d’import de données structurées à l’aide de l’outil Transcriber est déjà
Corpus, 22 | 2021
76
prévue par TXM, cet import ne permet pas l’utilisation de certaines fonctionnalités de
TXM comme la création de partitions de corpus ou de sous-corpus fondés sur les
informations disponibles dans les métadonnées locuteurs, particulièrement riches pour
le corpus ESLO (âge, profession, niveau d’étude etc.).
3 L’objectif de notre article est de présenter la méthodologie mise en œuvre pour passer
d’une série de fichiers de transcription au format Transcriber accompagnés de leurs
métadonnées correspondantes (au niveau locuteur et enregistrement) à une base
exploitable à l’aide de l’outil TXM. Dans une première partie, nous reviendrons sur les
problématiques liées à la mise à disposition des corpus oraux. Nous exposerons les
solutions actuellement disponibles pour la conversion des données et leur réutilisation
dans différents logiciels du domaine de la linguistique de corpus. Nous présenterons
également différentes facettes du projet ESLO : le corpus et ses spécificités ouvrant la
voie à l’analyse de phénomènes linguistiques dans une perspective micro-diachronique,
ainsi que la plateforme d’interrogation associée. Dans une deuxième section, nous
détaillerons le cahier des charges qui a guidé notre travail de restructuration du corpus
ESLO. Nous verrons comment celui-ci a été conditionné par des besoins généraux, liés à
l’analyse de la langue orale, et d’autres plus spécifiquement liés à la thématique de
l’analyse linguistique que nous souhaitions effectuer sur le corpus. La partie suivante se
focalisera quant à elle sur les traitements réalisés sur le corpus de départ afin d’obtenir
des données finement analysables au moyen de TXM. Enfin, nous verrons comment
nous avons réussi à exploiter l’outil afin d’analyser l’usage des interrogatives partielles
dans une perspective micro-diachronique en français parlé de la région Orléanaise par
les différents locuteurs de la section entretien du corpus ESLO. Nous présenterons une
série d’analyses qui s’appuie sur la richesse des métadonnées disponibles ainsi que sur
une lemmatisation et une annotation en parties du discours des données transcrites.
Corpus, 22 | 2021
77
adoptés par la communauté, chacun d’eux étant (au moins à l’origine) lié à un axe
d’analyse linguistique comme Praat (Boersma & Weenink, 2019) pour la phonétique et
la prosodie ou ELAN (Wittenburg et al., 2006), pour la gestualité et l’étude des langues
peu décrites. Bien que ciblé la plupart du temps sur un type d’usage, il semble normal
qu’un corpus puisse être réutilisé à plusieurs fins scientifiques et par des communautés
scientifiques diverses, et donc avec différents logiciels.
5 C’est dans cet objectif que Parisse a développé, à partir de 2015, un logiciel de
conversion de données dans le cadre de ses travaux effectués au sein de l’équipement
ORTOLANG (Outils et Ressources pour un Traitement Optimisé de la LANGue,
Équipements d’Excellence ANR–11–EQPX–0032) et du consortium CORLI (CORpus,
Langues et Interactions) de la Très Grande Infrastructure de Recherche Huma-Num. La
réalisation technique des logiciels de conversion se présente de deux manières. La
première est celle d’une bibliothèque programmée en langage Java par Myriam
Majdoub et Christophe Parisse. Ce logiciel est disponible en ligne (http://
ct3.ortolang.fr/teicorpo/) et ses sources sont sous licence BSD 2-Clause et sont
librement disponibles sur GitHub (https://github.com/christopheparisse/teicorpo).
Une interface sous forme de service web est également disponible (http://
ct3.ortolang.fr/teiconvert/). Les sources de cette version sont distribuées sous la même
licence (https://github.com/christopheparisse/teiconvert).
6 Ces outils font partie des maillons d’une chaîne de traitement nommée TEI-CORPO et
utilisant le format TEI (Text Encoding Initiative) comme format pivot (Parisse et al.,
sous presse). Ce format pivot partage les informations issues des différentes sources ou
logiciels, sans perte d’informations, et permet en retour d’utiliser d’autres outils. Si ce
format respecte complètement les consignes de la norme TEI/ISO pour ISO 24624:2016,
celui-ci va plus loin puisqu’il permet le codage de fichiers de transcription issus des
logiciels les plus utilisés dans la communauté de l’oral. Les logiciels ont été choisis en
fonction des usages constatés lors de réunions de travail du consortium IRCOM de la
TGIR Huma-Num (2012-2015) : CLAN (MacWhinney, 2000), ELAN, Praat et Transcriber.
De plus, il faut être capable de récupérer, pour un corpus, toutes les métadonnées
fournies par les outils d’origine pour les intégrer dans le format TEI et permettre leur
conservation dans le format de sortie. TEICORPO a utilisé la TEI et la norme TEI/ISO
comme un format souple s’adaptant aux caractéristiques des formats d’origine des
données. Ceci a amené à élargir les usages de la TEI présentés dans la norme TEI/ISO en
ajoutant des informations supplémentaires, sans modifier toutefois le schéma de la TEI
(utilisation de champs commentaires et notes). Sans l’insertion de ces informations,
une conversion des logiciels source vers la TEI serait possible, mais une conversion
inverse de la TEI vers ces logiciels ne le serait plus. TEI-CORPO garantit ainsi l’existence
d’un aller-retour entre un logiciel source et la TEI. En revanche, les conversions
croisées (d’un format logiciel à un autre) sont limitées par les caractéristiques des
logiciels visés.
7 Dès l’origine, TEI-CORPO a aussi été développé pour permettre une conversion des
données TEI depuis ou vers des formats autres que ceux des logiciels d’annotation de
corpus oraux. Il est ainsi possible d’importer et d’exporter des données au format texte
UNICODE et aux formats Microsoft Word ou Microsoft Excel (uniquement les variantes
du format Office Open XML, norme ISO/CEI 29500, extensions usuellement appelées
.docx ou .xlsx) et d’exporter vers les formats de données utilisés par des logiciels de
Corpus, 22 | 2021
78
textométrie comme TXM, Iramuteq (Ratinaud, 2009), Lexico (Lamalle et al., 2003) ou Le
Trameur (Zimina & Fleury, 2015).
8 Le corpus ESLO apparaît comme le corpus oral de langue française le plus volumineux
actuellement librement accessible. Au total, il se compose d’environ 4,9 millions de
mots transcrits à partir de près de 422 heures de données audio recueillies entre 1960 et
aujourd’hui. Le corpus peut être divisé en deux parties, généralement nommées ESLO1
(1968-1974) et ESLO2 (2008 à nos jours). Si plusieurs décennies séparent les deux
périodes de collecte de données, les objectifs scientifiques sont identiques pour les deux
parties du corpus. Il s’agit de recueillir des paroles de la vie quotidienne pour obtenir
des données témoignant de la variété et la diversité des langues parlées
quotidiennement dans la ville d’Orléans, tout en apportant un témoignage précieux sur
la ville en elle-même. Dans cet objectif, le protocole mis en place pour le recueil du
corpus ESLO varie les situations d’interaction. Si la majeure partie de ces dernières
correspondent à des entretiens entre un enquêteur et une personne enquêtée, le corpus
se compose également de paroles recueillies dans les commerces ou dans la rue, à la
sortie d’un cinéma par exemple, d’interviews de personnalités orléanaises, des
conférences universitaires et des communications téléphoniques. Pour chaque
enregistrement, une série de métadonnées permet d’avoir accès à des informations
importantes comme la durée et la date de l’enregistrement ou la qualité de celui-ci.
9 Certains contextes d’interaction se retrouvent dans ESLO1 et ESLO2 et fournissent des
données recueillies suivant le même protocole. Cette spécificité du corpus ouvre la voie
à des analyses micro-diachroniques de phénomènes langagiers et permet l’observation
de l’évolution du français oral. C’est par exemple dans cette perspective qu’Abouda et
Skrovec (2017) ont observé l’évolution des usages des différentes formes d’expression
du futur (futur simple et futur périphrastique) entre ESLO1 et ESLO2. Outre la diversité
des situations d’interaction, celle des profils des locuteurs enregistrés favorise les
études sociolinguistiques. Si les membres du projet ESLO ont veillé à faire varier les
locuteurs au niveau du genre, de l’âge, de la zone d’habitation ou encore du niveau
d’étude et de la catégorie socioprofessionnelle, une des grandes forces du projet réside
dans le fait que l’ensemble de ces métadonnées ont été renseignées de façon exhaustive
et quasi-systématique. Ainsi, il est par exemple non seulement possible d’observer
l’évolution globale d’un phénomène oral comme la (non) production du schwa sur un
plan micro-diachronique en prenant en compte l’ensemble des locuteurs du corpus
mais également de constituer des sous-corpus en fonction des profils de locuteurs afin
d’analyser l’évolution de l’usage du schwa au sein d’une classe d’âge ou d’une catégorie
socioprofessionnelle particulière (Liégeois et al., 2018).
10 La richesse et le volume des (méta)données du projet ESLO nous ont amenés à le
sélectionner afin d’étudier la production des interrogatives partielles en français.
Plusieurs structures phrastiques sont disponibles pour les francophones (Coveney,
2011 ; Delaveau, 2021, pour un panorama) pour construire ces interrogatives, en
particulier celles illustrées en (1a-d) :
(1) a. Tu pars quand ? → in situ (IS)
b. Quand tu pars ? → antéposition (« fronting », F)
c. Quand pars-tu ? → antéposition + inversion (FINV)
d. Quand est-ce que tu pars ? → antéposition + est-ce que (FESK)
Corpus, 22 | 2021
79
11 Ces variantes ont déjà été comparées, par exemple sous l’angle d’une influence de la
situation informationnelle (Boeckx, 1999 ; Beyssade, 2006 ; Déprez et al., 2013), de la
phonotaxe (Hamlaoui, 2009) ou encore, notamment dans les études sur l’acquisition de
ces structures, en termes de complexité structurelle (Jakubowicz, 2011). Ces travaux
n’évitent cependant pas le prisme de l’équivalence sémantique entre les différentes
variantes, vues comme un même contenu propositionnel, partiellement spécifié mais
dont la variable à spécifier est unique et identique à travers toutes les formes. Dans les
exemples (1a-d), le but est ainsi toujours de recueillir l’information temporelle
spécifiant le moment de l’arrivée du ou de la destinataire.
12 En parallèle, d’autres études expérimentales (Thiberge, 2018) ont montré un meilleur
jugement porté par les francophones sur les interrogatives FINV et la projection
d’indices sociaux sur les utilisateurs de ce type de phrase (richesse, éducation, lecture
fréquente…) par contraste avec les types IS et F. L’objectif de notre analyse du corpus
ESLO, décrite en détail dans Thiberge, Badin et Liégeois (soumis), était d’enrichir la
compréhension des facteurs sociolinguistiques pouvant influer sur ces préférences
dégagées expérimentalement, par une analyse de production spontanée. Nous avons
analysé cette variation sous un angle triple :
• micro-diachronique : y a-t-il un eu un changement dans les utilisations des différentes
variantes disponibles entre la première période de recueil (ESLO1, 1968-1974) et la
seconde (ESLO2, 2008-) ?
• diastratique : y a-t-il des différences observables entre les francophones d’une même
époque selon leur tranche d’âge, comme déjà observé dans Thiberge (2018) ? L’âge
étant une donnée démographique qu’on peut en ce sens rapprocher d’autres données
sociales (Gadet, 1996), nous avons ici comparé les productions des tranches d’âge
15-25 ans et 35-55 ans.
• diaphasique : y a-t-il des différences observables selon les contextes interactionnels ?
Nous avons ici comparé les productions en interviews, à l’école et lors de repas.
13 Si le corpus ESLO, de par sa méthodologie de constitution et la richesse de ses
métadonnées associées, apparaît comme la source de données la plus appropriée pour
mener à bien cette analyse de la variation dans des perspectives micro-diachronique,
diastratique et diaphasique, les possibilités actuellement disponibles pour interroger
les données semblent très limitées. Avant ce travail il n’existait en effet, à notre
connaissance, qu’une plateforme d’interrogation en ligne du corpus élaborée par les
membres du projet ESLO (http://eslo.huma-num.fr/index.php/pagecorpus/
pageaccescorpus). Cette plateforme permet une interrogation des données à 4 niveaux :
• du fichier son : un formulaire de requête permet de sélectionner des enregistrements
précis en fonction du titre du fichier, de la date de recueil ou de la qualité sonore.
• le locuteur : un formulaire permet d’obtenir toutes les données répondant à un
locuteur en particulier (par saisie de sa « référence ») ou à un ensemble de locuteurs en
fonction de leurs sexe, tranche d’âge, catégorie professionnelle ou niveau d’étude.
• du fichier de transcription : un formulaire de requête permet de sélectionner des
transcriptions en fonction de leur titre ou encore de la personne qui s’est chargée de la
transcription.
• du texte transcrit : le formulaire disponible pour cette section permet d’effectuer des
requêtes au niveau d’une forme (une forme précise ou en fonction du début ou de la fin
d’une forme) ou d’une série de formes, appelée « motif ». Il est ainsi possible, par
Corpus, 22 | 2021
80
3.1. Visualisation
17 L’un des principaux atouts de l’outil TXM est la possibilité de partitionner un corpus ou
de le diviser en sous-corpus en s’appuyant sur les métadonnées. Pour pouvoir profiter
au maximum cette fonctionnalité, la version TXM du corpus ESLO devra donc contenir
un maximum de métadonnées. Cette ambition pose un double défi. Tout d’abord, il
conviendra de définir une unité de segmentation adéquate des transcriptions du corpus
ESLO. En effet, un tour peut englober les productions de deux locuteurs différents si
celles-ci se chevauchent temporellement. Les productions simultanées de deux
locuteurs se trouvent ainsi intégrées à la même unité de segmentation. Cette méthode
ne peut pas être conservée car elle empêcherait un partitionnement en fonction des
métadonnées locuteurs (identifiant, âge, catégorie socioprofessionnelle etc.). Il
conviendra de regrouper ensemble les productions d’un seul et même locuteur. Le
deuxième défi technique consistera à intégrer au niveau de cette unité de segmentation
des métadonnées stockées indépendamment des transcriptions.
3.3. Interrogation
18 Dans sa forme de départ, le corpus ESLO ne permet qu’une interrogation des données
au niveau de la forme orthographique transcrite, c’est-à-dire du token. Pour mener à
bien nos analyses, une segmentation en tokens et un étiquetage minimal au niveau du
lemme et de la catégorie morphosyntaxique est indispensable. L’outil TXM proposant
Corpus, 22 | 2021
81
Corpus, 22 | 2021
82
en regroupant les productions des locuteurs (attribut speaker) dans un même tour (cf.
exemple 1).
23 Les limites imposées par le système de chevauchement ne permettent pas de maintenir
une limite de tour correcte. Ainsi dans exemple 1, le segment « euh normale enfin
typique si vous voulez euh oui » du locuteur « spk1 » devrait appartenir au tour de
parole précédent.
24 Pour ces raisons, la division en segments du corpus ESLO n’est pas parfaite. Nous ne
chercherons pas à modifier ici les caractéristiques des alignements temporels. Cette
opération pourrait en revanche être envisagée à une autre étape en effectuant des
traitements spécifiques à l’intérieur de la TEI.
25 La conversion vers la TEI respecte les indications de la norme TEI/ISO (ISO 24624:2016).
Cette conversion se réalise à l’aide du programme java disponible sur la page de
TEICORPO (http://ct3.ortolang.fr/teicorpo/teicorpo.jar).
26 Un fichier TEI peut être créé à partir d’un fichier Transcriber en effectuant la
commande suivante (le résultat obtenu est visible en Exemple 2) :
java -cp teicorpo.jar fr.ortolang.teicorpo.TeiCorpo nom_du_fichier_transcriber
27 Nous pouvons remarquer que, dans le fichier de sortie, la notion de tour de parole n’est
pas conservée et que le découpage se fait sur la base des segments pour respecter les
indications du format TEI. Les événements du format Transcriber sont conservés.
Aucun nettoyage de données n’est réalisé lors de cette conversion, dans le but de
garantir une conversion inverse.
Corpus, 22 | 2021
83
28 Dans le cadre d’ESLO, les métadonnées sont éditées et sauvegardées au format tableur.
Les métadonnées sont de deux types : celles qui concernent tout un enregistrement et
celles qui concernent des locuteurs. Le procédé d’importation automatique est
légèrement différent dans les deux cas.
Exemple 3. Fichier CSV des métadonnées Enregistrement (seules les 4 premières colonnes sont
présentées)
Corpus, 22 | 2021
84
Exemple 5. Fichier CSV des métadonnées Locuteurs (seules les premières colonnes sont
présentées)
Corpus, 22 | 2021
85
<teiHeader>) et donc séparées des données situées dans un élément <text> (qui
regroupent les éléments <div>, <u>, <w>).
37 La conversion réalisée par TEICORPO consiste donc à créer une version « simplifiée » du
fichier TEI contenant des éléments <u> (les segments) et éventuellement des éléments
<div>. À l’intérieur de ces éléments sont ensuite projetées, sous forme d’attributs XML,
toutes les informations métadonnées.
38 Pour cela, on utilise un paramètre de la commande de conversion : « -mv » (pour
métadonnée et valeur) :
• pour indiquer des métadonnées indépendantes du locuteur : -mv
champ_txm:chemin_xpath
• pour indiquer des métadonnées dépendantes du locuteur : -mv
champ_txm:chemin_xpath:nom_du_locuteur
39 Pour un traitement multiple, le nom du locuteur peut être remplacé par « * ». La
commande est alors de ce type :
java -cp teicorpo.jar fr.ortolang.teicorpo.TeiToTxm nom_de_fichier_TEI -mv
domain:domain/@nature … -mv educ:education:* -utt -spk pers -rawline
40 Avec :
• -utt : pour obtenir une sortie segmentée en énoncés (par défaut en mots).
• -spk pers : indique qu’on veut utiliser les champs « persName » (nom du locuteur) et
non « alt » (code du locuteur).
• -rawline : pour ne convertir que le texte sans les codes spéciaux de l’oral (silences,
pauses, etc.). Un exemple de résultat obtenu est présenté dans l’exemple 7 ci-dessous.
41 L’intégration dans TXM se fait via l’import XML-TEI Zero + CSV. Il n’y a plus besoin
d’indiquer de CSV comme fichier de métadonnées puisque les informations ont déjà été
intégrées aux données. Nous sélectionnons en revanche l’option « Annoter les
données » puisque l’étiquetage morphosyntaxique n’a pas été réalisé via TEICORPO au
moment de la conversion.
42 Nous proposons une version du corpus en projetant notamment les indications
concernant le nom du locuteur, les éléments paraverbaux (comme les rires par
exemple) et l’empan temporel (optionnel) dans un élément XML spécifique de type
<meta>. En procédant ainsi, ces informations particulièrement pertinentes pour
l’interprétation des données et la lecture de la transcription ne sont pas indexées par
l’outil (paramètre de l’import : plans textuels > hors texte à éditer = meta) mais visibles
dans la partie d’édition du logiciel. Les textes sont ainsi visualisés par TXM sous la
forme présentée dans l’exemple 8. Grâce à l’utilisation des balises <p>, chaque segment
Corpus, 22 | 2021
86
est affiché dans une ligne distincte. L’absence de cette balise entraînerait un affichage
au kilomètre, plus compact mais beaucoup moins lisible.
43 L’avantage de ce format est qu’il permet l’écoute des fichiers média (voir extension
MediaPlayer dans https://groupes.renater.fr/wiki/txm-users/public/extensions_beta)
grâce aux attributs « start » et « end » de la balise <u>. Cette écoute peut se faire dans le
concordancier (voir Exemple 9) au moyen d’un clic droit qui proposera l’option « jouer
le média ».
Corpus, 22 | 2021
87
moteur de recherche TXM, puis les extractions obtenues ont été filtrées manuellement
pour ne conserver que les interrogatives non-sujet, finies, et racines (N=617). Le choix
des variantes observées, le détail des critères d’extraction, des annotations syntaxiques
effectuées puis de l’analyse statistique menée sont décrits dans Thiberge, Badin &
Liégeois (soumis) ; nous en résumons les principaux résultats pour mieux illustrer
l’intérêt de la méthodologie présentée ici.
46 En croisant les données des corpus ESLO1 et ESLO2, une évolution importante des
pratiques linguistiques peut s’observer. Alors que dans les années 1960 (ESLO1), moins
d’un quart des interrogatives partielles sont in situ (IS, Tu pars quand ?), leur proportion
d’emploi atteint près de 60% dans les années 2000 (ESLO2), toutes personnes et
contextes confondus. En parallèle, la part d’interrogatives antéposées de manière
générale, mais en particulier d’antéposées avec inversion verbe-sujet (FINV, Quand pars-
tu ?) baisse drastiquement, passant de 22% d’emploi à 8% environ.
47 Cette observation est nuancée par un facteur d’âge, déjà observé lors d’expériences
(Thiberge, 2018). Et c’est ici que tout le travail effectué pour projeter les métadonnées
locuteurs sur les extractions du corpus ESLO prend son véritable sens.
48 La différence d’emploi entre IS et antépositions n’est en surface pas très importante
entre groupes générationnels : 42% d’in situ et 15% de FINV chez les 35-55 ans contre
51% d’in situ et 9.5% de FINV chez les 15-25 ans, tous corpus et contextes confondus. Si
l’on regarde en détail en contrastant à la fois les corpus et les groupes d’âge, cependant,
les différences générationnelles se font plus fortes, différemment pour chaque époque.
49 Ainsi, dans les années 1960 (ESLO1), alors que les deux groupes d’âge emploient la
même proportion d’in situ (25% environ), les 35-55 ans emploient presque deux fois plus
de FINV que les 15-25 ans (25% contre 13%). Dans les années 2000 (ESLO2), alors que les
15-25 ans emploient près de 70% d’in situ et 18% d’antéposition simple (F, Quand tu
pars ?), les 35-55 ans emploient « seulement » 55% d’in situ et près de 27% d’antéposition
simple.
50 Les phénomènes de variation sociolinguistique sont souvent observés sous un tel
prisme sociolectal : à tel groupe de personnes (défini par son âge, sa catégorie
socioprofessionnelle, son éducation, etc.) correspondrait une variante principale. C’est
la perspective adoptée dans la plupart des travaux menés en sociolinguistique sur
l’interrogation partielle en français jusqu’ici (Pohl, 1965 ; Terry, 1970 ; Behnstedt, 1973 ;
Ashby, 1977 ; Söll, 1982 ; Coveney, 1996). Cette observation doit cependant elle aussi
être nuancée.
51 La variation peut en effet aussi être vue comme un outil dont les locuteurs et locutrices
se servent, plus ou moins consciemment, pour influer sur le masque social (persona) que
les personnes à qui ils ou elles s’adressent construisent à leur égard. Cette conception
est à l’origine d’un renouvellement de la littérature sociolinguistique depuis la fin du
Corpus, 22 | 2021
88
XXe siècle (Eckert, 2012, pour une description de ces changements). Dans la lignée de ce
cadre théorique, les stratégies interactionnelles étant nécessairement différentes selon
le contexte d’interaction (influence du public, du niveau de formalité jugé approprié/
nécessaire), nous avons contrasté les trois contextes principaux où se trouvaient les
interrogatives partielles extraites (interviews, N=336 ; école, N=130 ; repas, N=94).
52 Un net contraste apparaît alors, tous groupes d’âge confondus, avec par exemple 72%
d’in situ lors de repas, contre 50% à l’école et à peine 31% en interviews. En contraste,
seulement 3.2% d’antépositions avec inversion sont observées lors des repas, contre
près de 15% à l’école, et 18% en interviews. Ceci s’explique sans doute par les
contraintes sociales pesant sur ces différents contextes : les repas sont des situations
informelles entre proches alors que les interviews, même si elles sont menées à la
maison, sont un type d’interaction très particulier où un ou une scientifique extérieur.e
au cercle social familier pose des questions à l’interrogé.e sur son histoire et ses
habitudes de vie. Les contextes d’école quant à eux semblent un milieu presque
intermédiaire, où un adulte s’adresse à des enfants dans un cadre semi-formel (classes
d’enfants, mais milieu institutionnel). Il est à noter aussi une forte proportion
d’antéposition en « est-ce que » (FESK, Quand est-ce que tu pars ?) en interviews (18%) par
rapport aux deux autres contextes (5% à l’école, 6% en repas).
Corpus, 22 | 2021
89
6. Conclusion et perspectives
55 L’objectif principal de notre travail était de proposer une méthode de compilation du
corpus ESLO dans le but de le rendre exploitable avec l’outil de textométrie TXM et, à
partir des données obtenues, de présenter une brève analyse de l’usage des énoncés
interrogatifs par les locuteurs du corpus. Notre étude s’est donc focalisée sur la
problématique de l’interopérabilité des données et rend compte des possibilités offertes
en la matière par l’outil TEICORPO. Si, avant cette étude, l’outil proposait déjà une série
d’opérations de conversion permettant d’exploiter et d’explorer un même corpus au
moyen d’une suite d’outils variés, les développements effectués dans le cadre de ce
travail permettent aujourd’hui de fournir à la communauté une version du corpus ESLO
totalement inédite et particulièrement efficace pour mener à bien des travaux dans des
perspectives sociolinguistiques et micro-diachroniques.
56 Exploitant toutes les potentialités de l’outil TXM, la version du corpus ESLO que nous
proposons aujourd’hui pourrait favoriser la réutilisation de données riches qui, selon
nous, n’ont que trop peu été explorées par les chercheurs du domaine. Ainsi, nous
fournissons une version « clé en main » du corpus ESLO permettant d’effectuer des
requêtes multi-niveaux (forme, lemme, catégorie morphosyntaxique) paramétrables en
fonction de la richesse des métadonnées préalablement disponibles au niveau des
enregistrements (époque de recueil et situation d’interaction par exemple) et des
locuteurs (âge, catégorie socioprofessionnelle et niveau d’étude par exemple). L’analyse
des énoncés interrogatifs que nous avons présentée révèle non seulement la pertinence
de l’approche méthodologique mise en place mais illustre également que le corpus
ESLO peut fournir des données particulièrement pertinentes pour l’étude du langage
oral, et ce quel que soit l’axe d’analyse privilégié (sémantique, syntaxique,
sociolinguistique…).
57 Grâce aux développements continuels de l’équipe de TXM et aux retours utilisateurs,
des améliorations internes à TXM sont prévues pour faciliter l’interrogation des corpus
oraux. En effet, l’écoute pourra se faire également au niveau de l’édition et non pas
uniquement en passant par les résultats d’une recherche de concordances, ce qui
permettra par exemple une écoute de l’ensemble du contexte entourant l’élément
recherché. Il ne sera alors plus nécessaire d’utiliser le logiciel VLC, la lecture du signal
sonore étant intégrée à l’outil. Enfin, les fichiers sonores pourront être lus depuis un
serveur et n’auront plus nécessairement à être stockés sur un poste de travail ce qui,
pour un corpus particulièrement volumineux comme ESLO, est un avantage certain.
BIBLIOGRAPHIE
Abouda L. & Skrovec M. (2017). « Du rapport micro-diachronique futur simple / futur
périphrastique en français moderne. Étude des variables temporelles et aspectuelles ». Corela,
HS-21, 1-25.
Corpus, 22 | 2021
90
Barras C., Geo E. & Wu Z. (2001). « Transcriber : Development and Use of a Tool for Assisting
Speech Corpora Production ». Speech Communication, 33 : 5-22.
Behnstedt P. (1973). Viens-tu ? Est-ce que tu viens ? Tu viens ? Formen und Strukturen des direkten
Fragesatzes im Französischen. Tübingen, Narr.
Beyssade C. (2006). « La structure de l’information dans les questions : quelques remarques sur la
diversité des formes interrogatives en français ». Linx, Revue des linguistes de l’université Paris X
Nanterre, 55 : 173-193.
Boersma P. & Weenink D. (2019). « Praat : doing phonetics by computer ». [Computer program].
Version 6.0.37, retrieved 14 october 2019 from http://www.praat.org/.
Coveney A. (1996). Variability in spoken french : a sociolinguistic study of interrogation and negation.
Exeter, Elm Bank Publication.
Déprez V., Syrette K. & Kawahara S. (2013). « The interaction of syntax, prosody, and discourse in
licensing french wh-in-situ questions », Lingua, 124 : 4-19.
Eckert P. (2012). « Three waves of variation study : The emergence of meaning in the study of
sociolinguistic variation ». Annual review of Anthropology 41 : 87-100.
Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). « Un grand corpus
oral “disponible” : le corpus d’Orléans 1968-2012 ». TAL, 52(3) : 17-46.
Heiden S., Magué J.-P. & Pincemin B. (2010). « TXM : Une plateforme logicielle open-source pour
la textométrie - conception et développement ». In S. Bolasco, I. Chiari, & L. Giuliano (éd.), 10th
International Conference on the Statistical Analysis of Textual Data - JADT 2010, 2 : 1021-1032. Rome,
Italy : Edizioni Universitarie di Lettere Economia Diritto.
Lamalle C., Martinez W., Fleury S., Salem A., Fracchiolla B., Kuncova A. & Maisondieu A. (2003).
Lexico 3 version 3.41. Outils de statistique textuelle. Manuel d’utilisation. Laboratoire SYLED-
CLA2T, Université de la Sorbonne nouvelle - Paris 3.
Liégeois L., Skrovec M., Abouda L. & Belhoum S. (2018). « Usage du schwa au sein des
constructions de type je vais : une marque d’un processus de grammaticalisation du futur
périphrastique ? », In Colloque de la Société Internationale de Diachronie du Français, Neuchâtel.
MacWhinney B. (2000). The CHILDES Project : Tools for Analyzing Talk. 3rd Edition. Mahwah, NJ :
Lawrence Erlbaum Associates.
Corpus, 22 | 2021
91
Parisse C. & Le Normand M.-T. (2006). « Une méthode pour évaluer la production du langage
spontané chez l’enfant de 2 à 4 ans ». Glossa, 97 : 20-41.
Parisse C., Etienne C. & Liégeois L. (sous presse). « TEICORPO : A Conversion Tool for Spoken
Language Transcription with a Pivot File in TEI ». Journal of the Text Encoding Initiative.
Pohl J. (1965). « Observations sur les formes d’interrogation dans la langue parlée et dans la
langue écrite non littéraire ». Actes du Xe Congrès International de Linguistique et de Philologie
Romanes, Tome 2, Paris, Klincksieck, 501-513.
Thiberge G. & Hemforth. B. (2019). « Variation in French Partial Interrogatives : Social meaning
as a key factor ». Poster présenté à la 8th Experimental Pragmatics conference (XPrag 2019).
Edinburgh, Scotland.
Thiberge G., Badin F. & Liégeois L. (soumis). « French partial interrogatives : a microdiachronic
study of variation and new perspectives in a refined pragmatics framework ». Faits de Langue.
Wittenburg P., Brugman H., Russel A., Klassmann A. & Sloetjes H. (2006). « ELAN : a Professional
Framework for Multimodality Research ». In Proceedings of the Fifth International conference on
Language Resources and Evaluation, 1556-1559.
Zimina M. & Fleury S. (2015). « Perspectives de l’architecture Trame/Cadre pour les alignements
multilingues ». Nouvelles Perspectives En Sciences Sociales, 11(1) : 325-353. https://doi.org/https://
doi.org/10.7202/1035940ar.
RÉSUMÉS
Pour répondre aux problématiques engendrées par la diffusion de plus en plus massive des
corpus linguistiques et à l’hétérogénéité de leurs formats, nous proposons une méthode
permettant de prendre en main des corpus langagiers oraux et de les convertir dans un format
permettant leur exploitation outillée. Pour cette recherche, le corpus ESLO nous sert d’exemple
par sa licence de diffusion, son format, son volume et ses atouts sociolinguistiques et
diachroniques. Notre travail se fonde sur la compilation de ce corpus pour le rendre compatible
avec l’outil de textométrie TXM. Nous opérons un ensemble de transformations des données pour
l’utiliser au mieux. Enfin, pour illustrer les apports de ces avancées méthodologiques, nous
proposons une analyse fine et multidimensionnelle de l’usage des interrogatives dans le corpus
ESLO.
Corpus, 22 | 2021
92
To answer the increasing trend of corpora sharing and data format heterogeneity, we present a
method for converting spoken language corpora to several tool formats in order to facilitate
linguistic analysis. For this research, we take as an example the ESLO corpus for several reasons:
its open-source licence, its standard format used for its construction, its size, and its
sociolinguistic and micro-diacronic characteristics. Our study is based on a compilation of the
ESLO corpus in order to make it compatible with the textometric tool TXM. We operate a set of
operations to use all the possibilities the tool offers. Finally, we present a fine-grained and
multidimensional analysis of the interrogatives utterances used in the ESLO corpus.
INDEX
Mots-clés : corpus oraux, interopérabilité, textométrie, XML, interrogatives
Keywords : spoken language corpora, interoperability, text analysis, XML, interrogatives
AUTEURS
FLORA BADIN
LLL, UMR 7270, Université d’Orléans, COMUE Centre-Val de Loire,
CNRS, F- 45065 Orléans, France
LOÏC LIÉGEOIS
CLILLAC-ARP, EA 3967, Université de Paris, Sorbonne Paris
Cité, F-75013 Paris, France
LLF, UMR 7110, Université de Paris, Sorbonne Paris Cité,
CNRS, F-75013 Paris, France
GABRIEL THIBERGE
LLF, UMR 7110, Université de Paris, Sorbonne Paris Cité,
CNRS, F-75013 Paris, France
CHRISTOPHE PARISSE
MODYCO, INSERM, CNRS/Université Paris Nanterre, F 92000,
Nanterre, France
Corpus, 22 | 2021
93
1. Introduction
1.1. Une nécessité de Sciences Ouvertes
Corpus, 22 | 2021
94
4 (1) des signaux de haute qualité, afin que les distorsions et le bruit ne soient pas
attribués à des dysfonctionnements de la voix ou de la parole.
5 (2) des énoncés suffisamment informatifs. Les voyelles tenues sont nécessaires pour
évaluer le mécanisme de phonation mais la parole continue est incontestablement plus
naturelle du point de vue de la communication orale (Parsa et al., 2001).
6 (3) des informations cliniques, suffisamment précises, pour gérer différents ensembles
de locuteurs et différents contextes d’élocutions (avec/sans médicament, avant/après
rééducation ou opération chirurgicale, durée de la maladie, durée des traitements,
etc.).
7 (4) un grand nombre de locuteurs. Toute généralisation d’une population clinique
spécifique nécessite la prise en compte de nombreux intervenants en raison de la très
grande variabilité inter-locuteurs rencontrée (différentes évolutions de la maladie,
stratégies de compensation individuelle, gravité et spécificité des maladies).
8 Si les problèmes de prise de son ou autres signaux physiologiques sont en passe de
devenir anecdotiques grâce à la diffusion de matériels de qualité et à la meilleure
formation des personnels en charge des enregistrements, si le stockage des signaux de
parole ne constitue plus actuellement un obstacle, si le recours à du matériau
linguistique suffisant se généralise, le maillon faible reste la normalisation et la
structuration des données sur les locuteurs et leurs productions langagières.
Corpus, 22 | 2021
95
Corpus, 22 | 2021
96
20 Pendant plus de vingt ans, le service ORL du CHU de la Timone à Marseille (à présent
localisé sur l’hôpital de la Conception) a enregistré des patients dysphoniques qui
venaient en consultation médicale (Ghio et al., 2012). Pour des raisons logistiques, les
informations sur les patients étaient stockées sur des cahiers dans lesquels sont
indiqués l’identité des locuteurs, leur pathologie, la date de l’examen, le contexte pré/
post-opératoire, etc. Un important travail de numérisation, d’indexation et de saisie
d’informations a permis de constituer une collection de 1530 patients dysphoniques
produisant des voyelles tenues, lisant un texte, chantant une chanson pour un total de
1953 sessions d’enregistrements (certains locuteurs sont enregistrés plusieurs fois).
Cette collection comprend des données provenant de 504 hommes et 1026 femmes. Les
principales pathologies sont les nodules, les paralysies laryngées, les polypes, les
œdèmes de Reinke et les dysphonies dysfonctionnelles à larynx normal. Parmi ces
locuteurs dysphoniques, 332 d’entre eux ont été enregistrés plusieurs fois (ex : avant et
après chirurgie).
21 La plupart des productions vocales (1766 sessions) ont été évaluées de manière
perceptive à l’aide de l’échelle GRBAS (Hirano, 1981). Cette évaluation réalisée par une
unique orthophoniste lors de la session d’enregistrement doit être considérée comme
un niveau approximatif de la dysphonie.
Corpus, 22 | 2021
97
Corpus, 22 | 2021
98
32 Dans le cadre du projet C2SI (Carcinologic Speech Severity Index) financé par l’INCA, le
service d’oncoréhabillitation de l’Oncopole à Toulouse a collecté une série
d’enregistrements de la parole de patients post cancer des VADS. Un tel corpus est
utilisé pour mesurer l’impact du cancer de la cavité buccale et pharyngée sur la
production de la parole (Woisard et al., 2020). Il permettra à terme d’évaluer la qualité
de vie des patients après le traitement. Le corpus est composé d’enregistrements audio
de 134 sessions avec les métadonnées associées (taille et localisation de la tumeur,
traitement…). Plusieurs niveaux d’intelligibilité et de compréhensibilité des fonctions
langagières ont été évalués : pseudomots (Ghio et al., 2018), phrases, fonctions
prosodiques (Nocaudie et al., 2018), lecture de texte. Des taux d’évaluation perceptive
de jurys naïfs et d’experts sont en cours d’élaboration ainsi que des analyses
automatiques (Laaridh et al., 2018). Il est destiné à fournir aux orthophonistes et aux
médecins des outils objectifs, qui prennent en compte l’intelligibilité des patients ayant
reçu un traitement anticancéreux (chirurgie et/ou radiothérapie et/ou
chimiothérapie). Ce corpus C2SI sera mis à la disposition de la communauté scientifique
par le biais du groupe d’intérêt scientifique Parolothèque6.
33 Si le bégaiement fait l’objet d’un grand nombre d’études dans les pays anglo-saxons,
cela est moins vrai dans le monde francophone. Cette situation peut s’expliquer par le
fait qu’il s’agit d’un trouble ne touchant qu’environ 1% de la population (Didirkova,
2016) et que, contrairement aux autres altérations de la parole, aucune structure ne
centralise sa prise en charge. C’est donc pour favoriser la recherche sur le bégaiement
que le laboratoire Praxiling, aidé par un financement du consortium CORLI, a proposé
le corpus intitulé Paroles disfluentes (Didirkova et al., 2017).
34 Paroles disfluentes se compose de 38 fichiers audio au format .wav, chacun des fichiers
étant accompagné d’une transcription au format Textgrid. Ces enregistrements portent
Corpus, 22 | 2021
99
sur 17 locuteurs adultes qui bégaient, autrement dit 13 hommes et 4 femmes âgés en
moyenne de 32 ans (écarts-type : 11 ans).
35 Les données proviennent de plusieurs études qui portaient sur les situations de double
tâche en parole bègue ou encore sur la description articulatoire et acoustique du
bégaiement. En conséquence, les tâches enregistrées consistaient en de la lecture, de la
parole spontanée et des résumés de contes pour enfants.
36 Le corpus est actuellement disponible, après demande, sur la plateforme Ortolang, à
l’adresse suivante : https://www.ortolang.fr/market/corpora/paroles-disfluentes. Il
sera complété par les données actuellement recueillies dans le cadre du programme
ANR BENEPHIDIRE (ANR-18-CE36-0008, responsable : Fabrice Hirsch), une fois celui-ci
arrivé à son terme.
Corpus, 22 | 2021
100
notion de système de gestion de base de données (SGBD) qui doit gérer ces concepts
selon le modèle de données. Ce système a pour objet de (1) clarifier le partage des
données entre les différents utilisateurs, (2) protéger la confidentialité des données si
nécessaire, (3) répondre aux requêtes et (4) fournir différentes langues d’accès en
fonction du profil de l’utilisateur.
40 Dans notre cas, nous avons opté pour un modèle relationnel, considéré comme le
modèle de base de données le plus simple et le plus élégant. Sa simplicité vient de
l’organisation tabulaire des données, atomistique et minimaliste, rendant l’architecture
des données intuitive, les éléments de chaque table étant liés par des relations.
41 Le modèle conceptuel adopté et le choix des tables ont émergé par l’usage en
concertation avec les cliniciens. Le choix des métas données sélectionnées est le
résultat de l’informatisation des usages en dossier papier et des données de gestion. En
effet, la plupart des études cliniques impose la tenue d’un cahier d’observation (Case
Report Form, CRF8) qui rassemble les données individuelles de chaque patient.
Traditionnellement, ce CRF est sous la forme de fiches au format papier remplies au
moment de l’examen. L’exploitation ensuite de ces données nécessite une saisie
informatisée manuelle des informations. Cet usage est, d’une part, chronophage mais
peut aussi être source d’erreurs ou peut engendrer des pertes de données.
L’informatisation d’un CRF en e-CRF (format électronique) est donc une bonne solution
et passe par une organisation en base de données suffisamment généraliste pour
s’adapter à des contextes différents (usages variables selon les centres hospitaliers, les
services, les objectifs des études). Un autre exemple d’adaptation aux nécessités
cliniques réside dans les relations que nous avons mises en place entre les tables de la
base de données. Si par exemple, en neurologie, un diagnostic peut être directement
mis en lien avec un locuteur (ce qui se traduit en termes de base de données par une
jonction des tables ‘tbl_speaker’ et ‘tbl_diagnoses’, Figure 1), cette propriété est
directement liée au fait qu’une maladie neurodégénérative telle que la maladie de
Parkinson une fois diagnostiquée ne disparaitra pas et restera « attachée » à la
personne. En revanche, un diagnostic ORL tel que des nodules ou des polypes pourra
être vrai au temps T mais ce diagnostic pourra ensuite disparaitre si ces nodules se
résorbent suite à un repos vocal, après une rééducation orthophonique ou une
chirurgie (voir corpus MTO). Attacher un diagnostic directement à un locuteur n’est
donc pas adapté. C’est ainsi qu’est apparue la nécessité d’introduire la notion de
‘session’ (Figure 1) qui représente l’état du patient à un temps T (celui de la visite
médicale durant laquelle il est enregistré). Cette session est alors associée au locuteur.
Les diagnostics et les symptômes ne sont pas directement associés au locuteur mais ils
le sont à la session. Lors des requêtes qui permettent de sélectionner des
enregistrements répondant à un critère, on ne cherchera pas directement les locuteurs
qui répondent à un choix (ex : locutrices porteuses de nodules) mais on s’attachera à
rechercher les sessions attachées à des locutrices durant lesquelles un diagnostic de
nodules a été porté.
42 Comme le résume la figure 1, la BD est composée d’une cinquantaine de tables qui
donnent les informations civiles (date et lieu de naissance, lieu de résidence…),
sociolinguistiques (langue maternelle, professions…), médicales (symptômes,
diagnostic, traitements habituels), sessions d’enregistrement (date, lieu, opérateur…),
contexte d’enregistrement (avec/sans traitement), protocole expérimental (tâche,
instructions au participant, contenu linguistique, dispositifs utilisés…), documents
Corpus, 22 | 2021
101
Figure 1. Modèle conceptuel de données préconisé pour la gestion de base de données de parole
pathologique issu de la mise en conformité RGPD du modèle proposé par (Ghio et al., 2012). Afin de
garantir la sécurité et la protection des données personnelles, cette mise en conformité a nécessité
la suppression de la table ‘tbl_medical_history’ qui contenait des informations trop personnelles
ainsi que la table ‘tbl_civil’ qui permettait de lever l’anonymat.
Corpus, 22 | 2021
102
médicales – relatives aux locuteurs et aux contextes médicaux dans lesquels elles ont
été enregistrées. Ces informations sont essentielles pour pouvoir espérer appréhender
correctement les multiples sources de variation à la fois linguistique et clinique que
l’on retrouve dans la parole pathologique. Par exemple, étudier la variation induite par
la maladie de Parkinson n’est pas possible si le chercheur n’a accès qu’aux
enregistrements sonores. Il aura besoin, en plus des informations socio-
démographiques traditionnelles, de connaitre l’ancienneté de la maladie de chaque
locuteur, l’évaluation motrice effectuée par le neurologue (UPDRS), la sévérité de la
dysarthrie, le traitement médicamenteux usuel, l’état médicamenteux au moment de
l’enregistrement (délai de la dernière prise de médicament)… En effet, seule la
connaissance de ces informations permettra de comparer ce qui est comparable (voir
corpus AHN ou CCM). À l’inverse, essayer de dégager de l’information linguistique sur
un corpus de locuteurs parkinsoniens dont on ignore l’ancienneté de la maladie, le
traitement thérapeutique, l’état moteur… ne permettra en aucune façon d’expliquer la/
les variation(s) observées dans ce type de parole. Il en est de même pour l’étude des
productions langagières de patients ayant un handicap de parole post cancer de la
cavité buccale et de l’oro-pharynx (voir corpus C2SI ou Strasbourg). Les variations
impactant l’intelligibilité de ces patients doivent être mises en perspective avec la
localisation précise de la tumeur, la taille de la tumeur, le geste chirurgical pratiqué, la
possible reconstruction, la dose de radio et/ou chimiothérapie, le délai depuis la
chirurgie… Bref, le stockage des informations cliniques sous une forme organisée en
base de données est incontournable pour l’étude de la variation physiopathologique
dans la parole. Par conséquent, il est recommandé d’obtenir un maximum
d’informations sur les aspects suivants :
46 Il est conseillé de compléter les informations des locuteurs par des commentaires sur
l’état du patient.
• Suivi médical (ex : état psychologique, syndrome dépressif, hallucinations, troubles du
comportement et/ou cognitifs, autres troubles)
• Traitements thérapeutiques (ex : chirurgie, médecine, orthophonie, électrophysiologie…)
Corpus, 22 | 2021
103
• Facteurs pouvant provoquer ou favoriser la maladie (ex : Alcool et tabac, pollution sonore et
atmosphérique, allergie respiratoire, abus vocal, stress, intubation…).
47 Ces informations permettent d’inclure ou d’exclure des patients en fonction des
finalités de l’étude.
48 Les symptômes du patient et les signes observés par le médecin doivent également être
indiqués (ex : dysphonie, dysarthrie, tremblements, fuite glottique, trouble cognitif,
trouble du traitement auditif), ainsi que la date à laquelle ils ont été observés, donnant
éventuellement une indication de certitude et si nécessaire, la localisation anatomique
(par exemple mâchoires, membre supérieur droit / gauche-supérieur, membre droit /
gauche-inférieur…).
49 Les diagnostics posés par le médecin (ex : nodule, polype, maladie de Parkinson,
maladie de Charcot, traumatisme crânien…), la date de leur établissement, avec une
indication possible de certitude, et si nécessaire, leur anatomie la localisation (par
exemple, à gauche/droite, lobe frontal, lobe pariétal…) doit également être indiquée.
50 Le contexte clinique dans lequel le patient est enregistré représente une information
importante à collecter afin d’effectuer des analyses rigoureuses et significatives. Voici
quelques-uns des contextes expérimentaux à collecter :
• Statut pharmacologique (par exemple, la date et l’heure du dernier médicament, la nature et
la quantité habituelle du médicament et la médication pendant l’enregistrement du
patient…)
• État de neurostimulation activé et désactivé
• Situation pré/post-opératoire (par exemple la date de l’opération…)
• Informations complémentaires (par exemple « le patient a une bronchite, porte un corset, a
eu son médicament il y a 4 heures, a oublié ses lunettes… »)
3.2.6. Protocole
Corpus, 22 | 2021
104
3.2.7. Document
3.2.8. Évaluations
55 Nous ne nous intéressons pas ici à la protection des bases de données c.-à-d. ni au droit
d’auteur reposant sur la structure originale de la base de données, ni au droit sui generis
destiné à protéger l’investissement financier, matériel et humain entrepris par le
producteur de la base de données.
56 Comme décrit plus haut, une base de données dédiée aux troubles de la voix et de la
parole est amenée à être alimentée par différentes sources9 de données de natures
diverses (clinique, sonore, physiologique…) collectées auprès de patients et de sujets
contrôles. Cette approche multicentrique oblige le producteur de base de données à
s’assurer au respect des conditions de collecte et de cessation des différents corpus qui
la composent. Cette obligation est d’autant plus essentielle que la plupart des données
des corpus sont dites « sensibles »10 car elles informent sur l’état de santé des patients
enregistrés durant leur parcours de soins courants.
Corpus, 22 | 2021
105
57 La livraison d’un corpus en vue d’être migré dans une base de données, doit être
formalisée sous une forme contractuelle ou conventionnelle, entre le service
hospitalier collecteur des données et le producteur de la base de données. Cet acte
juridique bilatéral permet d’organiser la cession des droits de propriété intellectuelle,
et plus particulièrement des droits d’auteur, dans le respect des exigences légales. Il
permet également de définir la gestion des aspects relatifs à la confidentialité et à la
gouvernance des données.
58 Tel que décrit au paragraphe « Une reconnaissance interdisciplinaire des
contributions » et même si cela n’est pas une obligation à respecter, nous préconisons
fortement de conditionner la diffusion d’un jeu de données pour un requérant avec
l’accord du producteur des données et la délivrance d’une licence d’utilisation. Cette
licence permet de fixer les modalités spécifiques de la mise à disposition des données,
ainsi que l’obligation de citer l’investigateur clinique dans tous les travaux publiés et
fondés sur les données collectées sous son égide.
59 De par le caractère « sensible » des données collectées dans les services hospitaliers,
l’anonymisation des données doit s’imposer avant leur migration dans la base de
données et ce, même si le consentement éclairé est recueilli auprès des patients en
préambule de la passation hospitalière. L’objectif est que le producteur de la base de
données n’ait aucune possibilité de pouvoir identifier nominativement les personnes
enregistrées dans celle-ci. Le renforcement de la protection des données et des
personnes (RGPD, loi Jardé) nous impose d’adopter des solutions limitant l’usage de
texte libre pour préférer l’utilisation de listes à choix forcé, de cases à cocher, ce qui
impacte directement le modèle conceptuel de la base de données.
60 Afin de ne pas diffuser d’informations permettant d’identifier (in)directement les
personnes, différentes techniques d’anonymisation peuvent être appliquées sur la base
de données :
• Hachage du nom et du prénom (algorithme SHA-2 i.e. Secure Hash Algorithm) 11
• Minimisation des données (suppression de l’anamnèse, de l’histoire personnelle…)
• Généralisation des lieux de résidence au département, de la date de naissance à l’année, de la
profession à la catégorie socio-professionnelle…
61 Cependant certaines de ces techniques présentent des limites ne permettant pas
d’atteindre une anonymisation complète des données. Un risque résiduel pour les
personnes concernées peut encore exister. Tout d’abord, l’anonymat par hachage ne
peut être garanti de façon absolue en raison de risques d’attaque par « force brute »
consistant à tester toutes les solutions possibles pour établir une table de
correspondance. Ensuite, l’anonymisation des données sonores ne peut être envisagée
dans le cadre de la recherche scientifique. En effet, même si la CNIL définit la voix 12
comme une donnée personnelle permettant d’identifier indirectement une personne
physique, le bruitage ou la déformation des enregistrements sonores entraverait
considérablement toute recherche en linguistique et plus particulièrement en
phonétique clinique. C’est la raison pour laquelle le terme pseudonymisation 13 est plus
approprié dans ce cadre (Lalain et al., 2020).
Corpus, 22 | 2021
106
Corpus, 22 | 2021
107
67 De plus, en cas d’un transfert de données hors de l’Union Européenne 14, il faudra
prévoir un encadrement contractuel spécifique si le pays de destination n’offre pas « un
niveau de protection adéquate reconnu par l’UE »15.
4. Conclusion
68 Bien que l’état de l’art fasse apparaître d’importantes avancées dans la compréhension
des mécanismes de production de la voix et de la parole, il existe un besoin continu
d’améliorer l’analyse des locuteurs sains et pathologiques. Une collecte de données à
grande échelle est nécessaire pour prendre en compte la variabilité « normale » et
« pathologique » de la parole. Une base de données structurée de la parole pathologique
représente un jalon dans la progression vers ces objectifs.
69 Une telle base de données peut fournir aux développeurs et aux utilisateurs de logiciels
cliniques des données de référence pour former la base sur laquelle différentes
méthodes peuvent être comparées. Les bases de données ont été au cœur du
développement des dispositifs automatiques de reconnaissance de la parole et des
locuteurs. Une base de données des troubles de la parole peut permettre de fournir un
élan similaire pour les applications cliniques.
70 À ce jour, il existe une réalisation technique développée au Laboratoire Parole et
Langage à Aix-en-Provence baptisée Speedi DB16 (speech disorders database). La genèse
de ce projet est détaillée dans Ghio et al. (2006). On y trouve notamment les difficultés
rencontrées dans le rassemblement des données et les arbitrages qui ont dû être fait. Ce
serveur de base de données intègre pour le moment les corpus français AHN, MTO et
CCM décrits précédemment. Une interface utilisateur permet de faire des requêtes
complexes telles que « je cherche les extraits de lecture de la chèvre de monsieur
Seguin de locuteurs masculins de plus de 60 ans, francophones natifs, droitiers, atteint
de la maladie de Parkinson ». Si la vocation de ce serveur de base de données de parole
pathologique n’a pas vocation à accueillir toutes les données, il peut servir de modèle
de référence pour des initiatives pouvant revêtir une couverture nationale. À ce
propos, cet outil a été utilisé pour les projets ANR DESPHO-APADY (2009-2012),
TYPALOC (2012-2015) et RUGBI (2019-2023).
71 À l’image de ce qui s’est fait dans divers autres pays, il serait important que la
communauté française, voire francophone, se mobilise de façon fédératrice pour se
doter de bases de données de parole pathologique permettant aux neurologues, ORL,
phoniatres, orthophonistes, phonéticiens et informaticiens de la parole de faire
progresser les connaissances, les procédures d’évaluations ou les technologies vocales
adaptées au handicap. L’implication de la communauté française dans une dynamique
européenne telle que DELAD17 (« Database Enterprise for Language And speech
Disorders ») serait aussi la bienvenue.
Corpus, 22 | 2021
108
BIBLIOGRAPHIE
Bechet M. (2011). Perturbation de la production des occlusives chez des locuteurs présentant une division
palatine ou labio-palatine, Thèse de doctorat, Univ. Strasbourg.
Crevier-Buchman L. (2019). « Clinical Illustrations of Voice Quality ». In Esling J.H., Moisik S.R.
(éd.), Voice Quality The Laryngeal Articulator Model, Cambridge University Press.
Didirkova I. (2016). Parole, langues et disfluences : une étude linguistique et phonétique du bégaiement.
Thèse de Doctorat, Univ. Montpellier.
Didirkova I., Hirsch F. & Luxardo G. (2017). « Paroles disfluentes : corpus de parole produite par
des personnes qui bégaient », Colloque Corpus oraux, corpus écrits : pratiques croisées. Montpellier.
Fauth C. (2012). Perturbation de la production de la parole suite à une opération de la glande thyroïde,
Thèse de doctorat, Univ. Strasbourg.
Fougeron C., Crevier-Buchman L., Fredouille C., Ghio A., Meunier C., Chevrie-Muller C. et al.
(2010). « Developping an acoustic-phonetic characterisation of dysarthric speech in French ».
Proceed. LREC, 2831-2838.
Ghio A., Teston B., Viallet F., Jankowski L., Purson A. et al. (2006). « Corpus de parole
pathologique, état d’avancement et enjeux méthodologiques », TIPA, Laboratoire Parole et
Langage, 25 : 109-126.
Ghio A., Pouchoulin G., Teston B., Pinto S., Fredouille C., De Looze C., Robert D., Viallet F. &
Giovanni A. (2012). « How to manage sound, physiological and clinical data of 2500 dysphonic and
dysarthric speakers ? », Speech Communication, 54(5) : 664‑679.
Ghio A., Lalain M., Giusti L., Pouchoulin G., Robert D. et al. (2018). « Une mesure d’intelligibilité
par décodage acoustico-phonétique de pseudo-mots dans le cas de parole atypique », JEP, Aix-en-
Provence, France, 285-293.
Laaridh I., Fredouille C., Ghio A., Lalain M., Woisard V. (2018). « Automatic Evaluation of Speech
Intelligibility Based on i-vectors in the Context of Head and Neck Cancers », Interspeech :
2943-2947.
Mattei A., Desuter G., Roux M., Lee B.-J., Louges M.-A., … A. Giovanni, (2018). « International
consensus (ICON) on basic voice assessment for unilateral vocal fold paralysis », European Annals
of Otorhinolaryngology, Head and Neck Diseases, 135(1S).
Corpus, 22 | 2021
109
Nocaudie O., Astésano C., Ghio A., Lalain M., Woisard V. (2018). « Évaluation de la
compréhensibilité et conservation des fonctions prosodiques en perception de la parole de
patients post traitement de cancers de la cavité buccale et du pharynx », JEP, Aix-en-Provence,
196-204.
Parsa V., Donald G.J. (2001). « Acoustic Discrimination of Pathological Voice : Sustained Vowels
Versus Continuous Speech », J Speech Hear Res. 44(2): 327-339.
Pinto S., Ghio A., Teston B., Viallet F. (2010). « La dysarthrie au cours de la maladie de Parkinson.
Histoire naturelle de ses composantes : dysphonie, dysprosodie et dysarthrie », Revue
Neurologique, 166(10) : 800-810.
Schuepbach W.M.M., Rau J., Knudsen K., Volkmann J., Krack P., Timmermann L., Hälbig, …
Deuschl G. (2013). « Neurostimulation for Parkinson’s Disease with Early Motor Complications »,
New England Journal of Medicine, 368(7) : 610‑622.
Schuller B.W. (2015). « Speech Analysis in the Big Data Era ». In : Král P., Matoušek V. (éd.), Text,
Speech, and Dialogue. TSD 2015. Lecture Notes in Computer Science, vol. 9302. Springer.
Woisard V., Astésano C., Balaguer M., Farinas J., Fredouille C. et al. (2020). « C2SI corpus : a
database of speech disorder productions to assess intelligibility and quality of life in head and
neck cancers », Language Resources and Evaluation, Springer Verlag.
Xiu N. (2018). Perturbation de la production de la parole chez le patient atteint d’une paralysie laryngée :
Données acoustiques et aérodynamiques, Thèse de doctorat, Univ. Strasbourg.
Zaouali H. (2019). Etude acoustique de la production de la parole chez des patients glossectomisés, Thèse
de doctorat, Univ. Strasbourg.
NOTES
1. Loi n° 2016-1321 du 7 octobre 2016 Pour une République numérique. [En ligne]
2. Axe 2 du CoSO : structuration et ouverture « autant que possible » des données de la recherche.
[En ligne]
3. Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016. [En ligne]
4. Loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés. [En ligne]
5. Partie extraite de notre article en anglais (Ghio et al., 2012).
6. https://www.irit.fr/parolotheque/
7. Partie extraite de notre article en anglais (Ghio et al., 2012).
8. https://www.recherchecliniquepariscentre.fr/wp-content/uploads/2016/12/DIU-CP-
CRF-09-12-2016-partie-1-et-2-S.-Makhlouf.pdf
9. Une source de données correspond à un corpus produit par un service hospitalier appelé
« producteur de données » ; chaque corpus est identifié à un centre au sein de la base de données.
10. Catégorie particulière des données personnelles. [En ligne]
11. Le hachage n’est pas réversible c.-à-d. la reconstitution de l’entrée hachée n’est plus possible.
Néanmoins, il est utilisé pour l’appariement de données entre une nouvelle source et la base de
données, et ainsi éviter les doublons qui seraient susceptibles de constituer un biais scientifique.
12. Définition de la donnée personnelle. [En ligne]
13. « La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci
de façon directe. En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à
des données tierces. », https://www.cnil.fr/fr/lanonymisation-de-donnees-personnelles. Par
exemple, il est aisé de comprendre que l’identification d’un notaire de village dont on connait
l’âge et dont on a un extrait de parole est possible en regroupant ces sources d’information.
Corpus, 22 | 2021
110
14. Attention, une simple consultation des données à distance constitue un transfert !
15. La liste des pays offrant une protection adéquate figure sur le site internet de la CNIL. [En
ligne]
16. https://speedi-db.lpl-aix.fr/physio
17. https://delad.ruhosting.nl
RÉSUMÉS
L’étude des troubles de la voix et de la parole est sortie du cadre de la recherche clinique. Par
l’observation des dysfonctionnements, les chercheurs non cliniciens confrontent les résultats de
leur recherche établis sur des corpus de parole « normale » à des situations de
dysfonctionnement. Le défi est immense car le cadre « pathologique » induit une variation
considérable dans ses manifestations de surface. Toute généralisation à une population clinique
particulière nécessite l’observation d’un grand nombre de patients du fait de la très forte
variation interindividuelle. Il est donc important de capitaliser et mutualiser les enregistrements
existants. Or pour être utilisables, ces enregistrements doivent répondre à de fortes exigences. Le
maillon faible reste la normalisation et la structuration des données sur les locuteurs et leurs
productions langagières. Concrètement, si les données sonores sont souvent accessibles, elles ne
présentent au final aucun intérêt si les liens entre les enregistrements et les caractéristiques
cliniques du locuteur sont rompus ou erronés. L’objectif de ce travail est de présenter différentes
actions de terrain et de proposer des recommandations pour la structuration des données
sonores, physiologiques et cliniques dans le cas de corpus de parole issue de patients atteints de
troubles de la voix et de la parole.
Voice and speech disorders are now studied beyond the framework of clinical research. By
observing dysfunctions, non-clinical researchers compare the results of their research
established on "normal" speech with dysfunctional situations. The challenge is important
because the "pathological" framework induces a great variation in its audible manifestations.
Any generalization to a particular clinical population requires the observation of a large number
of patients due to the very strong interindividual variation. It is therefore important to capitalize
and share existing records. However, to be usable, these recordings require a high level of
quality. The main problem remains the standardization and structuring of data on speakers and
speech productions. Concretely, if the audio data is accessible, it is useless if the links between
the recordings and the speaker’s clinical characteristics are broken or erroneous. The objective
of this work is to present various actions in the field and to propose recommendations for the
structuring of sound, physiological and clinical data in the case of speech corpus from patients
with voice and speech disorders.
INDEX
Keywords : clinical phonetics, voice speech disorders, database
Mots-clés : phonétique clinique, troubles de la voix, troubles de la parole, base de données
Corpus, 22 | 2021
111
AUTEURS
ALAIN GHIO
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
GILLES POUCHOULIN
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
FRANÇOIS VIALLET
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
Service de neurologie, Centre Hospitalier du Pays d’Aix, France
ANTOINE GIOVANNI
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
CHU Timone-Conception, APHM, Marseille, France
VIRGINIE WOISARD
CHU Toulouse, Oncopole Toulouse, France
LISE CREVIER-BUCHMAN
Laboratoire de Phonétique et Phonologie, UMR7018, Hôpital Foch, Paris, France
FABRICE HIRSCH
Praxiling, Université de Montpellier 3, France
CAMILLE FAUTH
LILPA, Université de Strasbourg, France
CORINNE FREDOUILLE
LIA, Université d’Avignon, France
Corpus, 22 | 2021
112
1. Introduction
1 La variation de la parole est souvent observée en parole continue (Kohler, 1990 ; Duez,
1997 ; Ernestus, 2000 ; Johnson, 2004 ; Adda-Decker et al., 2005 ; Adda-Decker et al.,
2007 ; Dilley et Pitt, 2010 ; Meunier et Espesser, 2011 ; Nguyen et Adda-Decker, 2013 ;
Meunier et Bigi, 2016). Manifestée par des changements phonétiques, la variation
phonologique soulève des questions linguistique et extralinguistique intéressantes.
Grâce aux travaux en reconnaissance automatique de la parole, nous avons à
disposition de grands corpus de parole transcrite et ces corpus peuvent être exploités à
des fins de recherche en phonétique et en linguistique de l’oral de manière plus
générale. Avec les outils technologiques, nous avons aujourd’hui la possibilité d’étudier
cette variation à grande échelle et d’examiner des phénomènes de réduction, qui ont
été peu étudiés jusqu’à présent, à l’aide de grands corpus.
2 L’objectif de cette étude est d’examiner la variation de la parole à l’aide de nouvelles
méthodes qui proviennent de la reconnaissance automatique de la parole, et d’apporter
de nouvelles connaissances sur la variation des prononciations, et en particulier les
phénomènes de réduction, en parole continue. Cette étude comporte deux volets : un
volet méthodologique dans le but de répondre à la question « Comment étudier la
variation de la parole naturelle à partir de grands corpus oraux ? » et un volet plus
linguistique motivé par la question : « Qu’observons-nous dans le signal de la parole en
ce qui concerne la réduction ? ».
Corpus, 22 | 2021
113
2. Méthodologie
3 Dans cette section, nous présenterons la méthode de recherche qui servira à étudier
différents phénomènes en linguistique en utilisant l’alignement automatique issu de la
reconnaissance automatique de la parole. Nous allons également y résumer quelques
détails techniques concernant cette méthode, ainsi que décrire le corpus utilisé pour
notre étude.
4 La méthodologie utilisée dans notre étude repose sur l’alignement forcé entre le signal
de parole et sa transcription manuelle. Lors de l’alignement forcé, la suite de mots à
mettre en face du signal est connue, imposée (d’où le terme « forcé ») par opposition à
la reconnaissance automatique où la suite de mots est inconnue et doit être déterminée
par le système qui se sert dans ce cas-là du modèle de langue. L’alignement forcé
permet de segmenter automatiquement le signal acoustique en mots et en phones 1
composant ces mots. Les frontières des segments2 sont obtenues par le meilleur
appariement entre le signal de parole et sa transcription à l’aide de modèles ou de
références acoustiques correspondant à cette transcription et d’un algorithme de mise
en correspondance.
5 La modélisation acoustique de la parole consiste à établir des représentations
statistiques du signal sous forme de séquences de vecteur de paramètres – typiquement
des paramètres MFCC3 (Bridle et al., 1974 ; Davis & Mermelstein, 1980) ou PLP 4
(Hermansky, 1990) – calculés à un pas régulier (en général toutes les 10 ms) à partir du
signal acoustique. Ces représentations simulent la sensibilité de la perception humaine.
Dans cette étude, nous ne parlerons pas des vecteurs issus des approches
d’apprentissage profond (deep learning) qui ont permis de réaliser un saut qualitatif
important dans la modélisation acoustique des systèmes de reconnaissance
automatique de la parole depuis le début des années 2000 (Bengio, 2009 ; Lecun et al.,
2015). Pour les travaux impliquant l’alignement forcé, nous resterons avec le
formalisme des modèles acoustiques de phones par les modèles de Markov cachés
(Rabiner, 1989) qui a prévalu dans les systèmes de reconnaissance automatique à grand
vocabulaire (~ 100 000 mots) autour des années 1990-2010. N’importe quel mot de la
langue se trouve facilement modélisé d’un point de vue acoustique dès lors que sa
prononciation est spécifiée dans le dictionnaire du système : il suffit de concaténer les
modèles HMM de phones correspondant à cette prononciation. Un modèle HMM de
phone comporte typiquement trois états pour rendre compte de l’évolution du son au
cours du temps (début, milieu, fin) : le début est influencé par le contexte gauche (les
sons précédents), la fin par le contexte droit (les sons suivants) et le milieu est
considéré comme l’état stable le plus spécifique du son modélisé. Chaque état d’un
HMM peut boucler sur lui-même. Cette boucle peut être vue comme un point d’orgue
(en notation musicale) sur chaque état : un état dans le modèle peut correspondre à un
seul vecteur ou une séquence plus ou moins longue de vecteurs dans le signal de parole
à aligner, avant de le quitter pour l’état voisin. Ainsi, les modèles HMM combinés à
l’algorithme de Viterbi (Forney, 1973 ; Rabiner, 1989) permettent de rendre compte des
déformations temporelles dans la parole qui sont inévitables en raison des variations de
débit et de rythme. L’instant de passage du dernier état d’un modèle de phone au
Corpus, 22 | 2021
114
Corpus, 22 | 2021
115
Corpus, 22 | 2021
116
Figure 2. Le mot « quatre » /katʁ/ avec (a) et sans (b) /ʁ/ ou schwa, aligné par le système de
transcription du LIMSI.
Corpus, 22 | 2021
117
Corpus, 22 | 2021
118
2.4. Corpus
16 Le corpus Nijmegen Corpus of Casual French (NCCFr) (Torreira et Ernestus, 2010) a été
utilisé pour cette étude. Il contient 35 heures de conversations familières entre amis,
incluant au total 46 locuteurs répartis en 24 femmes et 22 hommes. Tous les locuteurs
sont des étudiants à l’université âgés d’environ 20 ans, sauf deux locutrices de 40 et de
50 ans. Les enregistrements ont été effectués dans le studio d’enregistrement du
Laboratoire de Phonétique et Phonologie (UMR7018, CNRS – Sorbonne Nouvelle) à
Paris. L’alignement forcé automatique a été effectué à l’aide du système de
reconnaissance automatique de la parole du LIMSI (Gauvain et al., 2005).
Corpus, 22 | 2021
119
Figure 3. Distribution de la durée des segments dans le corpus conversationnel NCCFr (Torreira et
Ernestus, 2010). L’abscisse concernant la durée segmentale est donnée en secondes. L’ordonnée
indique le pourcentage de cette durée dans le corpus.
Corpus, 22 | 2021
120
bien au signal de parole en présence, ce qui peut être lié à divers bruits de bouche,
bruits de fonds, parole superposée…). En revanche, plus le nombre de segments dans la
séquence de segments courts est élevé, plus il y a de raisons de s’intéresser à la zone
ainsi localisée : soit il y a une erreur due à l’alignement, et il est intéressant d’en
connaître la cause ; soit la zone en question pointe sur un cas de décalage entre la
prononciation de référence et la réalisation de surface. C’est ce dernier cas qui nous
intéresse plus particulièrement. Ainsi, afin de ne retenir que des zones de parole où la
présomption de réduction est élevée, notre critère de sélection vise les séquences d’au
moins trois segments courts consécutifs, soit à l’intérieur d’un mot, soit au-delà des
frontières de mot.
21 Le tableau 1 illustre un exemple selon différents cas que nous pouvons rencontrer à
l’issue de l’alignement.
Tableau 1. Exemple du mot « ministre » sur la catégorisation des segments dans cette étude
• Si les segments [s] et [t] sont alignés → [s] segment sans alerte : « Nrm »
chacun avec une durée courte (30 ou 40 ms) → [t] segment sans alerte : « Nrm »
et le [ʁ] est aligné avec une durée de 50 ms → [ʁ] segment sans alerte : « Nrm »
22 Les segments « Abs » et « Alrt » seront utilisés comme indice pour identifier les
segments qui ont une propension à la réduction et les segments « Nrm » seront utilisés
comme indicateurs de segments « stables ».
23 Afin de découvrir quels sont les segments qui ont tendance à mieux résister à la
réduction (en tenant compte de la chute des segments préalablement détectés par le
système5 et la réduction potentielle non prévue par le système), nous avons décidé de
recourir à la prononciation de référence (Lexique380) de New et al., 2007. La
comparaison entre prononciation de référence et prononciation alignée nous permet
d’affiner la mesure objective du taux de segments réduits.
24 Nous avons également établi une stop list6 qui inclut les mots fréquents ayant 2000
mots-tokens ou plus dans le corpus (voir tableau 2). Cette stop list inclut plus de 55% des
mots-tokens du corpus NCCFr (207309 occurrences sur 378515). Elle contient 41 mots-
types. Nous comparerons nos résultats avant et après la suppression des mots de la stop
list, ce qui permet d’illustrer l’importance relative des mots les plus fréquents sur la
propension à la réduction.
25 Nous présenterons tout d’abord nos résultats sur la propension à la réduction des
segments sans considérer le fait que certains segments soient absents (« Abs ») dans
l’alignement. Dans un deuxième temps, nous présenterons nos résultats sur la
propension à la réduction des segments en regroupant les segments « Alrt » et les
segments « Abs », et nous comparerons ces segments avec les segments « Nrm ». Nous
Corpus, 22 | 2021
121
comparerons également les résultats avant et après la suppression des mots de la stop
list.
Tableau 2. Mots d’au moins 2000 occurrences inclus dans la stop list
Prononciation de référence ɛ ʒə ty kə pa də sa
Prononciation de référence mɛ e il lə wɛ la a
26 Dans ce qui suit, nous tenterons d’identifier quels segments ont le plus tendance à
disparaître en parole spontanée familière. Pour cela nous calculons le taux de segments
réduits par type de segment. Par exemple, le taux de segments réduits pour le phonème
/t/ est donné par le rapport entre le nombre de segments de la consonne /t/ ayant été
étiquetés comme « Alrt » (et éventuellement « Abs ») et le nombre total de segments de
la consonne /t/. Toutes les figures montrant les taux de segments réduits par voyelles
ou par consonnes gardent une échelle fixe sur l’axe des ordonnées (entre 0 et 40% de
réduction).
27 La figure 5 illustre les taux de segments réduits de chaque voyelle sans prendre en
compte l’absence des segments dans l’alignement7 et la figure 6 illustre les taux de
segments réduits de chaque consonne. Notons que nous avons regroupé les /e/ et les /
Corpus, 22 | 2021
122
Figure 5. Taux de segments réduits pour les voyelles (schwa exclu) sans prendre en compte
l’absence des segments dans l’alignement. Le nombre d’occurrences de ces segments est illustré
sur les barres.
Figure 6. Taux de segments réduits pour les consonnes sans prendre en compte l’absence des
segments dans l’alignement. Le nombre d’occurrences de ces segments est illustré sur les barres.
28 Dans la figure 5 les voyelles sont triées par taux de segments réduits décroissant. Tous
les taux restent inférieurs à 15% et il n’y a pas de voyelle dont le taux soit
remarquablement élevé. Les voyelles orales ont des taux plutôt autour de 10%. Nous
remarquons que les voyelles nasales ont tendance à être moins réduites que les voyelles
orales, avec des taux autour de 5%. D’après cette figure, il n’y a pas de tendance
spécifique remarquable parmi les voyelles orales.
Corpus, 22 | 2021
123
Figure 7. Taux de segments réduits pour les voyelles (schwa exclu) en prenant en compte l’absence
des segments dans l’alignement
Corpus, 22 | 2021
124
Figure 8. Taux de segments réduits pour les consonnes en prenant en compte l’absence des
segments dans l’alignement
31 La figure 7 reprend le cas des voyelles comme dans la figure 5. Mais dans le cas présent,
nous comptabilisons non seulement les séquences « Alrt » comme relevées uniquement
par l’alignement de séquences de segments courts, mais on tient compte également du
cas des segments manquants (par le biais des prononciations réduites comme expliqué
dans la figure 4). On remarque clairement une différence entre l’ordre des voyelles
dans les deux figures 5 et 7 : le /y/ perd sa première position au profit du /ø/. Nous
observons une augmentation considérable des taux de segments réduits pour ces deux
voyelles, dépassant maintenant 15% par rapport à ce qui a été observé dans la figure 5.
Cela est lié au fait que des variantes existent pour quelques mots fréquents dans le
dictionnaire de prononciation, comme par exemple, « peut-être » [ptɛtʁ] sans /ø/.
32 La figure 8 illustre le taux de segments réduits pour les consonnes en prenant en
compte l’absence des segments dans l’alignement. Nous remarquons que l’allure de la
courbe s’est déformée en accentuant les taux pour les consonnes les plus sujettes à
réduction. Les semi-consonnes /ɥ, j, w/ et le /v/ ont toujours des taux très élevés.
Néanmoins, nous observons une augmentation considérable des taux de segments
réduits pour le /ɥ/, le /l/ et le /v/ ; le /l/ ayant un taux plus élevé que le /v/ et les
semi-consonnes /j,w/ cette fois-ci. Le fait que les /ɥ/ et /l/ aient un taux de segments
réduits nettement plus élevé dans cette figure (par rapport à ce qui a été observé dans
la figure 6) suggère que les mots ayant un /ɥ/ ou un /l/ dans la forme de référence sont
souvent alignés avec la variante réduite par l’alignement automatique, dès lors que
cette variante existe.
33 Pour que nos résultats sur la propension à la réduction des segments soient moins
influencés par les mots extrêmement fréquents dans le corpus (c.-à-d. les mots de la
stop list), nous avons décidé d’exclure ces mots de nos données et de voir si cela change
les résultats observés dans les figures 7 et 8.
Corpus, 22 | 2021
125
Figure 9. Taux de segments réduits pour les voyelles (schwa exclu) en prenant en compte l’absence
des segments dans l’alignement et en excluant les voyelles provenant des mots de la stop list
34 La figure 9 illustre le taux de segments réduits pour les voyelles en prenant en compte
l’absence des segments dans l’alignement et en éliminant les mots de la stop list. Nous
remarquons sur la figure 9 que le taux de segments réduits des /y/ et celui des /a/ ont
baissé davantage après la suppression des occurrences qui concerne les mots de la stop
list par rapport à ce qui a été observé dans la figure 7. Cela indique que le taux de
segments réduits pour les voyelles /y/ et /a/, illustré dans la figure 9, a été fortement
influencé par les mots de la stop list ; notamment le mot « tu » pour la voyelle /y/ et le
mot « la » pour la voyelle /a/. Le taux de segments réduits pour la voyelle /ø/ reste le
plus élevé dans la figure 9 (comme dans la figure 7). Cela provient fréquemment des /ø/
réduits dans les mots tels que « peut-être » et « veut » en parole spontanée. Nous nous
apercevons que les phonèmes ayant les taux de segments réduits les plus élevés (c.-à-d.
qui résistent le moins à la réduction) sont des voyelles orales arrondies /ø/, /u/, /o, ɔ/
et /y/ (χ2 = 3173,3 ; df = 1 ; p < 0,001). Les taux de segments réduits les moins élevés
restent toujours les voyelles nasales (χ2 = 15,446 ; df = 1 ; p < 0,001).
Figure 10. Taux de segments réduits pour les consonnes en prenant en compte l’absence des
segments dans l’alignement et en excluant les consonnes provenant des mots de la stop list
Corpus, 22 | 2021
126
4. Discussion
37 Cette étude sur la propension à la réduction des segments montre qu’il est possible
d’utiliser des grands corpus de parole et des systèmes de traitement automatique de la
parole pour y rechercher et quantifier des phénomènes linguistiques, comme la
réduction des segments, peu décrits dans la littérature. Avec la méthode ascendante
proposée, il n’est pas nécessaire d’avoir des hypothèses très précises sur le phénomène
retenu. Il est cependant important de savoir le caractériser objectivement de manière à
pouvoir utiliser l’instrument de mesure (ici le système d’alignement forcé) afin de
rechercher des extraits de parole dont les mesures objectives sont particulièrement
intéressantes (par exemple, déviantes ou au contraire dans la norme) pour le
phénomène étudié. Dans notre cas, nous utilisons la caractérisation de durée des
segments alignés des mots ou de suites de mots. Des durées jugées « trop courtes » par
rapport à la durée attendue (étant donnée la forme phonologique sous-jacente)
révèlent très probablement des phénomènes de réduction.
38 Nous avons considéré comme séquence réduite non seulement des suites d’au moins 3
segments consécutifs alignés avec des durées courtes de 30 ou 40 ms, mais nous avons
également pris en compte des segments de durée effective de 0 ms correspondant à des
phonèmes présents dans la prononciation de référence (la forme sous-jacente) mais
absents de l’alignement à cause de l’utilisation d’une variante de prononciation réduite
lors de l’alignement (forme de surface). Ceci nous a permis de mettre en évidence
l’importance des segments absents/non-alignés lors de l’utilisation de cette méthode.
39 Grâce à la méthode ascendante, nous avons pu observer que les liquides, les semi-
consonnes (glides) et la fricative voisée /v/ sont particulièrement sujettes à réduction,
ce qui est cohérent avec le fait que leurs durées intrinsèques sont relativement courtes.
Ceci pourrait être lié au fait que leurs caractéristiques acoustiques ressemblent
davantage à celles des voyelles que celles des obstruantes (hors /v/) par exemple. Au
contact des voyelles, les liquides et les glides auront tendance à fusionner avec les
voyelles environnantes, particulièrement en parole rapide ou peu articulée et pour des
syllabes non-accentuées. Concernant les voyelles, les voyelles nasales résistent mieux à
la réduction que les voyelles orales. Les voyelles nasales ont une durée intrinsèque plus
longue. Un segment de voyelle nasale est composé typiquement d’une première partie
orale suivie d’une partie nasalisée. Les voyelles nasales ont à leur disposition la nasalité
en plus et, de ce fait, elles seraient intrinsèquement renforcées. Les voyelles orales
arrondies, quant à elles, résistent moins à la réduction que d’autres voyelles orales. Ceci
Corpus, 22 | 2021
127
pourrait éventuellement être lié au fait que le trait arrondi qui est très saillant entraîne
une coarticulation forte avec les consonnes qui l’entourent. Ces voyelles, quand elles
deviennent très courtes, se trouvent souvent dévoisées ou peuvent être vues comme
partie intégrante de fricatives ou du burst d’occlusives qui les précèdent. L’absence
d’un segment autonome vocalique ne gêne en général pas l’intelligibilité du mot,
notamment le mot dans son contexte. Dans le futur, des tests perceptifs peuvent être
envisagés sur des échantillons de parole étiquetée comme réduite afin de tester l’effet
de cette réduction sur la perception humaine.
40 Nos résultats en ce qui concerne la réduction des consonnes sont conformes à ce qui a
été observé dans les données de Meunier et Bigi (2016) : les liquides et les glides ont
plus tendance à être réduites que d’autres consonnes. En plus de ce qui a été montré
par Meunier et Bigi (2016), nous remarquons que la consonne fricative voisée /v/ a un
« taux d’alerte » très élevé, au niveau de celui des liquides et des glides.
41 Au-delà de ce qui a été montré par Meunier et Bigi (2016) en ce qui concerne la
propension à la réduction des voyelles9, nous observons que les voyelles orales ont
davantage tendance à être réduites que les voyelles nasales. Parmi les voyelles orales,
les voyelles orales arrondies (/ø/, /u/, /o, /ɔ/ et /y/) ont plus tendance à être réduites
que les autres voyelles orales dans notre corpus.
42 La tendance de réduction illustrée dans cette étude met en évidence une grande
variabilité dans les productions orales, non seulement au niveau paradigmatique
(segmental) mais également au niveau syntagmatique (séquences de segments) :
concernant la production de mots, on observe des différences importantes entre les
formes de surface et les formes sous-jacentes, qui peuvent aller bien au-delà des
phénomènes communément décrits pour le français (schwa, liaison, simplification de
clusters obstruante-liquide). L’écart entre forme sous-jacente et forme de surface
semble d’autant plus facilement toléré qu’il n’altère pas l’intelligibilité de l’information
linguistique en cours de transmission. Par exemple, si le mot « plus » (/ply/ ou /plys/)
est prononcé sans le /l/ ([py] ou [pys]), il y a certes de nombreux homophones en
français possibles pour un mot prononcé [py] ou [pys], mais il n’y a pas d’autres mots
de la même fonction syntaxique et sémantique qui pourraient interférer avec
l’intelligibilité du mot : les mots « pu » (participe passé du verbe « pouvoir ») ou « pus »
(nom commun) /py/ n’ont pas les mêmes fonctions syntaxiques que le mot « plus » /
ply/ prononcé [py] en parole continue. De même le mot « puce » /pys/ n’a pas la même
fonction syntaxique que le mot « plus » /plys/ prononcé [pys].
43 Nos résultats sur la propension à la réduction des segments peuvent aider à développer
davantage les dictionnaires de prononciation spécifiques à la parole spontanée, utiles à
la fois pour les systèmes de reconnaissance et de synthèse automatiques comme pour
l’apprentissage du français langue étrangère. Ils peuvent également offrir des pistes
intéressantes à tester pour des recherches expérimentales de laboratoire. Enfin, nos
résultats posent des questionnements sur les différents processus phonologiques et
cognitifs à l’œuvre dans la communication verbale, permettant en production la
réalisation de formes raccourcies (formes de surface) et perçues complètes ou
restaurées (forme sous-jacente) par l’auditeur.
Corpus, 22 | 2021
128
BIBLIOGRAPHIE
Adda-Decker M., Boula de Mareüil P. B., Adda G. & Lamel L. (2005). « Investigating syllabic
structures and their variation in spontaneous French », Speech Communication 46(2) : 119-139.
Adda-Decker M., Boula de Mareüil P. & Lamel L. (1999, August). « Pronunciation variants in
French: schwa & liaison », XIVth International Congress of Phonetic Sciences : 2239-2242.
Adda-Decker M., Fougeron C., Gendrot C., Delais-Roussarie E. & Lamel L. (2012). « French Liaison
in Casually Spoken French, as Investigated in a Large Corpus of Casual French Speech », Revue
française de linguistique appliquée 17(1) : 113-128.
Adda-Decker M. & Lamel L. (2018). « Discovering speech reductions across speaking styles and
languages », Rethinking reduction - Interdisciplinary perspectives on conditions, mechanisms, and
domains for phonetic variation : 101-128.
Bengio Y. (2009). « Learning deep architectures for AI ». Foundations and trends® in Machine
Learning 2(1) : 1-127.
Boula de Mareüil P. B., Adda-Decker M. & Gendner V. (2003). « Liaisons in French : a corpus-based
study using morpho-syntactic information », ICPhS 2003.
Bridle J. S. & Brown M. D. (1974). « An experimental automatic word recognition system ». JSRU
report 1003(5) : 33.
Dilley L. C. & Pitt M. A. (2010). « Altering context speech rate can cause words to appear or
disappear », Psychological Science 21(11) : 1664-1670.
Duez D. (1997). « Acoustic markers of political power », Journal of Psycholinguistic Research 26(6) :
641-654.
Ernestus M. (2000). Voice assimilation and segment reduction in casual Dutch, a corpus-based study of
the phonology-phonetics interface, thèse de doctorat, Vrije Universiteit Amsterdam, Utrecht : LOT.
Forney G. D. (1973). « The Viterbi algorithm ». Actes IEEE 1973, 61(3) : 268-278.
Gauvain J. L., Adda G., Adda-Decker M., Allauzen A., Gendner V., Lamel L. & Schwenk H. (2005).
« Where are we in transcribing French broadcast news ? », Ninth European conference on speech
communication and technology, Interspeech 2005.
Hermansky H. (1990). « Perceptual linear predictive (PLP) analysis of speech ». Journal of the
Acoustical Society of America 87(4) : 1738-1752.
Corpus, 22 | 2021
129
LeCun Y., Bengio Y. & Hinton G. (2015). « Deep learning ». Nature 521(7553) : 436-444.
Meunier C. & Bigi B. (2016). « Répartition des phonèmes réduits en parole conversationnelle.
Approche quantitative par extraction automatique ». Actes de la conférence conjointe JEP-TALN-
RECITAL 2016 : 615-623.
Meunier C. & Espesser R. (2011). « Vowel reduction in conversational speech in French : The role
of lexical factors », Journal of Phonetics 39(3) : 271-278.
New B., Brysbaert M., Veronis J. & Pallier C. (2007). « The use of film subtitles to estimate word
frequencies », Applied psycholinguistics 28(4) : 661-677.
Nguyen N. & Adda-Decker M. (2013). Méthodes et outils pour l’analyse phonétique des grands corpus
oraux. Hermès-Lavoisier.
Rabiner L. R. (1989). « A tutorial on hidden Markov models and selected applications in speech
recognition ». Actes IEEE 1989 : 257-286.
Schuppler B., Ernestus M., Scharenborg O. & Boves L. (2008). « Preparing a corpus of Dutch
spontaneous dialogues for automatic phonetic analysis », Interspeech 2008 : 1638-1641.
Tahon M., Lecorvé G. & Lolive D. (2018). « Can we Generate Emotional Pronunciations for
Expressive Speech Synthesis ? », IEEE Transactions on Affective Computing, Institute of Electrical and
Electronics Engineers 2018.
Torreira F. & Ernestus M. (2010). « The Nijmegen Corpus of Casual Spanish », LREC 2010 :
2981-2985.
Van Bael C., Boves L., Van Den Heuvel H. & Strik H. (2007). « Automatic phonetic transcription of
large speech corpora », Computer Speech & Language 21(4) : 652-668.
Wu Y. (2018). Étude de la réduction segmentale en français parlé à travers différents styles : apports des
grands corpus et du traitement automatique de la parole à l’étude du schwa, du /ʁ/et des réductions à
segments multiples, thèse de doctorat, Université Sorbonne Nouvelle – Paris 3.
Wu Y., Adda-Decker M., Fougeron C. & Lamel L. (2017). « Schwa Realization in French : Using
Automatic Speech Processing to Study Phonological and Socio-Linguistic Factors in Large
Corpora », Interspeech 2017.
Wu Y., Gendrot C., Adda-Decker M. & Fougeron C. (2019). « Post-consonantal Word-final /ʁ/
Realization in French : Contributions of Large Corpora », ICPhS 2019.
NOTES
1. Réalisation d'un phonème.
2. Dans la suite de l'article, nous utiliserons le terme « segment » pour désigner un segment
phonétique, comme c'est l'usage en phonétique.
3. Mel frequency cepstral coefficients.
4. Perceptual linear predictive.
Corpus, 22 | 2021
130
5. Les variantes de production sur les mots extrêmement fréquents tels qu’ « il », qui peut être
produit comme [i] tout court sans le /l/ en parole spontanée, sont incluses dans le système,
comme mentionné ci-dessus.
6. Liste de mots ou d'autres éléments qui devraient être ignorés dans le traitement des données
pour une raison spécifique. Ici, il s'agit des mots extrêmement fréquents en parole continue.
7. Segments non-alignés en raison des variantes spécifiques introduites dans le dictionnaire de
prononciation du système de reconnaissance.
8. Ex. Le mot « sérieux » /seʁjø/ peut être prononcé [sɛʁjø].
9. Meunier et Bigi (2016) montrent que les voyelles fermées ont tendance à être réduites.
RÉSUMÉS
Ce travail sur la réduction segmentale (c.-à-d. la suppression ou réduction temporelle de
segments) en français spontané nous a permis de proposer une méthode de recherche pour les
études en linguistique, ainsi que d’apporter des connaissances sur la propension à la réduction
des segments à l’oral. Cette méthode, appelée méthode ascendante, nous permet de travailler
sans hypothèse spécifique sur la réduction. Les résultats suggèrent que les liquides, les glides et
la fricative voisée /v/ sont plus facilement réduites que les autres consonnes et que les voyelles
nasales résistent mieux à la réduction que les voyelles orales. Parmi les voyelles orales, les
voyelles orales arrondies ont tendance à être plus souvent réduites que les autres voyelles orales.
INDEX
Mots-clés : réduction, élision, parole spontanée, grands corpus oraux, alignement forcé,
segments courts
Keywords : reduction, elision, spontaneous speech, large speech corpora, forced alignment,
short segments
AUTEURS
YARU WU
Université Paris-Saclay, CNRS, LIMSI, 91400, Orsay, France
Laboratoire de Phonétique et Phonologie (UMR7018, CNRS-Sorbonne Nouvelle), France
yaru.wu@sorbonne-nouvelle.fr
Corpus, 22 | 2021
131
MARTINE ADDA-DECKER
Université Paris-Saclay, CNRS, LIMSI, 91400, Orsay, France
Laboratoire de Phonétique et Phonologie (UMR7018, CNRS-Sorbonne Nouvelle), France
madda@limsi.fr
Corpus, 22 | 2021
132
Ce document de synthèse émane des réflexions et discussions menées dans le cadre du groupe
éthique du Laboratoire Parole et Langage ; nous remercions nos collègues pour les riches
échanges et débats autour de ces nouvelles réglementations dont les traces écrites sont
téléchargeables sur le site du LPL : http://www.lpl-aix.fr/recherche/ethique/
1. Introduction
1 Les travaux de recherche en linguistique nécessitent le recueil de données langagières,
sélectionnées et rassemblées pour former ce que l’on appelle un corpus. La diversité des
approches, des pratiques et des objectifs a complexifié cette notion de corpus.
Cependant, qu’il s’agisse de données textuelles, orales, ou multimodales, que le recueil
permette la collecte de données authentiques, écologiques, ou de laboratoire, que
l’étude suive une méthodologie empirico-déductive ou inductive, les données
langagières émanent nécessairement de locuteurs. Ainsi en linguistique, mais aussi
dans les différents champs de son interdisciplinarité (sociolinguistique,
psycholinguistique, etc.), nos travaux nous conduisent à impliquer la personne
humaine et à utiliser les données de cette dernière, à des fins de recherche et/ou de
formation. La constitution d’un corpus implique alors nécessairement la contribution
de locuteurs dont nous recueillons la parole (donnée primaire) qui fera l’objet
d’analyse(s) linguistique(s) (données secondaires) mais aussi d’éléments d’informations
Corpus, 22 | 2021
133
Corpus, 22 | 2021
134
6 Dans cet article, nous nous intéresserons uniquement aux traitements de recherche
concernant les données personnelles. Le texte Européen (RGPD 2018) évoque à
plusieurs endroits des spécificités autorisées pour les traitements à finalité de
recherche, à travers l’expression « à des fins de recherche scientifique ». Notre objectif
initial était de cerner la portée de ces références afin de proposer en premier lieu aux
chercheurs de notre laboratoire des pratiques sécurisées et conformes à la protection
des droits fondamentaux des personnes contribuant à la fiabilité du travail scientifique.
7 En outre, les auteurs clarifient ici la portée du terme « donnée » utilisé dans cette
partie. En effet, il est d’usage courant en linguistique de corpus de distinguer
différentes catégories de données selon leur degré d’élaboration :
• primaire i. e. expérimentale, observable, mesurable… qui est issue directement du terrain
• secondaire i. e. dérivée de la donnée primaire… qui enrichit, annote, interprète…
• métadonnée i. e. information technique, descriptive, administrative… qui caractérise une
autre donnée.
8 Qu’elle soit qualifiée de primaire ou de secondaire, l’information véhiculée par une
donnée peut concerner une personne physique et est donc susceptible de porter
atteinte à sa vie privée. Or il est important de souligner qu’une métadonnée 2 peut
représenter une sensibilité en matière de protection de la vie privée aussi forte que
celle de la donnée qu’elle caractérise. Le texte Européen du RGPD ne fait aucune
distinction entre ces différentes catégories de données, si ce n’est de redéfinir le
caractère personnel de la donnée. Pour cette raison et afin de lever toute ambiguïté et
confusion pour le lecteur, le terme « donnée » utilisé dans cette partie englobera toute
donnée soumise à la protection du RGPD et ce, quelle que soit son appartenance à l’une
des 3 catégories décrites ci-dessus. Elle sera alors qualifiée de « personnelle » ou « à
caractère personnel » afin de la différencier de la donnée sans caractère personnel.
Corpus, 22 | 2021
135
Corpus, 22 | 2021
136
Corpus, 22 | 2021
137
24 Parmi les acteurs majeurs du RGPD, le responsable de traitement (RT) joue un rôle
central puisqu’il est en charge du respect de l’application du règlement dans une
entreprise, un organisme, une association, etc. Le RGPD le définit dans l’article 4
comme « la personne physique ou morale, l’autorité publique, le service ou un autre
organisme qui, seul ou conjointement avec d’autres, détermine les finalités et les
moyens du traitement ».
25 Un autre acteur important est le sous-traitant (ST). L’article du RGPD le définit comme
« la personne physique ou morale, l’autorité publique, le service ou un autre organisme
qui traite des données à caractère personnel pour le compte du responsable du
traitement ». Lié par un contrat ou un acte juridique écrit au RT, un sous-traitant est un
prestataire qui intervient pour conserver la donnée, la stocker, la transmettre, la
diffuser, etc. Il collabore avec le RT pour garantir le respect de ses diverses obligations
(droits des personnes, violations des données, analyses d’impact…) et engage sa
responsabilité à l’égal de celle du RT.
26 Dans chacune de nos tutelles, un Délégué à la Protection des Données (DPD) est désigné
pour s’assurer du respect des obligations du RGPD et pour gérer le registre dédié aux
traitements des données à caractère personnel. Sur les conseils et avec l’assistance du
DPD, il est d’usage courant que ce soit le responsable scientifique du projet qui réalise, à
la place du RT, la procédure formalisée7 d’inscription de son traitement au registre.
27 Il est important de préciser que les traitements de données personnelles doivent être
inscrits, avant leur mise en œuvre, au registre du DPD dont dépend le responsable de
traitement.
28 À la réception d’un formulaire d’inscription d’un traitement, le service à la protection
des données (SPD) l’analyse en portant une attention toute particulière à la finalité
définie et la nature des données traitées. Le SPD peut soit autoriser la mise en œuvre du
traitement et l’inscrire au registre, soit informer le RT de la nécessité de réaliser une
étude d’impact sur la vie privée (EIVP) des personnes concernées.
29 Hormis l’obligation d’inscrire au registre les traitements mis en œuvre dans son unité,
le RT doit s’assurer de leur mise à jour : leur suppression si le traitement est terminé et
leur modification si d’éventuels changements sont apportés au traitement.
Corpus, 22 | 2021
138
31 Avant toute chose, le chercheur doit déterminer « à quoi » va servir son traitement de
données personnelles. Quels sont les objectifs à atteindre ? Quelle est la finalité du
traitement ? Tel que mentionné au considérant 33 du RGPD, le législateur accepte le fait
qu’il soit parfois difficile pour le scientifique « de cerner entièrement la finalité du
traitement » avant sa mise en œuvre :
Souvent, il n’est pas possible de cerner entièrement la finalité du traitement des
données à caractère personnel à des fins de recherche scientifique au moment de la
collecte des données. […] Les personnes concernées devraient pouvoir donner leur
consentement uniquement pour ce qui est de certains domaines de la recherche ou
de certaines parties de projets de recherche, dans la mesure où la finalité visée le
permet.
32 Ainsi le chercheur doit décrire la finalité de son traitement à travers un bref résumé 9 de
2 à 3 lignes expliquant l’objectif scientifique visé. Parfois, il peut être nécessaire de
définir des sous-finalités pour des projets organisés en plusieurs axes d’investigation.
Le cas échéant, le chercheur devra les détailler directement sous la finalité principale
du traitement.
33 Quoi qu’il en soit, le règlement qualifie la finalité de « déterminée, explicite et
légitime ». Cela oblige à ce que la donnée personnelle collectée soit en adéquation
directe avec la finalité préalablement définie, clairement comprise et licite. À savoir
que si les conditions d’utilisation de la donnée étaient amenées à changer pour d’autres
fins incompatibles avec la finalité initiale, le chercheur devrait en avertir son DPD,
réinformer les personnes concernées et, le cas échéant, leur refaire signer un
consentement. On apprécie ici l’importance de déterminer clairement la finalité d’un
traitement avant sa mise en œuvre.
34 Aborder ce principe en préalable est particulièrement pertinent lorsque l’on inscrit son
traitement au registre du DPD car toutes les questions inhérentes aux autres principes
seront interprétées au regard de la finalité, des objectifs visés. Ce principe pose les
règles d’utilisation et de réutilisation des données personnelles, intra et post-
traitement.
Corpus, 22 | 2021
139
39 Un autre point discuté dans la réglementation, et pourtant déjà prévu dans la LIL,
concerne le principe de la durée de conservation des données à caractère personnel qui
doit être définie par le RT au préalable de leur traitement.
40 Le RGPD11 précise que les données à caractère personnel doivent être
[…] conservées sous une forme permettant l’identification des personnes
concernées pendant une durée n’excédant pas celle nécessaire au regard des
finalités pour lesquelles elles sont traitées ; […]
41 Ce principe de conservation soulève trois aspects importants qui interrogent sur la
durée, les moyens à employer et le devenir des données personnelles à l’issue de cette
étape.
Corpus, 22 | 2021
140
44 Quoi qu’il en soit, l’important est de définir cette durée en considérant d’éventuelles
obligations concernant certaines données, de se l’approprier et de la justifier dans la
documentation.
45 Le second point concerne les moyens, matériels et techniques, à mettre en œuvre pour
assurer l’effectivité de la période de conservation. Qui reçoit une alerte prévenant du
dépassement de la période de conservation ? Y a-t-il un outil automatique qui gère la
datation des données à caractère personnel, leur effacement… ? Comment gérer la
particularité des durées déterminables ? Ces questions importantes doivent être
abordées en concertation entre le chercheur et le RT.
46 Comme rappelé dans (Ghio et al. 2020), et tel que proposé par le RGPD et les guides de
bonnes pratiques comme le guide pour la recherche en SHS du CNRS (CNRS-InSHS
2019), nous préconisons fortement aux chercheurs de notre laboratoire de
pseudonymiser14 les données personnelles de leurs traitements dès la collecte.
Rappelons ici que le RGPD ne s’applique pas sur des données personnelles anonymes ou
anonymisées c.-à-d. sur des données personnelles à partir desquelles la personne
concernée n’est pas ou plus identifiable.
47 Parmi les différentes techniques de pseudonymisation (chiffrement, généralisation,
agrégation, bruitage…), la substitution consiste à remplacer dans un corpus chaque
ensemble de données permettant d’identifier (in)directement un individu par une clé
d’identification arbitraire. En pratique, les données telles que nom, prénom, mail,
téléphone… sont retirées du jeu initial de données personnelles pour être isolées dans
une table de correspondance. Pour chacune des entrées de la table de correspondance,
une clé d’identification est ajoutée sous une forme normalisée 15, respectant des règles
de nommage et de codage établies par le chercheur. Cette clé doit aussi être reportée
dans le jeu initial de données personnelles (nettoyé des données identifiantes) afin de
garantir le lien entre les données personnelles pseudonymisées et la personne
concernée. Ici l’utilisation du terme de pseudonymisation est en parfaite adéquation
avec la définition faite dans l’article 4.5 du RGPD où la table de correspondance
constitue « ces informations supplémentaires » permettant d’attribuer à « une
personne concernée précise » des données personnelles.
48 En pratique, la table de correspondance permet de ré-identifier les personnes des
données pseudonymisées afin de faire valoir leurs droits, de les informer de
modifications majeures dans le traitement les concernant, de les avertir en cas de
violation/perte de leurs données personnelles… Pour garantir un niveau de protection
optimal, elle devra être conservée séparément des autres données (personnelles,
sonores, vidéos…) et faire l’objet de mesures de sécurités et de confidentialités,
appropriées à la sensibilité des données. À la fin de la période de conservation, il suffira
alors de détruire la table de correspondance (le cas échéant, les autorisations ou
consentements obtenus auprès des personnes concernées) pour permettre la
réutilisation et préservation du corpus « anonymisé ».
49 Cette recommandation de bonnes pratiques s’inscrit dans une démarche visant d’une
part à renforcer la sécurité des données personnelles et d’autre part, à gérer les
traitements arrivant au terme de leur durée de conservation.
Corpus, 22 | 2021
141
Corpus, 22 | 2021
142
58 Il est essentiel de définir la base juridique sur laquelle repose un traitement de données
à caractère personnel. L’identification du fondement juridique assure que le traitement
est conforme à la loi et oblige le RT à un devoir de documentation attestant de la
conformité des traitements dont il est responsable.
59 Le RGPD précise qu’il faut qu’au moins une des conditions parmi les 6 proposées soit
remplie, pour que le traitement soit licite : (extrait de l’Article 6.1 du RGPD)
a) la personne concernée a consenti au traitement de ses données à caractère
personnel pour une ou plusieurs finalités spécifiques ;
b) le traitement est nécessaire à l’exécution d’un contrat auquel la personne
concernée est partie ou à l’exécution de mesures précontractuelles prises à la
demande de celle-ci ;
c) le traitement est nécessaire au respect d’une obligation légale à laquelle le
responsable du traitement est soumis ;
d) le traitement est nécessaire à la sauvegarde des intérêts vitaux de la personne
concernée ou d’une autre personne physique ;
e) le traitement est nécessaire à l’exécution d’une mission d’intérêt public ou
relevant de l’exercice de l’autorité publique dont est investi le responsable du
traitement ;
f) le traitement est nécessaire aux fins des intérêts légitimes poursuivis par le
responsable du traitement ou par un tiers, à moins que ne prévalent les intérêts ou
les libertés et droits fondamentaux de la personne concernée qui exigent une
protection des données à caractère personnel, notamment lorsque la personne
concernée est un enfant.
60 Dans le domaine des sciences humaines et sociales, le fondement d’un traitement de
recherche repose le plus souvent sur (6.1.a) le consentement, (6.1.e) l’exécution d’une
mission d’intérêt public ou (6.1.f) les intérêts légitimes.
61 Il faut noter que le consentement n’est pas uniquement un fondement juridique. Il
apparaît aussi comme une des exceptions pour collecter des données sensibles. À titre
informatif, au LPL si la loi n’exige pas le recueil du consentement pour un traitement de
données personnelles, nous demandons à nos chercheurs d’obtenir l’autorisation
d’enregistrement de la voix et/ou de l’image auprès des personnes susceptibles d’être
filmées, photographiées ou enregistrées vocalement.
62 Une fois la base juridique d’un traitement identifiée, elle doit être obligatoirement
communiquée à la personne concernée, complétée par les informations mentionnées
dans le chapitre III du RGPD19 « Droits de la personne concernée ». La loi impose que
Corpus, 22 | 2021
143
66 Ce dernier principe impose que les données personnelles soient exactes et, le cas
échéant, tenues à jour (actualisées, corrigées, effacées…). Cela signifie qu’il faut
expliquer, clairement et formellement, à la CNIL que les données personnelles utilisées
dans le traitement, sont exactes et mises à jour. Par exemple, que toutes les adresses
électroniques des personnes utilisées dans un traitement sont valides et correctes.
67 Ce principe est adapté au traitement de fonctionnement comme la gestion du personnel
ou un annuaire, mais pas pour les traitements de recherche où les données
personnelles collectées n’ont pas vocation à être mises à jour après leur collecte ou
pour une utilisation ultérieure.
Corpus, 22 | 2021
144
Corpus, 22 | 2021
145
des CCPPRB devenus les CPP (Comités de Protection des Personnes) et en retravaillant
les modalités de consentement. Cette première révision est, au même titre que la loi
Huriet, inscrite dans le domaine de la recherche médicale avec notamment un cadre
spécifique pour les « recherches portant sur les soins courants ».
75 C’est alors également dans le domaine de la santé que s’inscrit la deuxième révision de
la loi Huriet, proposée par O. Jardé. Ses propositions émanent d’une volonté de
renforcement de la protection de la personne mais souhaitent surtout répondre à trois
écueils principaux qui ont résisté aux précédentes révisions :
• La restriction de la réglementation à la recherche sur les médicaments, c’est-à-dire aux
recherches interventionnelles
• Les dispositions de consentement inadaptées (pourtant révisées en 2004) qui rendaient
impossibles certaines recherches
• L’absence de validation éthique pour les recherches hors champs qui rendait la publication
des résultats de ces études impossibles dans les revues internationales
76 La loi Jardé de 2012 propose ainsi un cadre réglementaire pour toutes les recherches
impliquant la personne humaine avec des modifications majeures :
• L’intégration des recherches non interventionnelles dans le champ d’application de la loi (de
laquelle découle la classification des RIPH en trois catégories, définies dans la section
suivante)
• Une réflexion basée sur la notion de risque (et non plus sur celle de bénéfice)
• Une obligation de demande d’autorisation au CPP (pour toutes les catégories de recherche)
• La création de la Commission Nationale des Recherches Impliquant la Personne Humaine
(CNRIPH)
77 On se rendra aisément compte en examinant précisément les articles de cette loi de
2012, et en particulier le décret d’application du 16 novembre 2016 ainsi que les arrêtés
de décembre 2016 et mai 2017, que tout comme les lois Huriet-Sérusclat et de Santé
Publique, la loi Jardé est également une loi qui s’adresse prioritairement aux acteurs la
recherche clinique médicale.
78 En témoigne le lexique utilisé, non seulement dans les textes réglementaires suscités
(diagnostic, traitement, surveillance Art. 1121-1), mais également dans les articles de
revue dont la loi a pu faire l’objet ; par exemple, au sujet des recherches impliquant la
personne humaine, Rat et collègues (2017) précisent :
Dans le cadre de ces recherches, les actes pratiqués sur les personnes participantes
(traitement, décision de traiter ou non, moyen de surveillance et de suivi médical)
sont définis par un protocole de recherche qui doit être respecté par les médecins
investigateurs.
79 Ou encore concernant les catégories de recherches :
Une notion clé, véritable pivot de la loi et critère majeur de qualification des
recherches, est l’intervention que la recherche ajoute au soin ou à la prise en
charge habituelle. (Matei & Lemaire 2013)
80 Le champ lexical utilisé n’a cependant pas permis de cantonner la loi Jardé au domaine
de la santé, puisque portant dans son titre la mention « personne humaine », son
champ d’application s’est vu étendu à l’ensemble des recherches impliquant l’humain.
Corpus, 22 | 2021
146
81 La loi Jardé n° 2012-300 du 5 mars 2012 modifie l’article L. 1121-1 du code de la santé
publique en précisant que les recherches organisées et pratiquées sur l’être humain en
vue du développement des connaissances biologiques ou médicales sont autorisées
dans les conditions prévues par la loi et sont désignées par les termes « Recherches
Impliquant la Personne Humaine » (RIPH).
82 Comme précisé plus haut, la loi Jardé est organisée à partir de la notion de « risque »
dont découlent 3 catégories de recherches :
• 1° Les Recherches Interventionnelles (RI) qui comportent une intervention sur la personne
non justifiée par sa prise en charge habituelle
• 2° Les Recherches Interventionnelles qui ne comportent que des Risques et des Contraintes
Minimes (RICRM), dont la liste est fixée par arrêté du ministère de la santé, après avis du
directeur de l’Agence Nationale de Sécurité du Médicament et des produits de Santé (ANSM)
• 3° Les recherches Non Interventionnelles (RNI) qui ne comportent aucun risque ni
contrainte et dans lesquelles tous les actes sont pratiqués et les produits utilisés de manière
habituelle.
83 La liste des recherches mentionnées au 2° et au 3° de l’article L. 1121-1 sont par ailleurs
fixées par l’arrêté du 12 avril 2018.
84 Ainsi, la loi Jardé propose un cadre réglementaire qui préserve la personne se prêtant à
la recherche et catégorise les recherches en fonction du risque encouru par la
personne. Ceci constitue la première grande modification de la loi de Santé Publique
puisqu’à présent, les recherches qui ne présentent aucun risque, i. e. les recherches non
interventionnelles, entrent dans le champ d’application de la loi. De ce fait, et c’est
aussi la deuxième modification majeure, les recherches des 3 catégories sont soumises à
l’autorisation d’un CPP (Art. L. 1123-6 et L. 1123-7), la constitution du dossier de
demande et la procédure d’évaluation étant d’autant plus allégée que le risque encouru
est faible.
85 Concernant les CPP, des modifications sont également apportées (Lemaire 2019) ; elles
concernent l’attribution des dossiers à évaluer qui se font à présent par tirage au sort
(voir Rat et al. 2017 pour le parcours de constitution et de dépôt des dossiers au CPP).
Les missions des CPP sont également augmentées puisqu’à l’évaluation éthique et
scientifique des dossiers s’ajoute la mission de vérification de la protection des données
personnelles des participants. Enfin, la coordination des CPP est confiée à la
Commission Nationale des Recherches Impliquant la Personne Humaine (CNRIPH),
dernière grande modification apportée par la loi de 2012.
86 Les modifications sont donc nombreuses, initialement nées d’une volonté de
simplification du cadre réglementaire relatif aux recherches impliquant la personne
humaine. De nombreuses modifications qui ont fait l’effet d’un raz de marée sur la
communauté des chercheurs en sciences humaines et sociales, puisque de fait, nos
recherches impliquent la personne humaine.
87 Dès lors, comment situer nos recherches en sciences humaines et sociales ? Comment
mener nos travaux dans le respect de la réglementation en vigueur qui a priori nous
Corpus, 22 | 2021
147
concerne puisque notre objet d’étude est l’humain. Et tout comme les sciences du
vivant, les sciences humaines recouvrent plusieurs disciplines, la question se pose alors
de savoir si toutes sont concernées au même titre.
88 Depuis 2017, la direction du LPL a souhaité mettre en place une cellule de réflexion
autour de cette nouvelle réglementation. Ce groupe s’est constitué de plusieurs
membres du laboratoire, représentants de la diversité des champs de recherche et des
méthodes utilisées dans cette unité réunissant des membres de l’INSHS, de l’INS2I et de
l’INSB. Nous avons entrepris d’examiner et comprendre les termes de la loi Jardé, ce
dans le but de pouvoir l’appliquer, tout en tenant compte de la diversité des recherches
menées au LPL. Notre groupe s’est donc penché sur les textes officiels (loi, décrets,
arrêtés) ainsi que sur les documents de support préparés par nos institutions 22.
89 À partir de ces documents, nous avons, pas à pas, questionné les termes de la loi pour
répondre à la première interrogation : nos recherches, menées au LPL, sont-elles
concernées par ce nouveau cadre réglementaire ? Une première interrogation à
laquelle se sont ajoutées les nombreuses suivantes : Si oui, quel sera l’impact sur nos
pratiques habituelles ? Comment nos travaux s’inscrivent-ils dans ce champ législatif ?
Comment déterminer si telle ou telle étude rentre dans telle ou telle catégorie ?…
90 Pour répondre à ces questions, nous avons dans un premier temps tâché de définir les
RIPH : « recherches organisées et pratiquées sur l’être humain en vue d’améliorer les
connaissances biologiques ou médicales ».
91 Nous avons ainsi pu déterminer, à l’appui des documents que :
• L’expression « recherches organisées » implique le recrutement de sujets et l’existence d’un
protocole.
• L’expression « pratiquées sur l’être humain » implique la réalisation d’actes pouvant porter
atteinte à l’intégrité physique ou psychique de la personne.
• L’expression « en vue du développement des connaissances biologiques ou médicales »
implique la connaissance de la vie, au sens de l’étude du développement de la physiologie,
du comportement… sans qu’il y ait de frontière entre les disciplines.
92 À ce stade, les études menées en linguistique, en psycholinguistique et en
neurolinguistique dans notre laboratoire semblaient répondre à la définition des RIPH.
93 Cette dernière expression « en vue du développement des connaissances biologiques ou
médicales » soulève la question de la finalité de la recherche qui semble alors
déterminante pour situer nos travaux dans ou hors du champ d’application de la loi
Jardé. Par ailleurs, la notice explicative de l’INSB du CNRS insiste sur les données de la
recherche, en particulier le type de données et les modalités de recueil. Nous avons
longuement débattu afin de déterminer laquelle de ces deux entrées « finalité » ou
« données » nous permettrait d’avancer sur notre première interrogation, alors encore
sans réponse. En filigrane, le sentiment du groupe était que cette loi concernait surtout
les recherches cliniques médicales.
94 Nous avons pris connaissance des arrêtés du 12 avril 2018, fixant la liste des recherches
mentionnées au 2° et au 3° de l’article L. 1121-1 (c’est-à-dire les recherches de catégorie
2 et 3, respectivement les RIRCM et les RNI). Encore une fois, le lexique utilisé est ancré
dans la médecine. Pour autant, le 7e point de l’arrêté fixant la liste des recherches de
catégorie 2, portant sur les
Techniques de recueil et de collecte de données au moyen de capteurs ou de
méthodes d’imagerie
Corpus, 22 | 2021
148
95 nous interpelle puisque sont couramment utilisés au LPL les dispositifs de recueil de
données biodermales, électro-encéphalographiques, électro-magnéto-
articulographiques.
96 Dans ce même Arrêté, la liste des actes et procédures pouvant être réalisés dans le
cadre d’une recherche de catégorie 3 (RNI) comprend au 4e point le
Recueil par capteurs extra-corporels non invasifs, notamment […] enregistrement
par […] électroencéphalogramme […] capteurs de mouvement […].
97 Puis au 5e point les
Enregistrements audio, vidéos, photographiques hors imagerie médicale.
98 Et enfin en 8e point les
Entretiens, observations, tests et questionnaires […].
99 Après l’examen de cet Arrêté, nous admettons que toutes les recherches menées au LPL
relèvent de la loi Jardé et que toutes les recherches devront faire l’objet d’une demande
d’autorisation au CPP. Nous mesurons l’ampleur du changement à venir dans nos
pratiques (constitution de dossier, soumission et délai de réponse), puisque jusque-là,
un petit nombre seulement de chercheurs avait eu à demander un avis au CPP.
100 Forts de cette conclusion, nous abordons la question des catégories de recherche dans
le but de proposer un guide qui nous permettrait (i) de situer nos recherches dans l’une
des trois catégories de la loi et (ii) d’identifier le parcours des demandes d’autorisations
à suivre. Ce travail nous a conduits à répartir nos recherches essentiellement entre les
catégories 2 (RICRM) et 3 (RNI), à l’appui de l’Arrêté d’avril 2018 qui précisait la nature
des données et les conditions de recueils. Notre répartition était donc basée sur les
méthodologies de la recherche.
101 Ce guide a été restitué aux membres du laboratoire et nous avons poursuivi notre
travail de « veille législative » au cours de nos réunions mensuelles.
Corpus, 22 | 2021
149
ou malades, n’ont pas pour finalités celles mentionnées au I et qui visent : […]
d) À réaliser des expérimentations en sciences humaines et sociales dans le
domaine de la santé (Art. R. 1121-1.-II-1°d)
105 La parution du décret de 2017 a clairement modifié notre lecture de la loi Jardé. En
reprenant notre réflexion initiale, nous avons pu proposer une nouvelle ventilation des
recherches menées au laboratoire qui fait apparaître les recherches en fonction des
méthodes de recueil des données et selon qu’elles entrent ou pas dans le champ
d’application de la loi. Conformément au décret de 2017, toutes nos recherches en
Sciences humaines et sociales, dont la finalité concerne cette discipline n’entrent pas
dans le champ d’application de la loi, qu’elles impliquent des personnes saines ou
malades.
106 Lors de cette conférence à Nanterre, les auteurs O. Jardé et F. Lemaire ont clairement
expliqué à l’assemblée que ce qui déterminait l’appartenance de la recherche au champ
d’application de la loi était sa finalité.
107 Cependant, les recherches couramment menées au LPL, et en particulier les recherches
impliquant des questions cliniques et/ou des populations de patients se situent, selon
les membres du groupe, à la frontière du champ d’application de la loi. Nous en avons
conclu, qu’en plus de la finalité, il conviendra le cas échéant de s’interroger sur la
méthode de recueil des données et la population visée. En effet, au-delà de la finalité, ce
seront ces deux points qui pourront être déterminants pour conclure. Prenons trois
exemples de travaux menés au LPL :
108 [1] Caractéristiques de l’humour réussi (Priego-Valverde 2018) : cette étude est menée
afin de clarifier le concept d’« humour réussi ». Elle propose une analyse de séquences
humoristiques dans des interactions en face-à-face. Les données sont constituées de
l’enregistrement audio-visuel de 3 interactions. Cette étude, dont la finalité concerne
une meilleure connaissance de l’humour dans les interactions au travers d’une analyse
linguistique est sans conteste positionnée dans le champ des SHS. Les participants et les
méthodes de recueil des données le sont également. Le décret de 2017 situe donc cette
étude en dehors du champ d’application de la loi Jardé.
109 [2] Contribution des paramètres intonatifs et temporels à la réalisation de certaines
variations mélodiques (Petrone, Lalain & Mattei) L’objectif de cette étude est de mieux
comprendre la contribution relative des paramètres intonatifs et temporels dans la
réalisation de certains patrons prosodiques. L’étude est menée auprès de sujets sains et
de patients porteurs d’une paralysie laryngée. Les données sont constituées
d’enregistrements audio de productions de phrases. On pourrait être plus hésitants que
dans le cas précédent pour qualifier cette étude, notamment parce qu’elle implique des
patients ; pourtant, parce que sa finalité concerne l’amélioration des connaissances
concernant la réalisation de contrastes prosodiques, et que l’enregistrement audio est
une méthode de recueil des données classiquement utilisée, cette étude s’inscrit bien
dans le champ des SHS. Conformément au décret de 2017, cette étude se situe en dehors
du champ d’application de la loi Jardé.
110 [3] Production de la parole et dysarthrie parkinsonienne (Sarr et al. 2009) Cette étude
est conduite auprès de patients parkinsoniens afin de déterminer si la production de la
parole de ces patients est améliorée par un traitement neurochirurgical particulier, la
stimulation cérébrale profonde. Des analyses des valeurs de pression intra-orale
permettent de caractériser cet effet potentiel sur le contrôle pneumo-phonatoire.
L’étude est menée par des chercheurs de SHS, auprès de patients ; la méthode de recueil
Corpus, 22 | 2021
150
Corpus, 22 | 2021
151
119 Nous soulignons ici la différence entre le cadre éthique et le cadre légal : demander une
validation éthique et scientifique de sa recherche devient indispensable pour répondre
aux exigences éditoriales des revues. Mais une recherche éthique n’entre pas
nécessairement dans le champ d’application de la loi Jardé et ne nécessite pas
forcément un avis du CPP. C’est précisément aux comités éthique et de recherche
scientifique des universités qu’est dévolue cette mission.
120 Le contexte et les raisons qui ont vu naître la loi Jardé, ainsi que les qualifications et
professions de ses auteurs constituent une part d’explication au désarroi que l’on a vu
naître chez les acteurs de la recherche en sciences humaines et sociales : la loi Jardé est
en définitive une loi proposée par des médecins, pour encadrer la recherche clinique
(Lemaire 2019) ; le champ lexical de la loi elle-même est, nous l’avons vu, très spécifique
au domaine médical et ce sont en particulier les termes cliniques qui sont utilisés dans
les publications traitant de la loi Jardé, des recherches interventionnelles, etc.Toute
l’ambiguïté à laquelle chacun a pu être confronté à la lecture des textes réglementaires
a disparu à la publication du décret de mai 2017.
121 En SHS, pour le recueil des données linguistiques, il s’agira dans un premier temps
d’identifier clairement la finalité de la recherche afin de pouvoir la situer hors ou dans
le champ d’application de la loi Jardé, en se référant aux articles R. 1121-1.I et
R. 1121-1.-II.-1°-d du décret n° 2017-884 du 9 mai 2017. Nous pensons également
nécessaire l’examen, outre la finalité, de la population impliquée et de la méthode de
recueil des données. Puis, le cas échéant, il conviendra de situer sa recherche dans l’une
des trois catégories RI, RIRCM ou RNI et d’accomplir les démarches de rigueur.
122 La loi Jardé, nous l’avons vu, propose un cadre réglementaire et inclut dans les
attributions des CPP la prise en charge les dispositions d’information et de
consentement des personnes volontaires se prêtant à la recherche. Cependant, ce point
concerne toutes les recherches impliquant la personne humaine ; ainsi, les questions
d’information et de consentement restent une préoccupation obligatoire et
réglementée du responsable du projet de recherche. Elle est définie cette fois par le
cadre réglementaire de la protection des données à caractère personnel codifié par le
RGPD dont les nouvelles dispositions ont fait l’objet de la première partie de cet article.
4. Conclusion
123 Les nouveaux cadres réglementaires pour ce qui concerne la protection des données et
la protection des personnes ont généré beaucoup d’inquiétudes chez les différentes
communautés de chercheurs qui ont senti leur pratique sur le point d’être
bouleversées.
124 Ces inquiétudes n’ont pas épargné les membres du groupe éthique du LPL. Mais après
deux années à prendre connaissance des textes et débattre de leur contenu, nous avons
progressé dans la compréhension de ces nouveaux cadres réglementaires et avons pu
poser un regard plus positif sur les changements, finalement moindres, qu’ils
entraînent dans notre pratique courante.
Corpus, 22 | 2021
152
125 En réalité, en SHS, la nouvelle réglementation sur la protection de la personne n’a pas
d’impact majeur, puisque dans la majorité des cas, les recherches en SHS n’entrent pas
dans le champ de la loi Jardé. En définitive, le dossier que l’on peut avoir à déposer de
manière plus certaine, constitue la demande d’approbation d’un comité éthique et de
recherche des universités qui nous permettra de valider nos questionnements éthiques
et satisfaire les exigences éditoriales des revues. Le nouveau règlement de protection
des données n’est finalement pas non plus une nouveauté en ce sens que les contraintes
qu’il impose existaient pour la plupart déjà et étaient seulement méconnues des
chercheurs, ces derniers n’ayant alors pas conscience que leurs données pouvaient être
concernées.
126 Plus qu’un frein à nos pratiques, ces nouvelles réglementations peuvent être vues de
manière positive puisque par les réflexions qu’elles nous conduisent à avoir sur nos
projets, elles nous permettent d’élaborer, de manière sans doute plus précise, les
notions relatives à la protection des personnes impliquées dans nos études, et à
prendre en considération de façon plus systématique les possibles écueils et biais
méthodologiques relatifs au traitement et à la protection de données. Les formulaires
que nous sommes amenés à remplir peuvent ainsi être vus comme des outils
d’amélioration de nos pratiques professionnelles. Peu à peu, nos tutelles ont mis en
place des supports d’aide (documents en ligne, personnel dédié) qui rendent la tâche
plus facile. Enfin, l’énergie que nous mettons pour être en conformité avec la loi Jardé,
le RGPD et l’éthique de la recherche n’est pas vaine puisqu’elle est maintenant amenée
à être réinvestie pour répondre aux nouvelles demandes de Data Management Plan
(DMP) qui émanent des organismes financeurs tels que l’ANR.
BIBLIOGRAPHIE
Arrêté (2018). Arrêté du 12 avril 2018 fixant la liste des recherches mentionnées au 3° de
l’article L. 1121-1 du code de la santé publique. NOR : SSAP1810240A. https://
www.legifrance.gouv.fr/eli/arrete/2018/4/12/SSAP1810240A/jo/texte.
CNRS-InSHS (2019). André-Poyaud I., Astor S., Baude O., Boudjaaba F., Bujan G., Collignon B.,
Dubois F., Kessous E., Maurel L. & Roger M. Les sciences humaines et sociales et la protection des
données à caractère personnel dans le contexte de la science ouverte. InSHS – Guide pour la recherche,
juin 2019. Récupéré sur https://inshs.cnrs.fr/sites/institut_inshs/files/pdf/guide-rgpd_2.pdf.
Décret (2017). Décret n° 2017-884 du 9 mai 2017 modifiant certaines dispositions réglementaires
relatives aux recherches impliquant la personne humaine NOR : AFSP1706303D https://
www.legifrance.gouv.fr/eli/decret/2017/5/9/AFSP1706303D/jo/texte.
Dérogations (2019). Article 100-1, abrogé au 1er juin 2019. Section 5 : Garanties et dérogations
applicables au traitement à des fins de recherche scientifique ou historique ou à des fins
statistiques. Récupéré sur https://www.legifrance.gouv.fr/affichTexte.do?
cidTexte=LEGITEXT000006052581&dateTexte=20180812#LEGISCTA000037282494.
Corpus, 22 | 2021
153
Ghio A., Pouchoulin G., Viallet F., Giovanni A., Woisard V., Crevier-Buchman L., Hirsch F., Fauth C.
& Fredouille C. (2020). « Du recueil à l’exploitation des corpus de parole “pathologique” :
comment accéder à la variation physiopathologique ? », Corpus 22.
Huriet (1988) loi n° 88-1138 du 20 décembre 1988 dite Huriet relative à la protection des
personnes qui se prêtent à des recherches biomédicales NOR : SPSX8810045L.
Jaillon P. & Demarez J.-P. (2008). « L’histoire de la genèse de la loi Huriet-Sérusclat de décembre
1988 », Médecine/Sciences 24(3) : 323-327 ; DOI : 10.1051/medsci/2008243323.
Jardé (2012). Loi n° 2012-300 du 5 mars 2012 relative aux recherches impliquant la personne
humaine. Version consolidée au 26 janvier 2020. Récupéré sur https://www.legifrance.gouv.fr/
affichTexte.do?cidTexte=JORFTEXT000025441587.
Lemaire F. (2019). « La loi Jardé : ce qui change », La Presse Médicale 48(3) Part. 1 : 238-242.
Lemaire F. & Matei M. (2012). « De la loi Huriet à la loi Jardé », Réanimation 21 : 373-374.
Matei M. & Lemaire F. (2013). « La loi Jardé facilitera-t-elle la recherche clinique ? », La lettre du
Cardiologue, 464-465.
LIL (1978). Loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés.
Récupéré sur https://www.legifrance.gouv.fr/affichTexte.do?
cidTexte=JORFTEXT000000886460&categorieLien=id.
LIL (2019). La loi « Informatique et Libertés », nouvelle édition du 17 juin 2019. Récupéré sur
https://www.cnil.fr/fr/la-loi-informatique-et-libertes.
Loi de Santé Publique (2004). Loi n° 2004-806 du 9 août 2004 relative à la politique de santé
publique, NOR : SANX0300055L https://www.legifrance.gouv.fr/eli/loi/2004/8/9/SANX0300055L/
jo/texte.
Rat C., Tudrej B., Kinouani S., Guineberteau C., Bertrand P., Renard V., Saint-Lary O. & le Comité
d’éthique du Collège national des généralistes enseignants (2017). « Encadrement réglementaire
des recherches en médecine générale », Exercer 135 : 327-334.
RGPD (2018). Le règlement général sur la protection des données - RGPD, 23 mai 2018. Récupéré
sur https://www.cnil.fr/fr/reglement-europeen-protection-donnees.
Sarr M.M., Pinto S., Jankowski L., Teston B., Purson A., Ghio A., Régis J., Peragut J.C. & Viallet F.
(2009). « Contribution de la mesure de la pression intra-orale pour la compréhension des troubles
de la coordination pneumophonique dans la dysarthrie parkinsonienne », Revue Neurologique 165 :
1055-1061, [IF: 1.762] DOI : 10.1016/j.neurol.2009.03.012.
NOTES
1. Appelé aussi DPO pour Data Protection Officer.
2. Citons par exemple, la métadonnée qualifiant le type de dysarthrie d’un corpus constitué
d’enregistrements sonores comme des extraits du texte de « La chèvre de Mr Seguin » lus par des
personnes souffrantes de maladie neurologique.
3. Commission Nationale de l’Informatique et des Libertés.
Corpus, 22 | 2021
154
RÉSUMÉS
Dans le cadre de la collecte des corpus oraux et multimodaux en Sciences Humaines et Sociales
(SHS), le respect de l’application du nouveau Règlement Général sur la Protection des Données à
caractère personnel provoque un profond bouleversement dans l’organisation et les méthodes de
travail des chercheurs. C’est aussi le cas de la Loi Jardé, relative aux recherches impliquant la
personne humaine, qui a étendu la notion de protection des personnes au-delà du champ de la
recherche biomédicale. Ces deux importants changements de cadre législatif obligent
aujourd’hui la communauté scientifique à s’interroger à la fois sur la protection de la personne et
sur la protection des données à caractère personnel.
En définitive, avant d’initier un travail de recherche, un important travail de réflexion et
d’actions est à mettre en place pour collecter des données dans le respect de la réglementation de
Corpus, 22 | 2021
155
protection des données et du cadre législatif de protection de la personne humaine. Identifier les
difficultés pour envisager les solutions les plus adaptées est la mission que s’est fixée le groupe de
réflexion constitué autour de la question « éthique » au Laboratoire Parole et Langage (LPL 2020).
Nous proposerons dans cet article les réflexions argumentées de notre groupe sur l’impact de ces
nouvelles réglementations sur les recherches en linguistique.
The new legal regulations for personal data protection (in France, Règlement Général sur la
Protection des Données - RGPD) have had a profound impact on the organization and
methodology concerning the collection of oral and multimodal corpora for human science
research. This was also the case with the Jardé law for research involving human beings, which
extended the concept of individual protection beyond the field of biomedical research to include
research in the humanities. These two important changes to the French legislative framework
bring the scientific community to question the protection of participants and personal data.
In compliance with the legislative framework, important reflection and actions are necessary
before initiating any research or data collection. To deal with these ethical questions, the think
tank at the Laboratoire Parole et Langage (LPL 2020) set out to identify the difficulties in
determining the most suitable solutions. In this article, we will share the documented reflections
of our group on the impact of these new legal regulations on linguistic research.
INDEX
Mots-clés : RGPD, données personnelles, Loi Jardé, recherche impliquant la personne humaine
Keywords : RGPD, personal data, Jardé law, research involving human beings
AUTEURS
MURIEL LALAIN
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
GILLES POUCHOULIN
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
BÉATRICE PRIEGO-VALVERDE
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
SERGE PINTO
Aix-Marseille Univ, CNRS, LPL, UMR 7309, Aix-en-Provence, France
Corpus, 22 | 2021
156
Varia
Corpus, 22 | 2021
157
Contexte introductif
1 La linguistique de ou sur corpus (Léon, 2008) prend sens, pour partie, dans ses
applications. C’est le cas des analyses politiques, par exemple, fort utiles pour
comprendre les phénomènes pragmatiques de distorsions possibles des opinions via un
usage langagier singulier (Trognon & Larrue, 1997). Les études de linguistes ont
d’ailleurs peu à peu migré vers l’utilisation, par les journalistes, d’outillages facilitant
leur accès aux techniques de fouille automatisée, via des logiciels dédiés, gratuits, libres
de droit (Marchand, 1998). Les travaux de Mayaffre sont à cet égard exemplaires d’une
application utile et judicieuse au champ de l’analyse politique (Mayaffre, 2012 ;
Mayaffre, Pincemin & Poudat, 2019, pour exemples). À l’heure où nous écrivons cet
article, c’est-à-dire en pleine effervescence sanitaire mondiale de la Covid-19, la portée
du corpus DECLICS2016 peut même être interrogée quant à ses retombées sur la
politique de santé publique. Ainsi, pourquoi faire un corpus, et quel usage envisager dès
sa conception ?
2 Initialement et structurellement, le projet DECLICS1 (Dispositif d’Etude CLInique des Corpus
en Santé), dans lequel s’inscrit notre contribution, visait à faire dialoguer différents
partenaires : des laboratoires de SHS et des laboratoires de médecine, associant des
Corpus, 22 | 2021
158
1. Cadre référentiel
4 Adaptée à la spécificité du corpus DECLICS2016, qui comprend un dispositif expérimental
impliquant des thérapeutes pour le suivi de malades chroniques, notre question
centrale est la suivante : la linguistique contemporaine peut-elle aider à une
reconfiguration communicationnelle de la relation médecin-patient (cf. Berthod-
Wurmser et al., 2017, ci-dessus) ?
Corpus, 22 | 2021
159
5 En annonçant que nous abordons ce champ sous l’angle assumé des généralités, nous
reprenons une citation, un peu longue figurant sur le premier volume de la revue
Corpus :
[l]a notion de corpus paraît, de prime abord, assez simple et bien ancrée dans
certaines traditions des sciences humaines et sociales, philologique ou juridique par
exemple. Il s’agit d’un recueil, formé d’un ensemble de données sélectionnées et
rassemblées pour intéresser une même discipline. Néanmoins, dans le champ
linguistique, la notion s’est complexifiée au cours des dernières décennies en
fonction de la diversité des pratiques et des objectifs assignés à la constitution et à
l’exploitation des corpus. Or le moment semble venu d’expliciter ces pratiques, de
les questionner et de tenter de mettre au jour leur impact épistémologique sur
l’évolution de la discipline, tant il est vrai – comme l’écrit Damon Mayaffre – que la
qualité première d’une démarche scientifique est d’être une démarche qui
s’explicite. (Mellet, 2002 :1).
6 Nous nous situons, quasiment 20 années plus tard, sur cette identique volonté de porter
explicitement les choix de constitution, les méthodes d’exploitation, ce, sans cacher les
soucis que rencontrent les linguistes dans le traitement interdisciplinaire de données
en termes de retombées professionnelles (Kébir et al., 2020). C’est dans cette
perspective épistémologique de la linguistique que nous situons les enjeux de cette
contribution.
7 Sur le volet professionnel, Lussier et Richard (2008) ont proposé un modèle assez
normatif en contexte québécois (cité par Richard et al., 2010, cf. figure en annexe)
polarisant la relation médecin-patient depuis le rôle de prise en charge jusqu’à la celui de
facilitateur. Dès 1951, Parsons proposait une nomenclature, qui fut progressivement
révisée, amendée, transformée (Szasz & Hollender, 1956 ; Freidson, 1984 ; Emanuel &
Emanuel, 1992 ; Moumjid & Carrère, 2000, cf. tableau en annexe). Par ailleurs, le modèle
structurel de la consultation de type « étapiste » subsiste ; il a servi de référence aux
travaux des années 80-90 (Richard et al., 2010). Des 3 aux 10 étapes décrites et
préconisées aux médecins en formation, on note un décalage avec la description que
Cosnier et al. (1993) avaient construite à partir de données verbales authentiques.
Différemment de Richard et Lussier, nous considérons, pour notre part, que la relation
est au cœur du système d’interlocution (Trognon, 1995 ; Auriac, 2007), le social
construisant la relation, l’intercompréhension savante dépendant du système de places
interlocutives (Kerbrat-Orecchioni, 1987). Gagne-t-on à faciliter la parole des patients
chroniques (Piot, 2018) ? Le linguiste peut-il, à ce niveau, être utile à former à la
relation de soin ?
8 Si l’enjeu de soin est important, on ne minimise pas les effets de distance entre la
culture des médecins et celle des chercheurs en sciences sociales (Louis-Courvoisier,
2015) ; on se garde de toute naïveté. La pédagogie médicale n’est pas facile à installer
(Boelen, 2014). Le modèle délibératif (Ericsson, 2004 ; Côté, 2015) pourrait paraitre le
plus idoine aux prescriptions actuelles en santé (cf. plus haut). Nous prendrons comme
Corpus, 22 | 2021
160
10 DECLICS2016 a été prévu pour permettre l’exploitation des données en tant que corpus-
based, pour confirmer/infirmer des hypothèses préalables, mais aussi comme corpus-
driven engageant à des procédures plus inductives, pour explorer les données sans a
priori (Williams, 2005 : 13 ; Danino, 2020 : 5). C’est un corpus de paroles authentiques,
enregistrées pour exploiter, si ce n’est des hypothèses de recherches préalables, les
intentions qui ont prédéterminé sa constitution. Son exploitation prévoyait des études
en syntaxe, suivant la méthode de corpus-driven (Advocat & Blasco, à paraître) et en
Corpus, 22 | 2021
161
Maladies Médecine
Neurologie Nutrition Pédiatrie Total
infectieuses interne
Séquences
18 8 9 5 2 42
enregistrées
Consultations 15 3 6 1 1 26
Entretiens cliniques 3 0 3
Corpus, 22 | 2021
162
Présentations
5 3 4 1 13
cliniques
Thérapeutes 5 2 3
Médecins 10 6 4
Patients 35 18 17
Aidants 13 9 4
Corpus, 22 | 2021
163
Corpus, 22 | 2021
164
éléments portant sur les régulateurs ou ponctuants verbaux (oui, hum, bon, etc.) dont on
sait pourtant qu’ils sont des indicateurs professionnels forts (ex : alors, voir Bouacha,
1981).
22 Avons-nous conduit la bonne réduction ? Le linguiste est-il bien placé pour s’adresser
aux médecins ? Comment, basé sur ses résultats, peut-il en faire profiter le médecin ?
Les questions suivantes sont adressées aux médecins: quel style d’échange préférez-
vous ? Pourquoi ? Comment dénommeriez-vous le style de chaque scénario, l’attitude
du médecin et du patient ? Ces scénarios font-ils écho à votre pratique ? Diriez-vous
que vous adoptez un style constant ou variable, selon les patients, dans votre pratique ?
Si vous aviez à intervenir en formation auprès d’internes, préfèreriez-vous présenter
l’un de ces scénarios, plutôt qu’un autre ? Pourquoi ? Il s’agissait de voir si l’échelle
a) du marqueur clef, b) de l’évènement interlocutoire et c) du genre conversationnel
était accessible au médecin. Et, conséquemment, savoir si les médecins repèrent la
même chose, selon leur spécialité, leur âge, leur expérience professionnelle.
24 Trois micro vignettes présentaient des extraits d’échanges sous forme d’acteurs-types
caricaturaux : assentiment, opposant ou négociateur (extraits 2, 3 et 4). L’intérêt était de
disposer de vignettes simplifiées croisant les indicateurs linguistiques et nos
interprétations interlocutoires pour ouvrir les trois pistes prédéfinies: a) rapport de
place, b) intercompréhension et c) stratégies du médecin (cf. § 3.1.).
Extrait 2, micro vignette, patient-type assentiment
PAT[0h09m19]: moi je veux bien + ça me gêne pas ça c’est vous qui décidez hein
mais ; MED[0h09m22]: voilà on va essayer comme ça + le Azilect** il bouge pas
Extrait 3, micro vignette, patient-type opposant
PAT[0h16m55]: c’est pour ça que j’ai employé le terme d’idiopathie orpheline** ;
MED[0h16m58]: oui oui oui j’ai bien saisi + hein mais c’est idiopathie** ça veut pas
dire ça
Extrait 4, micro-vignette, médecin-type négociateur
MED[0h10m00]: nous on peut refaire un point par exemple dans trois mois avec la
prise de sang et de voir où ça en est + après pour le suivi comme vous disiez
Corpus, 22 | 2021
165
essayer que vous puissiez vous trouver vos propres solutions euh avec l’aide de
mes collègues
Légende : les mots de jargon sont repérés par un double astérisque (voir le §4.2.
suivant).
25 La réduction à ces trois micro vignettes nous a conduits à une mise en doute de ce
support, confirmée ensuite par l’entretien mené avec des médecins (voir § 5).
26 La présentation des extraits aux médecins a posé problème : devions-nous souligner les
indicateurs linguistiques ou les faire découvrir aux médecins ? L’emploi du jargon par
les médecins repéré de longue date comme entravant potentiellement la
compréhension (Turpin, 2002 : 58) et maintenant le patient à distance de la sphère
savante nous a conduits à remplacer les termes jargonnant (extrait 2, plus haut) par des
non mots inventés (cf. extrait 1, § 3.1., et annexes). Il s’avère très délicat d’interroger un
spécialiste – neurologue, nutritionniste, infectiologue – ou un généraliste, en leur ôtant cet
habitus de jargon ; le linguiste ne maîtrise pas plus que le quidam l’usage des mots de
spécialité médicale et notre inventivité a trouvé sa limite. Nous avons opté pour
réintroduire le jargon médical initial, l’évocation de médications inventées dérangeant
le médecin. Si nous avons préféré l’exploitation de paroles authentiques, transformer
l’authenticité de propos au profit d’une formation reste possible mais discutable ; les
limites d’une exploitation de données, alternativement originales vs adaptées, doivent
questionner la formation.
Corpus, 22 | 2021
166
Figure 1. Extrait présenté aux médecins rapportant le nombre d’occurrences brutes d’emplois de
mais et donc comparant patient (PAT) et médecin (MED) sur deux cas cliniques authentiques –A/B-.
Image 1008673800001E9F00001196F31103D36B3179D2.emf
Image 100750C400001E9F00000F6649868DDD9AAF3423.emf
28 La prise de note effectuée in situ lors de la tenue du focus group révèle quelques
caractéristiques saillantes des propos réactifs des médecins sur ces graphiques. Pour A,
un médecin énonce son absence d’étonnement quant à l’emploi nul de donc, pointant
comme évidente l’incapacité du patient à savoir interpréter ce qui se dit. Un autre
médecin déclare la même absence d’étonnement, en notant qu’un patient préfère de
toutes façons se distancier et laisser le médecin « s’occuper de tout ». L’image du
patient-type fonctionne extrapolée directement par les médecins et rendue par des
propos tranchés : cela ne m’étonne pas du tout ; je ne suis pas étonné 12. L’approche par
scénarios est pourrait-on dire alors nulle en effets formatifs : l’habitus diagnostique fait
écran, l’évocation de l’expérience opacifie, il n’y a aucune mise en doute. Pour B, une
image extrapolée de patient-type s’effectue pointant les équilibres d’emplois entre mais
et donc. L’équilibre différent mais/donc engage le dialogue entre médecins : la conduite
cohérente du discours par le truchement de mais est d’emblée attribuée au rôle de
médecin, quand bien même est noté que l’emploi de mais ne destine pas à être contre le
patient. Pour l’emploi de donc le patient respecterait son rôle de vérificateur de ce que le
médecin a compris/transmis. Il semble n’y avoir aucune remise en cause des rôles connus
d’avance de médecins et patients. L’expérience médicale voile toute nouvelle
contextualisation possible des habitus diagnostiques (cf. Audetat et al., 2011) : les
médecins projettent leur expérience singulière dans l’usage de mais/donc et les apports
du linguiste n’enclenchent aucun des processus formatifs réflexifs attendus.
Corpus, 22 | 2021
167
Corpus, 22 | 2021
168
32 Au final, les médecins révèlent leur sensibilité au non verbal plus qu’au verbe et raillent
les politiques de santé qui soumettent les jeunes internes à dire « la vérité » à tout prix.
Un consensus semble acquis : soigner est une affaire de mots, et le verbe rejoint à ce
niveau le choix politique. Mais les médecins ne sont pas prêts, en l’état des conditions
proposées sur la base d’une exploitation du corpus DECLICS2016, à s’engager facilement
à décrypter les/leurs/le discours.
33 Les données de base que constituent les paroles authentiques enregistrées avec
l’assentiment des patients, aidants, médecins et thérapeutes ne posent pas de souci à
l’étude du linguiste, les chercheurs authentifiant le respect strict des conditions
éthiques d’exploitation15. En revanche, les propos originaux et singuliers issus de la
confrontation croisée entre médecins n’ont pu et ne peuvent être publiés ; les médecins
ont confié verbalement leurs avis authentiques, au prix d’être assurés qu’on ne
divulguerait cette vérité du verbe à quiconque. Ils n’ont donc pas consenti à la
divulgation en l’état de leurs verbalisations. Nous avons dû gloser leurs propos, mais ne
pouvons/pourrons en faire une étude trop fouillée. La linguistique de corpus est alors
directement interpellée dans ses modalités de constitution et d’exploitation éthiques
des paroles authentiques singulières. La forme de digression dans l’usage des données
fournies par les linguistes, puis commentées par les médecins, semble ne pas
fonctionner. La métaphore de la poupée russe où l’on pensait pouvoir emboiter des
propos sur des propos pour gagner en application n’a pas totalement abouti. Cela
interroge sur l’intérêt du projet DECLICS, ou le corpus DECLICS2016 se veut dédié à une
linguistique appliquée (cf. Auriac-Slusarczyk & Blasco, 2019). « À qui servent les
corpus » reste une question fondamentale.
5. Discussion générale
34 Quand Kerbrat-Orecchioni étudie les faits de langue dans les boulangeries ou les
boucheries (Kerbrat-Orecchioni, 2004), ce n’est pas pour former les petits commerçants
français à être plus ou moins polis (Kerbrat-Orecchioni, 2001). Quand un corpus se
destine à des retombées sociétales en termes de santé publique, sa constitution prend
des tournures différentes, aux allures potentiellement ou pratiquement politiques.
Notre contribution, en ce sens, questionne les linguistes, dont nous sommes, sur la
qualité des études réalisées qui concernent de concert les conditions de constitution
comme de portée d’un corpus. Avons-nous conduit les bons choix, la bonne réduction
des faits de langue étudiés en scénarios, et su pré-adapter les temps d’échanges supposés
formatifs auprès des médecins ? S’il est trop tôt pour conclure de manière décisive sur
cet aspect, nous voudrions mettre en discussion certains éléments. Car comme le
remarque C. Kerbrat-Orecchioni :
[…] de l’observation du fonctionnement de la politesse dans une situation aussi
banale que l’achat d’une baguette de pain, il ressort : (1) Que loin d’être un
phénomène marginal confiné dans quelques « formules » bien circonscrites, la
politesse est en réalité diffuse et profuse, dans ce type de discours comme dans bien
d’autres : près de la moitié du matériel produit dans les deux interactions qui
Corpus, 22 | 2021
169
BIBLIOGRAPHIE
Advocat O. & Delsart A. (2018). « Regards croisés sur les données du corpus DECLICS2016 »,
Colloque CA2LI, Lier Recherche et Formation professionnelle : les corpus à l’interface, 16 novembre 2018,
UCA-MSH, Clermont Ferrand.
Corpus, 22 | 2021
170
Advocat O., Blasco M. & Durif F. (2019). « Les entretiens entre patients et professionnels de santé :
éléments de construction collective des discours », ESASO 5(2) : 23-39.
Aubry R. & Mallet D. (2008). « Réflexions et propositions pour la formation médicale », Pédagogie
médicale 9(2) : 94-102.
Auchlin A. (1981). « Mais heu, pis bon, ben alors voilà, quoi ! Marqueurs de structuration de la
conversation et complétude », Cahiers de linguistique française 1 :141-159.
Audétat M.C., Laurin S. & Sanche G. (2011). « Aborder le raisonnement clinique du point de vue
pédagogique. I. Un cadre conceptuel pour identifier les problèmes de raisonnement clinique »,
Pédagogie Médicale 12 : 223-229.
Auriac E. (2007). « Quels indicateurs retenir pour progresser dans l’étude des discours
scolaires ? », in A. Sepcogna (dir.), Enseigner dans l’interaction. Paris : L’Harmattan, 33-56.
Auriac-Slusarczyk E. & Blasco M. (2019). Les discours soignants soignés adressés aux patients. Quelle
contribution des sciences humaines et sociales ? ESASOS 5(2).
Auriac-Slusarczyk E., Delsart A., Saint-Dizier V., Zehnder E., Blasco M., Advocat O., Durif F. &
Lebas-Fraczak L. (2018). « Étude pragmatique des discours soignants/soignés en contexte
hospitalier », Xe Congrès francophone de psychologie de la santé, Pratiques et interventions en psychologie
de la santé, 13-15 juin 2018. Metz : Université de Lorraine.
Batt M. & Trognon A. (2012). Étude d’un jeu de dialogue professionnel. Le conseil en médecine prédictive.
Nancy : éd. Maison des sciences de l'homme Lorraine, Collection Lang.
Berthod-Wurmser M., Bousquet F. & Legal R. (2017). « Patients et usagers du système de santé :
l’émergence progressive de voix qui commencent à compter », Revue française des affaires sociales
1 : 5-19.
Corpus, 22 | 2021
171
Blasco M. & Cappeau P. (2018). « Construire et analyser un corpus oral sur objectifs spécifiques :
précautions et réflexions », Journées d’étude du Centre d’Études Linguistiques (CEL) et le Centre
Interlangues Texte Image Langage, Corpus sur objectifs spécifiques, 15-16 novembre. Lyon : Université
Jean Moulin.
Blasco M., Cappeau P., Auriac-Slusarczyk E., Advocat O., Delsart A., Richard E., Drouet G., Kébir Y.
& Saint Dizier De Almeida V. (2019). « DECLICS2016 : Un corpus pour recueillir, analyser et
améliorer la parole en milieu hospitalier », 10es Journées Internationales de la Linguistique de corpus,
26-28 novembre. Grenoble : UGA.
Boelen C. (2014). « Il était une fois, il y a trente ans…, l’éducation médicale francophone »,
Pédagogie Médicale 15(1) : 61-62.
Bousquet F. & Ghadi V. (2017). « La participation des usagers aux systèmes de santé : un tour
d’horizon international », Revue française des affaires sociales 1 : 116-127.
Cameron L. & Deignan A. (2003). « Combining Large and Small Corpora to Investigate Tuning
Devices Around Metaphor in Spoken Discourse », Metaphor and Symbol 18(3) : 149-160.
Chanet C. (2003), « Fréquence des marqueurs discursifs en français parlé : quelques problèmes de
méthodologie », Recherches sur le français parlé 18 : 1-25.
Charaudeau P. (1995). « Rôles sociaux et rôles langagiers », in D. Veronique & R. Vion (dir.),
Modèles de l’interaction verbale. Aix-en-Provence : Presses Universitaires de Provence, 79-96.
Chevalier G. (2007). « Les marqueurs discursifs réactifs dans une variété de française en contact
intense avec l’anglais », Langue française 154(2) : 61-77.
Chevalier G. (2008). « Les français du Canada : faits linguistiques, faits de langue », Alternative
Francophone 1(1) : 80-97.
Clot Y. (2007). « De l’analyse des pratiques au développement des métiers », Éducation & Didactique
1(1) : 83-93.
Cosnier J., Grosjean M. & Lacoste M. (1993). Les interactions en milieu soignant. Soins et
communication: approches interactionnistes des relations de soin. Lyon : Presses universitaires de Lyon.
Côté L. (2015). « Réflexion sur une expérience de supervision clinique sous l’angle de l’alliance
pédagogique », Pédagogie Médicale 16(1) : 79-84.
Delsart A. (2020). « Les statuts des locuteurs dévoilés par l’usage des répétitions locales en
contexte de soin », Espaces Linguistiques 1 : 26-4.
Corpus, 22 | 2021
172
Delsart A. & Auriac-Slusarczyk E. (soumis). « Les emplois différentiels des marqueurs discursifs
mais et donc en conversations cliniques : une étude linguistique appliquée à une pratique du soin
éclairée », Discours.
Delsart A. & Marques A.-R. (2019). « Effet de l’expertise communicationnelle sur la prise de parole
des patients. Étude contrastée des discours entre médecine et thérapeutes », ESASOS 5(2) : 59-83.
Emanuel E.-J. & Emanuel L.-L. (1992). « Four models of the physician-patient relationship », JAMA
267(16) : 2221-2226.
Ericsson K.A. (2004). « Deliberate Practice and the Acquisition and Maintenance of Expert
Performance in Medicine and Related Domains », AcadMed 79(10 suppl.) : 70-81.
Fainzang S. (2006). « Secret et mensonge dans le discours médical », Cités 2(6) : 27-36.
Ferré G. (2016a). « Between Fact and Fiction: Semantic fields and Image Content in Crime
Infotainment programs », Multimodal Communication 5(2) : 127-141.
Gaillard M. & Lechopier N. (2015). « Relever le défi d’introduire aux sciences humaines et sociales
en première année commune des études de santé. Mise en perspective de quelques pratiques
pédagogiques », Pédagogie Médicale 16 : 23-34.
Génolini J.-P., Roca R., Rolland C. & Mambrado M. (2011). « “L’éducation” du patient en médecine
générale : une activité périphérique ou spécifique de la relation de soin ? », Revue sciences sociales
et santé 3 : 81-12.
Jouquan J., Parent F. & Audétat M.-C. (2013). « Des analogies entre le raisonnement médical et
l’évaluation formative », Revue française de linguistique appliquée XVIII(1) : 93-106.
Kébir Y., Delsart A., Arfaoui S., Auriac-Slusarczyk E. & Saint-Dizier de Almeida V. (2020).
« L’apport d’une approche pluridisciplinaire pour enrichir l’analyse de l’activité de consultation
de suivi médicale ». Colloque de la SELF, L’activité et ses frontières. Penser et agir sur les transformations
de nos sociétés. 16-18 septembre. Paris : La villette.
Kerbrat-Orecchioni C. (2004). « Négocier dans les petits commerces », Négociations 2(2) : 7-22.
Corpus, 22 | 2021
173
Lussier M.-T. & Richard C. (2008). « Because one shoes doesn’t fit all : A repertoire of doctor-
patient relationships », Canadian family psysician/Medecin de famille canadien 54(8) : 1089-1092.
Mayaffre, D. (2012). Nicolas Sarkozy. Mesure et démesure du discours (2007-2012). Paris : Presses de la
fondation nationale des Sciences Politiques.
Mayaffre, D. (2017). « Les mots des candidats, de “allons” à “vertu” », in P. Perrineau (dir.). Le vote
disruptif. Les élections présidentielles et législatives de 2017. Paris : Presses de Sciences Po, Collection
Chroniques électorales, 129-152.
Mayaffre D., Pincemin B. & Poudat C. (2019). « Explorer, mesurer, contextualiser. Quelques
apports de la textométrie à l’analyse de discours », Langue française 203(3) : 101-115.
Millette B., Lussier M.-T. & Goudreau J. (2004). « L’apprentissage de la communication par les
médecins : aspects conceptuels et méthodologiques d’une mission académique prioritaire »,
Pédagogie Médicale 5(2) : 110-126.
Nguyen-Khac A. (2017). « Mesures de l’accès aux soins : l’apport d’enquêtes sur les pratiques et
perceptions des patients », Revue française des affaires sociales 1 : 187-195.
Piot T. (2018). « Le rôle déterminant et méconnu des conversations soignant-patient au cœur des
interactions de soin », Les dossiers des sciences de l’éducation 39 : 13-31.
Préau M. & Siméone A. (2018). De l’expertise scientifique à l’expertise profane. Lyon : Psychologie du
social. Éditions des archives contemporaines.
Richard C., Lussier M.-T., Galarneau S. & Jamoulle O. (2010). « Compétence en communication
professionnelle en santé », Pédagogie Médicale 11(4) : 255-272.
Roiné P., Blasco M. & Auriac-Slusarczyk E. (à paraître). « Rôle et valeurs des emplois en “c’est”
dans le corpus Philosophèmes », in C. Frérot et M. Pecman, Des corpus numériques à la modélisation
linguistique en langues de spécialité. Grenoble : Presses de l’UGA, pages non connues.
Sommer J.-M. & Rieder A.-R. (2014). « Comment enseigner la communication au cabinet »,
PrimaryCare 14(8) : 136-138.
Szasz T. S. & Hollender M. H. (1956). « The Basic Models of the Doctor-Patient Relationship »,
Archives of Internal Medicine 97 : 585-592.
Corpus, 22 | 2021
174
Vincent D. (1993). Les ponctuants de la langue et autres mots du discours. Québec : Éditions Nuit
Blanche.
ANNEXES
ANNEXE 1
Actif / Actif *
Szasz & Hollender, 1956 Actif / Passif * participation Passif / Passif Passif / Actif
mutuelle
Délibératif*
Emanuel & Emanuel, 1992 Informatif Interprétatif * Idéal Paternaliste
auteurs
ANNEXE 2
Corpus, 22 | 2021
175
Image 1022DEB400002E760000304F24557713ADFA23DE.emf
Corpus, 22 | 2021
176
ANNEXE 4
Vignette 1 : Monsieur X (PAT) accompagné de son épouse Madame Z aidante (AID)
s’entretiennent avec Madame Y médecin spécialiste (MED) pour la consultation
régulière de suivi survenant 2 mois après une opération de Monsieur X. Des symptômes
gênants et persistants apparaissent pouvant donner lieu à échange dans cette
consultation.
Corpus, 22 | 2021
177
Vignette 3 : Madame U (PAT) est suivie par la médecin spécialiste T (MED) pour des
problèmes hormonaux.
Corpus, 22 | 2021
178
NOTES
1. Le projet DECLICS, qui regroupe des chercheurs en national, est financé par la région AURA.
2. Nom générique désignant le corpus verbal.
3. L’enregistrement, exclusivement en mode audio, protège néanmoins déjà le caractère
personnel des données ; mais l’anonymisation reste incomplète.
4. Voir la plateforme Multiplumes de la MSH Clermont-Auvergne dédiée : http://msh-
clermont.fr/content/multiplumes-incubateur-de-projets-corpus-pour-les-shs.
5. Les chercheurs intéressés peuvent adresser une demande à mylène.blasco@uca.fr, qui pourra
leur être accordée sous couvert d’un respect de confidentialité pour partager ces données
scientifiques, ce, avec accès restrictif. Toute demande sera préalablement soumise et examinée
par le comité éthique de l’UCA.
6. Chevalier utilise 6 corpus, respectivement de 20 000, 84 600, 177 900, 530 000, 210 000 et 35 000
mots.
7. Chanet utilise les corpus CORPAIX, 1 050 000 mots et CRFP 450 000 mots.
8. La transcription croise notamment les conventions du GARS (français parlé) et de VALIBEL
(interaction).
9. Les extraits de corpus présentés aux médecins ont été nettoyés de toutes marques de
convention de transcription qui pourraient gêner la lecture, seules les pauses courtes,
symbolisées avec le signe classique « + », sont maintenues.
10. Informations correspondant à l’état du 03 avril 2020.
11. Nous soulignons minimalement les pronoms personnels en partie indicateurs des rapports de
places interlocutives.
12. Propos tronqués ou glosés.
13. Une lecture silencieuse précédait une lecture orale intonative proche de l’enregistrement
effectif pour coller à l’authenticité du contexte.
14. Idem. Propos partiellement tronqués pour préserver le choix de non divulgation des
médecins (voir § 4.5.).
15. Accord du CERES de Paris-Descartes acquis sur demande du 10/12/2016 par Mylène Blasco et
Océane Advocat.
RÉSUMÉS
Notre proposition engage à (re)problématiser l’intérêt de la linguistique de et sur corpus quant à
ses applications professionnelles. Ancrée en pragmatique, elle retrace le mode de recueil et
d’exploitation de données dans le cadre applicatif du corpus DECLICS2016, ce, pour servir les
questions de métier en médecine. Nous testons l’efficience de la linguistique, comme discipline
de SHS contributive éclairant l’activité professionnelle, en produisant des scénarios
pédagogiques à partir d’extraits de discours. On s’attache à réfléchir sur la « reconstruction de la
relation médecin patient », à partir d’un matériau de paroles authentiques. En premier lieu,
l’accent est porté sur la constitution même du corpus DECLICS2016. En second lieu, c’est
l’application en santé qui est interrogée via nos résultats. Ceux–ci dégagent, à partir d’entretiens
de confrontation croisée entre médecins mis face aux paroles authentiques et données d’études
linguistiques de patients, qu’il est délicat, pour ces médecins, de profiter de nos catégories
Corpus, 22 | 2021
179
The aim of our proposal is to ask questions and better consider the opportunity of speech data
applying to professional field. Inscribed in pragmatic way, our presentation describes work into
progress to data collected linked to applicative framework of DECLICS2016 corpus, to engage
professional medical questions. We test the linguistic efficiency, considered as one of SHS
discipline, to highlight medical activity with pedagogical scenarios, on the base of discursive
examples. We encourage think about the possibility of “reconstructing relationships” between
specialist doctors and their patients, based on authentic original speech acts. Firstly, we take into
account the strategy of constitution DECLICS corpus. Secondly, our results are looked to benefit
healthcare area. This results show that, based on self- crossed interview between doctors, in
front of original sentences and linguistics patient’s data, these specialist doctors do not progress
with our pragmatic categorization assistance: relationships, understanding and medical discourse
strategies.
INDEX
Keywords : relationships, pedagogical scenarios, constitution of corpus, pragmatic
Mots-clés : rapports de place, scénarios pédagogiques, constitution de corpus, pragmatique
AUTEURS
EMMANUÈLE AURIAC-SLUSARCZYK
Maître de conférences HDR en Sciences du Langage
Université Clermont Auvergne, ACTé, F-63 000 Clermont –Ferrand, France
ALINE DELSART
Doctorante en Sciences du Langage
Université Clermont Auvergne, ACTé, F-63 000 Clermont –Ferrand, France
Corpus, 22 | 2021
180
Conceptualisation en lexicométrie
des anglicismes.
Le corollaire empirique d’un choix
méthodologique
Cécile Planchon
1. Introduction
1 Dès ses débuts en tant qu’objet de recherche, l’anglicisme s’impose comme un
phénomène très complexe à définir. Selon l’époque, la classe sociale, les idéaux
personnels ou les objectifs de recherche du chercheur, l’anglicisme se voit
accompagner de différentes distinctions conceptuelles. Pourtant, le rôle d’une
définition est essentiel à toute analyse car elle influe inévitablement sur les résultats
obtenus ainsi que sur leur représentativité.
2 C’est donc autour de la définition du concept d’anglicisme que nous avons construit
notre étude afin de mettre en avant la portée de son influence. L’originalité de cette
étude repose sur une double analyse lexicométrique et diachronique de l’anglicisme
lexical selon les deux acceptions les plus communément acceptées dans la recherche, à
savoir 1) comme tout emprunt de forme, intégral ou hybride, à l’anglais et 2) comme
emprunt de forme, intégral ou hybride, à l’anglais dit ‘critiqué’ pour lequel il existe un
équivalent en français. Nous avons ainsi utilisé un corpus de presse écrite francophone
comme matériel de contrôle afin de vérifier si cette conceptualisation multiple de
l’anglicisme entraînait des conclusions différentes, tant en matière de résultats chiffrés
que de signification statistique.
3 Dans cet article, nous expliquons tout d’abord l’importance de l’anglicisme pour les
francophones et le rôle essentiel que joue sa conceptualisation. Nous présentons
ensuite les acceptions les plus communément admises dans la recherche avant
d’aborder la méthodologie que nous avons adoptée. Nous terminons sur une discussion
Corpus, 22 | 2021
181
de nos résultats ainsi que de l’influence du choix de la définition sur nos deux facteurs
témoins.
2. L’anglicisme en contexte
4 Qu’entend-on généralement par anglicisme ? Un rapide survol des nombreuses études
sur le sujet révèle qu’il existe presqu’autant de définitions que de chercheurs. Pourtant,
bien que nous bénéficiions actuellement d’amples connaissances sur l’anglicisme en
tant que phénomène linguistique, l’intérêt, qu’il soit scientifique ou populaire, est
toujours bien réel et le débat auquel il semble être intrinsèquement lié continue de
faire rage.
5 La définition du concept de base est l’un des choix méthodologiques les plus
déterminants de toute étude quantitative. Tel que Sartori l’explique, la formation du
concept doit toujours précéder la quantification car « le processus de la pensée débute
inévitablement dans une langue qualitative (naturelle), peu importe la direction vers
laquelle on se dirige par la suite » (1970 : 1038, nous traduisons 1).
6 Pourtant, les études quantitatives existantes reposant sur une analyse des anglicismes
en corpus journalistique (Forgue, 1986 ; Mareschal, 1989 ; Zanola, 1990 ; Misanchuk,
1997 ; Villers, 2005 ; Harris, 2010) utilisent toutes une conception de l’anglicisme
différente, soulevant ainsi inévitablement la question de la comparabilité des résultats
empiriques qu’elles présentent. De plus, la méthodologie employée pose, la plupart du
temps, problème à cause d’un manque de clarté, de l’impossibilité d’être reproduite ou
de choix difficilement justifiables. Zanola (1990) redéfinit par exemple les types
d’anglicismes de façon aléatoire et ajoute des termes hors catégories lorsqu’elle les
rencontre au fil de ses lectures, rendant ainsi toute comparaison subséquente
compliquée.
7 Étant donné que nous travaillons en diatopie (France et Québec), nous avons choisi de
nous concentrer sur l’anglicisme lexical intégral et hybride 2 que Loubier (2011) définit
respectivement comme étant l’« emprunt de la forme et du sens, sans adaptation ou
avec une adaptation graphique ou phonologique minimale » (par exemple staff, lobby,
artéfact) et l’ « emprunt de sens, mais dont la forme est partiellement empruntée »
(dopage, coach de vie). En nous concentrant sur la fréquence d’utilisation (taux
d’utilisation), nous avons pour objectif de faire le pont entre théorie et empirie pour
dégager des différences éventuelles entre les deux conceptions de l’anglicisme les plus
couramment utilisées dans la recherche. La seconde visée de cette étude est ensuite de
déterminer comment la conceptualisation de ce phénomène influe sur des analyses
comparatives liées à l’origine géographique et à la nature des journaux.
3. Conceptualiser l’anglicisme
8 Il est assez évident que définir un concept tel que l’anglicisme n’est pas chose facile car
l’exercice dépend entièrement de l’angle d’approche du chercheur. Parmi les causes
principales que nous avons relevées (enrichissement de la langue, emprunt en tant que
symbole de la domination d’une nation sur le plan international, emprunt en tant que
conséquence du bilinguisme ou de mauvais traducteurs…), la distinction établie par le
linguiste Ernst Tappolet au début du XXe siècle nous semble être celle qui revient le
Corpus, 22 | 2021
182
Corpus, 22 | 2021
183
4. Méthodologie
4.1. Présentation du corpus
15 Nous avons constitué un corpus qui est, à notre connaissance, l’un des plus riches
jamais utilisés pour une étude sur les anglicismes. Fort de plus de 870 000 articles, soit
plus de 331 millions de mots, il regroupe les publications de 2000 à 2015 de quatre
quotidiens différents : Le Monde et Le Parisien pour la France, Le Devoir et La Presse pour
le Québec.
16 Ce corpus n’est pas également réparti entre les quatre quotidiens. Le Parisien affiche
113 692 415 mots pour 428 275 articles et contient 2,2 fois plus de mots et plus de
4,5 fois plus d’articles que le corpus du Devoir alors que les corpus du Monde et de La
Presse affichent des résultats à peu près similaires (81 à 84 millions de mots pour
environ 175 000 articles).
17 Nous avons choisi de travailler avec la presse écrite car nous souhaitions garantir un
degré de représentativité maximum à notre recherche. Il nous a pour cela paru
nécessaire de travailler sur une langue à la fois mieux maîtrisée et plus recherchée que
la langue orale, afin de pouvoir en faire une sorte de ‘tronc commun’ à toute une
population. Nous sommes d’avis que la présence d’anglicismes à l’écrit implique qu’ils
ont réussi à résister aux différentes étapes de révision et correction qui vont
normalement de pair avec la langue écrite et que leur utilisation n’en est, de fait, que
plus prégnante. Harris précise à ce sujet que « la recherche a montré à maintes reprises
que la langue écrite offre au locuteur suffisamment de temps (depuis la formation
d’une idée dans le cerveau jusqu’à sa réalisation sur le papier ou l’ordinateur, etc.) pour
Corpus, 22 | 2021
184
contrôler son discours, produisant ainsi un registre de langue mieux maîtrisé et par
conséquent plus formel » (2010 : 59). En plus de fournir l’un des matériels les plus
appropriés pour un chercheur spécialiste des anglicismes car il présente une langue de
bonne qualité, le corpus de presse écrite se veut en même temps le reflet de son
lectorat car « dans la civilisation contemporaine, la voix de l’emprunt la plus fréquente
est celle de la presse » (Guilbert, 1975 : 96).
18 L’un de nos intérêts principaux pour cette recherche est d’étudier l’effet de la
définition de l’anglicisme sur différentes « natures » de journaux et leurs lectorats
cibles. Rappelons que la catégorisation que nous proposons ci-après est imparfaite et
que notre but n’est pas de juger si telle nature de quotidien utilise plus ou moins
d’anglicismes que l’autre mais uniquement d’illustrer les fluctuations de leurs résultats
en fonction de la définition retenue. Nous nous sommes donc arrêtée sur quatre
quotidiens, deux français et deux québécois, qui nous permettent à la fois d’analyser
une langue « sophistiquée » (Merrill, 2000) assez typique des journaux destinés avant
tout « aux élites » (Eveno, 2016 : 17) et dits « de référence » (Merrill, 2000 ; Watine,
2000) tels Le Monde et Le Devoir, et une langue de qualité mais plus courante, privilégiée
par des journaux plus « populaires » (Eveno, 2016 : 17), tels Le Parisien et La Presse.
19 Cette première catégorie de quotidiens « de référence » s’appuie sur les différents
rapprochements et descriptions déjà établis à l’égard du Monde et du Devoir. Considérés
comme « relativement similaire[s] sur le plan des critères sociodémographiques et
professionnels » (Villers, 2005 : 32), les quotidiens Le Monde et Le Devoir « ont […] des
points communs, en particulier le profil de leur lectorat (lecteurs instruits, « ouverts,
curieux, épicuriens, actifs, déterminés », catégories socio-professionnelles favorisées)
et le normativisme linguistique de leur ligne éditoriale » (Planchenault, 2015).
20 La seconde catégorie que nous proposons, celle des quotidiens « plus populaires », met
sur le même plan deux quotidiens dont les points communs sont peut-être un peu
moins évidents que pour la première catégorie, notamment à cause de La Presse. Eveno
(2016) classe Le Parisien à la fois dans la catégorie de la presse populaire et des
quotidiens régionaux. La « presse populaire » en France s’entend plutôt comme une
forme hybride de presse qui mêle dimension nationale et actualité locale, proximité
avec son lectorat et langue de qualité mais accessible à tous, une définition qui, somme
toute, convient particulièrement bien à notre recherche. Le choix de La Presse a été
assez difficile à arrêter car aucun journal québécois ne nous apparaît comme le pendant
réel du Parisien. Nous avons donc plutôt privilégié les points communs que partagent Le
Parisien et La Presse plutôt que les divergences qui pourraient les opposer 4. Ainsi, il s’agit
dans les deux cas de journaux publiés dans les deux plus grandes villes du pays mais qui
sont lus sur tout le territoire national, qui bénéficient d’un des plus forts tirages
quotidiens et hebdomadaires, qui couvrent tous les genres d’actualité tout en donnant
une priorité marquée à l’information locale (voir Mareschal, 1989 ou Théoret, 1994), qui
entretiennent une relation de proximité avec leur lectorat et qui ont tous deux choisi
de privilégier l’offre en ligne depuis 2015 au détriment de leur formule papier.
Corpus, 22 | 2021
185
21 Afin de mener notre analyse lexicométrique, nous avons établi deux listes d’anglicismes
à rechercher dans notre corpus. À l’aide de deux dictionnaires de langue générale (Le
Petit Robert 2016 et Le Multidictionnaire de la langue française 2013) et deux dictionnaires
spécialisés (Le Dictionnaire des anglicismes de Höfler 1982 et Le Colpron, dictionnaire des
anglicismes 1998) de France et du Québec, nous avons tout d’abord établi une première
liste regroupant tous les anglicismes lexicaux5 correspondant à la définition de
l’anglicisme lexical intégral et hybride de Loubier6. Nous avons éliminé les doublons,
puis tous les termes pouvant poser un problème lors de l’analyse statistique à cause
d’une ambiguïté sémantique, à savoir tous les termes s’apparentant aux calques
sémantiques tels que définis par Loubier (sens nouveau mais forme existante), c’est-à-
dire tous les termes dont l’une des acceptions est jugée d’usage correct en français.
Nous pensons ici à des termes tels bar (poisson/débit de boisson), par (préposition,
adverbe/égalité (golf)), tire/tires (verbe tirer conjugué/pneu) ou encore union (relation,
lien/syndicat). Nous avons également éliminé, après avoir procédé à des tests
préliminaires et étudié les listes statistiques résultantes, tous les termes pouvant être
utilisés comme un nom propre tel que bill (billet, facture ou Bill Clinton) et obtenu
5 416 entrées.
22 Nous avons ensuite nettoyé cette première liste en y éliminant tous les termes pour
lesquels aucun équivalent français n’était proposé par au moins l’un de nos
dictionnaires. Nous avons obtenu ainsi une seconde liste constituée de 2 934 entrées
répondant aux critères de la définition d’anglicisme en tant qu’emprunt critiqué à
l’anglais.
Corpus, 22 | 2021
186
même si ces derniers n’ont encore jamais été étudiés de façon statistique, car cela rend,
à notre avis, la comparaison entre A1 et A2 plus explicite.
25 Les premiers résultats (voir Figure 1) montrent une certaine régularité dans la
répartition des quotidiens entre les trois analyses :
• première analyse : Le Devoir 2005 obtient le taux le plus faible avec 5,28 ‰ et Le Parisien 2015
prend la tête avec 9,86 ‰.
• deuxième analyse : Le Devoir 2015 est à 1,99 ‰ et Le Parisien 2015 garde la tête du classement
avec un taux de 4,04 ‰.
• troisième analyse : Le Devoir 2005 est à 3,18 ‰ et Le Parisien 2005 est à 6,23 ‰.
26 Cela signifie donc que le changement de définition n’influe pas de manière considérable
sur la distribution interne des quotidiens malgré les fluctuations observables entre les
années. Peu importe la fréquence d’utilisation d’anglicismes, aucun quotidien n’affiche
d’évolution en total asymétrie par rapport aux autres.
27 Cependant, on remarque que la prise en compte des anglicismes avec équivalent
amplifie les différences d’utilisation entre les journaux. Si l’on prend l’exemple du
rapport A3/A2 en 2000, on remarque une différence entre les résultats de La Presse
(1,88) et du Parisien (1,82) face à ceux du Devoir (1,46) et du Monde (1,35).
28 Cela indique ainsi que les anglicismes sans équivalent sont proportionnellement plus
fréquents dans La Presse et Le Parisien que dans les deux autres quotidiens.
Corpus, 22 | 2021
187
change pas : Le Parisien présente le taux d’anglicisme le plus élevé et Le Devoir le taux
d’anglicisme le plus faible.
A1 A2 A3
30 Les résultats de A3 confirment nos conclusions précédentes, à savoir que l’on retrouve
plus fréquemment d’anglicismes sans équivalent dans La Presse et Le Parisien que
d’anglicismes avec équivalent, et que ce rapport est moins marqué pour Le Monde et Le
Devoir. Au niveau individuel, Le Monde est le quotidien qui présente le moins de
fluctuations selon la définition retenue alors que La Presse est le journal qui semble le
plus affecté.
31 Au niveau global, nous obtenons une fréquence d’utilisation des quatre journaux
confondus de 7,2 ‰ en A1 qui se répartit en 2,8 ‰ pour les anglicismes avec
équivalent (A2) et 4,4 ‰ pour les anglicismes sans équivalent (A3). Les taux
d’anglicisme sont ainsi systématiquement plus faibles avec la deuxième analyse, ce qui
pourrait impliquer que les anglicismes sans équivalent ont sans doute toujours été
surreprésentés dans les précédentes études quantitatives.
32 La figure 2 ci-dessous met en vedette deux journaux dont les résultats montrent une
évolution diachronique en tout point opposée. Tout d’abord, on observe que Le Devoir
est le quotidien qui affiche toujours le taux d’anglicisme le plus bas alors que les
résultats du Parisien sont systématiquement les plus élevés :
• première analyse : Le Devoir 2005 est à 5,28 ‰ et Le Parisien 2015 à 9,86 ‰.
• deuxième analyse : Le Devoir 2015 est à 1,99 ‰ et Le Parisien 2015 à 4,04 ‰.
• troisième analyse : Le Devoir 2005 est à 3,18 ‰ et Le Parisien 2005 à 6,23 ‰.
Corpus, 22 | 2021
188
33 Si l’on observe les évolutions des deux quotidiens, on remarque qu’en l’espace de
15 ans, leurs trajectoires sont opposées. Alors que Le Devoir est en baisse pour A1
(5,9 ‰ → 5,6 ‰) et A2 (2,4 ‰ → 2 ‰), Le Parisien est en hausse (A1 : 9 ‰ → 9,9 ‰ et
A2 : 3,2 ‰ → 4 ‰). A3 obtient le cas de figure inverse avec Le Devoir en hausse de 3,5 ‰
à 5 ‰ alors que Le Parisien perd 0,8 ‰ (5,8 ‰ → 5 ‰).
34 Ainsi, de 2000 à 2015, Le Devoir a réduit sa fréquence d’utilisation d’anglicismes pour
lesquels il existe un équivalent en français mais utilise plus souvent des anglicismes
pour lesquels aucun substitut n’est encore disponible. À l’inverse, Le Parisien affiche un
taux d’anglicisme plus élevé pour ceux avec substitut et plus bas pour ceux sans
équivalent en 2015 qu’en 2000.
35 Ce changement de définition a donc des répercussions différentes selon le quotidien et
influe sur la façon dont chacun d’entre eux évolue dans le temps. Nous pouvons
également déduire, au vu des résultats présentés ci-dessus, que la plupart des études
qui utilisent l’anglicisme sous son concept large, c’est-à-dire qui prennent en compte
tous les mots d’origine anglaise, relèvent en (grande) majorité des anglicismes pour
lesquels nos dictionnaires ne proposent aucun équivalent en français.
Corpus, 22 | 2021
189
Total
Différentiel Différentiel Différentiel Différentiel Khi² Khi²
La Presse Différentiel
A2 Observé A3 Observé A2 Attendu A3 Attendu A2 A3
Observé
40 Nous observons tout d’abord que le différentiel observé est toujours plus élevé en A3
qu’en A2, ce qui signifie que La Presse enregistre des fluctuations d’année en année plus
importantes lorsque ce sont les anglicismes sans équivalent qui sont pris en compte.
41 Le nombre d’occurrences relevées dans La Presse ne se développe pas de la même
manière selon la définition choisie. Cette différence est statistiquement significative
car la valeur critique avec un degré de liberté de 5 et un seuil de tolérance de 99 % est
de 20,52, soit près de 68 fois moins que le résultat χ² que nous avons obtenu (voir
encadré du tableau 2 ci-dessus).
42 Nous avons testé les quatre journaux9 et leurs résultats χ² sont tous largement
supérieurs à notre valeur critique. Ainsi, nous pouvons affirmer que les différences
observées au niveau des fluctuations diachroniques entre A2 et A3 des journaux sont
statistiquement significatives.
43 Nous prouvons donc que les quatre journaux retenus pour cette étude ne présentent
pas les mêmes trajectoires d’évolution selon la définition choisie. Cette confirmation
est, à notre avis, importante, car elle prouve que le choix de la définition de
l’anglicisme influence forcément les interprétations et conclusions de toute étude
lexicométrique. Cette réalité doit être prise en compte et devrait sous-tendre les
futures réflexions sur les anglicismes.
44 Qu’en est-il maintenant de certains types d’analyse comparatives utilisées en
lexicométrie des anglicismes ?
6. Analyses comparatives
45 Cette section s’intéresse à l’origine ainsi qu’à la nature du journal, afin de voir 1) si les
résultats fluctuent de la même manière selon la définition choisie et 2) si les deux
définitions amènent aux mêmes schémas d’évolution et aux mêmes interprétations.
46 Rappelons que nous avons utilisé ces deux facteurs d’analyse non pas pour leurs
résultats individuels mais précisément pour mettre en lumière les différentes
Corpus, 22 | 2021
190
répercussions engendrées par un changement de définition. Ainsi, notre but n’est pas
de comparer chaque groupe entre eux, mais plutôt de souligner s’ils présentent des
écarts notables dans leurs évolutions respectives en fonction de la définition retenue.
47 Cette première analyse témoin est organisée autour de deux groupes distincts : d’un
côté, Le Monde et Le Parisien pour la France et de l’autre, Le Devoir et La Presse pour le
Québec.
48 La figure 3 ci-dessous présente les différentes évolutions obtenues lors de nos trois
analyses A1 (tous les anglicismes), A2 (anglicismes avec équivalent uniquement) et
A3 (anglicismes sans équivalent). Les courbes supérieures de chaque paire
correspondent aux résultats du groupe France et les courbes inférieures correspondent
à ceux du groupe Québec.
49 On observe que les courbes A2 (en bas du graphique) et A3 (au milieu du graphique) des
deux groupes suivent des trajectoires inverses, ce qui indique que les quotidiens de
France ont adopté, en l’espace de quinze ans, une approche qui se traduit par une
utilisation plus fréquente des anglicismes avec équivalent et une utilisation légèrement
moins fréquente des anglicismes sans équivalent.
50 À l’inverse, les journaux québécois utilisent légèrement plus d’anglicismes sans
équivalent et moins d’anglicismes avec équivalent en 2015 qu’ils n’en utilisaient en
2000.
51 Les deux groupes ne réagissent donc pas de la même manière selon la définition
retenue.
52 Nous avons réalisé un test χ² pour vérifier si la relation entre la définition et l’origine
du journal était statistiquement significative et pouvons confirmer que les différences
Corpus, 22 | 2021
191
55 La seconde analyse témoin met en avant la nature des journaux. Bien que nous ne
prétendions aucunement avoir trouvé une correspondance parfaite entre les quatre
quotidiens sélectionnés, nous avons tout de même choisi de regrouper Le Monde et Le
Devoir sous la catégorie des quotidiens « de référence » dont nous définissons la nature
comme étant plus soutenue, et La Presse et Le Parisien sous la catégorie des quotidiens de
presse « plus populaire » dont la nature est plus courante.
56 La figure 4 ci-dessous hiérarchise les résultats des trois analyses et présente les
différentes trajectoires d’évolution des deux groupes témoins. La courbe supérieure de
chaque paire représente l’évolution des résultats du groupe « populaire ».
57 On remarque par exemple que les deux dernières lignes en bas du graphique qui
représentent les courbes de A2 sont bien plus compactes que les deux autres paires.
Corpus, 22 | 2021
192
Ceci indique que les deux groupes de quotidiens enregistrent une fréquence
d’utilisation d’anglicismes avec équivalent plus homogène et suivent une trajectoire
d’évolution à la hausse relativement proche par rapport à la paire des anglicismes sans
équivalent.
58 Un test χ² permet de confirmer que les différences observées en matière de nature des
journaux selon la définition retenue sont statistiquement significatives et que le choix
de la définition a une influence sur l’interprétation des données.
59 Pour ce qui est des fluctuations diachroniques pour chacun de nos deux groupes, les
résultats statistiques montrent que les différentiels observés indiquent clairement que
le choix de la définition a une influence fondamentale sur les résultats obtenus ainsi
que sur leur interprétation. Les différences que nous avons notées ne sont pas dues au
hasard mais bien à une importante corrélation entre la définition de l’anglicisme et la
nature du journal.
7. Conclusion
60 L’objectif de cette étude était de mettre en lumière les répercussions en matière de
fréquence d’utilisation et de tendances d’évolution entraînées par un changement de
définition de l’anglicisme. Nous avons cherché à savoir si :
1. L’on obtient des divergences notables quant à la fréquence d’utilisation en utilisant l’une ou
l’autre des définitions de l’anglicisme les plus courantes dans la recherche.
2. Ces potentielles divergences vont au-delà d’une simple différence dans la fréquence
d’utilisation pour se traduire par une variation dans l’évolution des journaux et
l’interprétation même des résultats lorsqu’elles sont analysées sous l’angle de la diatopie et
de la nature des journaux.
61 Nous avons pour cela choisi de travailler avec les deux acceptions du terme anglicisme
qui nous ont paru être les plus communément utilisées dans la recherche, auxquelles
nous avons ajouté une troisième signification, jusqu’alors restée implicite :
1. L’anglicisme en tant que tout emprunt de forme, intégral ou hybride, à l’anglais.
2. L’anglicisme en tant qu’emprunt de forme, intégral ou hybride, à l’anglais dit ‘critiqué’ pour
lequel il existe un équivalent en français.
3. L’anglicisme en tant qu’emprunt de forme, intégral ou hybride, à l’anglais pour lequel il
n’existe pas d’équivalent en français.
Corpus, 22 | 2021
193
64 Ces résultats confirment qu’une définition différente mènera à des résultats différents,
ce qui devrait, de fait, être pris en compte dans une analyse lexicométrique. Quoique
cela reste somme toute logique, nous prouvons également que ces différences vont au-
delà d’une seule différence liée à la fréquence d’utilisation. Nous avons vérifié
statistiquement tous nos résultats avec un test χ² et nous prouvons que le choix de la
définition a une influence fondamentale sur les résultats obtenus ainsi que sur leur
interprétation. Toutes les différences observées ne sont pas dues au hasard mais sont
au contraire inhérentes à une importante corrélation entre la définition de l’anglicisme
et la nature ou l’origine du journal.
65 Cette étude montre que malgré la multitude d’écrits sur les anglicismes, et plus
particulièrement les études quantitatives de corpus, la méthodologie adoptée est très
rarement reproductible étant donné que les choix de certains auteurs manquent
parfois de clarté (voir Zanola, 1990 ou Misanchuk, 1997 par exemple). Nous sommes
bien consciente que les progrès technologiques d’aujourd’hui rendent les tâches de
dépouillement, d’extraction et d’étiquetage de corpus plus aisées qu’elles ne l’étaient
autrefois et que les études sur le sujet ne peuvent donc pas être jugées a posteriori.
Toutefois, nous sommes convaincue qu’une plus grande rigueur en matière de
méthodologie est indispensable pour la recherche à venir.
66 Dans un domaine où débat et polémique sont difficilement dissociables, il nous semble
important d’ancrer la recherche dans une méthodologie qui soit claire, cohérente et
reproductible afin de garantir une légitimité aux résultats apportés par chaque
nouvelle étude. L’adoption d’une définition de l’anglicisme explicite, neutre et
communément acceptée en analyse de corpus nous paraît être un premier pas dans la
bonne direction.
BIBLIOGRAPHIE
Brunot F. & Bruneau C. (1933). Précis de grammaire historique de la langue française. Paris : Masson et
cie.
Darbelnet J. (1976). Le français en contact avec l’anglais en Amérique du Nord. Québec : Les Presses de
l’Université Laval.
Forest C. & Boudreau D. (1998). Le Colpron : le dictionnaire des anglicismes. Laval, Québec :
Beauchemin.
Harris J. (2010). The frequency and distribution of written and spoken anglicisms in two varieties of
French. Université Concordia : Mémoire de maîtrise.
Corpus, 22 | 2021
194
Mareschal G. (1989). Étude typologique et comparative de l’anglicisation et des anglicismes dans quatre
aires de la francophonie. Université Laval : Thèse de doctorat.
Merrill J. C. (2000). « Les quotidiens de référence dans le monde », Les Cahiers du journalisme 7 :
10-14.
Misanchuk M. (1997). Anglicismes dans la presse française : L’Express et le Nouvel observateur (1991 à
1995). Université de Calgary : Thèse de maîtrise.
Onysko A. & Winter-Froemel E. (2011). « Necessary loans–luxury loans ? Exploring the pragmatic
dimension of borrowing », Journal of pragmatics 43(6) : 1550-1567.
Privat M. (1997). « Quelques anglicismes québécois gastronomiques : Des bines, des pinotes et du
pâté chinois », Revista de filología de la Universidad de La Laguna 14 : 175-182.
Rey-Debove J. & Gagnon G. (1980). Dictionnaire des anglicismes : Les mots anglais et américains en
français. Paris : Les Usuels du Robert.
Rey-Debove J. & Rey A. (éd.) (2016). Le Nouveau Petit Robert : dictionnaire alphabétique et analogique
de la langue française. Paris : Le Robert.
Théoret M. (1994). « La situation des anglicismes au Québec ». Actes du colloque sur les anglicismes et
leur traitement lexicographique : Communications, discussions et synthèses : Magog du 24 au 27 septembre
1991. Gouvernement du Québec, 79-92.
Villers M.-É., de (2005). Le Vif désir de durer-Illustration de la norme réelle du français québécois.
Montréal : Québec Amérique.
Villers M.-É., de (2013). Le Multidictionnaire des difficultés de la langue française. 4 e édition. PC,
Montréal : Québec Amérique.
Watine T. (2000). « Le Devoir est-il encore un journal de référence ? », Les Cahiers du journalisme 7 :
28-46.
Zanola M. T. (1991). L’emprunt lexical anglais dans le français contemporain : Analyse d’un corpus de
presse (1982-1989), Quaderni del Centro di linguistica dell’Università catolica, 3, Brescia, Editrice La
Scuola.
NOTES
1. Sauf indication contraire, toutes les citations originellement en langue anglaise présentées
dans cet article ont été traduites par l’auteure.
2. Les anglicismes syntaxiques et les calques étant majoritairement une prérogative québécoise
(voir Mareschal, 1989 ; Privat, 1997 ou encore Harris, 2010).
Corpus, 22 | 2021
195
3. Nous tenons à préciser que le choix de travailler avec cette distinction n’équivaut aucunement
à une prise de position de notre part.
4. Nous pensons ici à des divergences telles que l’existence d’un comité linguistique chez La Presse
qui indique une action proactive de la part de ce journal sur la qualité de la langue, absente chez
Le Parisien.
5. Nous y avons ajouté les formes plurielles des substantifs, les formes plurielles et féminines des
adjectifs, les participes présents, les participes passés au singulier, pluriel, masculin et féminin
ainsi que les variations orthographiques répertoriées par les dictionnaires.
6. Pour rappel, l’anglicisme lexical intégral est un « emprunt de la forme et du sens, sans
adaptation ou avec une adaptation graphique ou phonologique minimale » (par exemple staff,
lobby, artéfact) et l’anglicisme lexical hybride est un « emprunt de sens, mais dont la forme est
partiellement empruntée » (dopage, coach de vie).
7. Nous nous sommes intéressée au nombre d’occurrences d’anglicismes pour 1 000 mots,
généralement appelé « taux d’anglicisme », car il s’avère être la mesure la plus pertinente, la plus
objective et surtout la plus facilement comparable pour analyser l’évolution du nombre
d’occurrences.
8. Elles n’en présentent cependant que les valeurs absolues, car l’on ne tient pas compte des
signes.
9. Afin de ne pas encombrer cet article, nous avons choisi de ne présenter les résultats que d’un
seul quotidien, cependant, les tableaux et résultats individuels sont tous disponibles sur
demande.
10. Tous les résultats statistiques sont disponibles sur demande.
RÉSUMÉS
Cette étude met en relief la portée empirique de la définition du concept d’anglicisme dans
l’analyse d’anglicismes lexicaux dans un corpus de presse écrite francophone. Elle examine en
diachronie (2000-2015) les différences découlant de l’opposition entre trois acceptions de
l’anglicisme ainsi que les effets sur des analyses comparatives portant sur l’origine géographique
(France ou Québec) et sur la nature (« de référence » ou « populaire ») du journal. Nous obtenons
une fréquence d’utilisation faible mais démontrons qu’il existe des différences liées à la
définition entre la nature et l’origine du journal.
This study highlights the empirical impact of the definition of the concept of anglicism in the
analysis of lexical borrowings in a French written press corpus. It investigates first diachronically
the differences stemming from the opposition of three meanings of anglicism, and then their
resulting effects on comparatives analyses based on the geographical origin (France or Quebec)
and the nature (‘reference’ or ‘popular’) of the newspaper. The results show a low frequency of
usage but underline the correlation between the definition of Anglicism and the nature and/or
origin of the newspaper.
Corpus, 22 | 2021
196
INDEX
Mots-clés : anglicisme, conceptualisation, lexicométrie, analyse de corpus
Keywords : Anglicism, conceptualization, lexicometry, corpus analysis
AUTEUR
CÉCILE PLANCHON
Ph.D. Sociolinguistics & Translation Studies Adjunct Professor (Elle/She/her) School of
Linguistics and Language Studies Carleton University Ottawa, Ontario, Canada K1S 5B6
Corpus, 22 | 2021
197
Introduction
1 L’objectif de la présente contribution est d’analyser, par la mise en relation des
approches quantitatives et qualitatives issues de la linguistique de corpus et de
l’analyse du discours, la représentation médiatique de l’éleveur dans le conflit lié au
retour du loup. En France, les travaux fondateurs de la linguistique de corpus
soulignent que le développement de la statistique lexicale n’a pas vocation à remplacer
l’analyse qualitative des textes, les deux démarches étant étroitement liées (Muller
1964). Dès les années 1980, les outils développés en Analyse des Données Textuelles
(ADT) visent à faciliter le dialogue entre le traitement quantitatif et qualitatif des
données par le retour au texte, rendant ainsi possible l’association de la linguistique de
corpus à d’autres disciplines plus qualitatives telles que l’analyse du discours. L’analyse
cooccurrentielle consiste à identifier, à l’aide de calculs statistiques, les formes les plus
associées à un mot pivot dans un corpus donné (Lafon 1981). Ce type d’analyse permet
d’accéder à la contextualisation des unités lexicales à travers une méthodologie
objectivable (Mayaffre & Viprey 2012). Il représente un outil puissant dans la démarche
interprétative du chercheur et s’inscrit en complémentarité avec une prise en compte
des contextes spécifiques. En nous fondant sur les calculs de spécificité et de
cooccurrences, nous étudierons la construction de l’image de l’éleveur, principal acteur
confronté au retour du loup et à la prédation de l’espèce.
Corpus, 22 | 2021
198
Corpus, 22 | 2021
199
Corpus, 22 | 2021
200
Tableau 1. Liste des 10 mots lexicaux les plus fréquents dans Nice-Matin et Le Monde
Nice-Matin Le Monde
Corpus, 22 | 2021
201
12 Le quotidien régional utilise de façon presque équivalente les noms berger et éleveur
pour désigner l’acteur confronté au loup, alors que Le Monde emploie essentiellement le
substantif éleveur. Le calcul de spécificité montre que l’usage du mot berger est
significativement plus important dans Nice-Matin (Tableau 2).
Tableau 2. Indices de spécificité des occurrences de berger et éleveur (Le Monde et Nice-Matin)
13 Les définitions de ces termes, bien que proches, présentent des traits sémantiques
différents. L’éleveur est défini par le TLFi comme une « personne qui se consacre à
l’élevage des animaux domestiques » et le berger comme une « personne sédentaire ou
nomade qui garde des moutons, des brebis ou des chèvres ». Par extension, le berger est
également celui qui « mène paître le bétail d’une ferme, quel qu’il soit (pourceaux,
bœufs, taureaux, vaches) » et parfois – mais rarement – un « propriétaire, éleveur de
troupeaux ». Le mot berger renvoie donc plus particulièrement qu’éleveur au suivi du
troupeau en estive.
14 D’un point de vue étymologique, éleveur n’a pas été cantonné dès ses premiers usages à
une activité liée aux animaux. L’éleveur est défini au XIIe siècle comme « celui qui élève,
qui relève » puis, au XVIe siècle, comme « celui qui élève quelque chose ; celui qui
nourrit, élève (des personnes, des animaux) ». En revanche, berger signifiait, dès le
XIIe siècle, « gardien de moutons ». L’ancrage dans la durée du programme de sens de
berger confère à ce métier une dimension temporelle stable et ancienne, et construit
l’image d’une profession dans la filiation historique du pastoralisme. L’usage du
substantif est de ce fait susceptible de véhiculer des représentations liées à une
pratique moins mécanique de l’agriculture.
15 Les définitions d’éleveur et berger renvoient donc à des pratiques d’élevage pouvant être
respectivement associées à une conception moderne et traditionnelle du métier. Nous
cherchons à identifier dans quelle mesure l’usage significativement plus important du
mot berger dans la presse régionale est révélateur d’une conception plus traditionnelle
de l’élevage dans Nice-Matin.
Corpus, 22 | 2021
202
Tableau 3. Indices de spécificité des occurrences de berger et éleveur au singulier et au pluriel (Le
Monde et Nice-Matin)
éleveur et berger -6 6
17 Alors que par la forme plurielle, le référent est saisi collectivement, selon son
appartenance à la profession, le singulier permet, quant à lui, de désigner aussi un seul
individu. Dès lors, le cotexte des mots est susceptible de varier en fonction du type
d’actualisation des deux substantifs. L’analyse cooccurrentielle met en évidence une
variation des isotopies privilégiées selon que ces substantifs sont actualisés au singulier
ou au pluriel.
Tableau 4. Principaux cooccurrents des mots éleveur et berger au singulier et au pluriel (Le Monde et
Nice-Matin, intervalle -11 ; 11)
Unités
Le Monde Nice-Matin
lexicales
18 Dans les deux journaux, le singulier des substantifs éleveur et berger est associé à la
désignation d’individus, de liens familiaux (grand-père ; fils ; gardien ; Cédric ; Ascenzi ;
Jean-Pierre Isnard ; Aimé ; etc.) et de lieux spécifiques (vallée ; Grasse ; Dommartin-les-
Vallois ; bergerie ; Brigue ; Isola ; etc.). Les verbes égorger (Le Monde), attaquer (Nice-Matin),
et l’isotopie relative à la pratique de l’élevage (brebis ; troupeau ; mouton ; posséder ;
milieu ; métier ; etc.) indiquent qu’au singulier, les mots éleveur et berger réfèrent
Corpus, 22 | 2021
203
23 Dans la presse régionale, la récurrence des verbes expliquer (18 occurrences), raconter
(9 occurrences), pester (3 occurrences), tempêter (2 occurrences), affirmer
(9 occurrences), et du pronom personnel je (36 occurrences), en cotexte des mots
éleveur et berger indique que la référence à l’éleveur est associée à la médiatisation de
son témoignage. Il s’opère alors une double construction de l’image de l’éleveur, par le
journaliste, qui met en scène le discours relayé, et par l’image que l’éleveur renvoie de
lui-même dans son témoignage. Trente-et-un segments de discours rapporté des
éleveurs, publiés dans seize articles différents, comportent des occurrences du pronom
je en cotexte d’éleveur et berger6. Ces segments de discours rapporté renvoient d’une
part à la mise en scène, par l’éleveur, de son expérience de la prédation dans des
énoncés comme j’ai senti mes jambes flageoler7 ou encore j’estime à 1000 bêtes mes pertes, je
n’en peux plus8, et d’autre part à un positionnement en tant que professionnel confronté
au loup, dans des phrases comme je suis berger depuis l’âge de 13 ans 9 et je n’élève pas mes
brebis pour qu’elles soient égorgées par le loup10. Nice-Matin associe au témoignage de
l’éleveur l’isotopie des émotions : la peur, le découragement, la colère. Dans l’article
publié le 15 juillet 2014, c’est par le prisme des émotions que sont envisagés un éleveur
et sa femme, confrontés à la prédation : « Les traits sont tirés et les yeux embués de
larmes. Mickaël Viale et sa compagne Séverine ont fait une découverte macabre ce
14 juillet vers 5 heures du matin. Vingt-sept de leurs bêtes sont mortes, égorgées » 11.
Cet extrait témoigne de la construction conjointe des acteurs humains marqués
psychologiquement par l’attaque et de l’attaque elle-même.
24 La mise en scène journalistique rend compte d’une intégration de l’expérience de la
prédation dans un contexte plus large que celui, unique, de l’éleveur. Les cooccurrents
d’éleveur et berger relèvent en partie de l’isotopie de la famille. Dans le corpus, nous
Corpus, 22 | 2021
204
28 Les occurrences des mots éleveur et berger, au singulier, sont significativement moins
nombreuses dans Le Monde que dans Nice-Matin (Tableau 3). Cela nous conduit à
formuler l’hypothèse d’une moins forte focalisation, de la part du quotidien national,
sur l’expérience individuelle de l’éleveur confronté au loup.
Corpus, 22 | 2021
205
30 L’éleveur est de ce fait saisi en tant que groupe confronté à la prédation. Ce choix de
traitement de l’information peut tout d’abord être expliqué par la localisation et la
diffusion du journal, qui, du fait de sa faible proximité avec les acteurs touchés par la
prédation, ne répond pas prioritairement à la loi de proximité géographique (Agnès
2005) dans le traitement des informations les concernant. Afin de comprendre
comment l’éleveur est représenté dans son expérience individuelle du retour du loup,
nous nous focalisons sur les articles dans lesquels Le Monde relaie un acte de prédation
spécifique18.
Corpus, 22 | 2021
206
Corpus, 22 | 2021
207
Corpus, 22 | 2021
208
protégées (survie, menacé). La référence au loup, en revanche, opère une focalisation sur
sa fonction de prédateur, qui est à l’origine des difficultés rencontrées par l’éleveur
coexistant avec l’animal (espèce prédatrice)27. En associant à l’élevage un lexique
analogue à celui relatif à la protection de la biodiversité, Le Monde attribue au
pastoralisme un statut proche de celui d’une espèce strictement protégée comme le
loup. Le quotidien inverse ainsi l’échelle de priorité qu’il avait précédemment
construite entre protection des activités humaines et de la « nature sauvage ». Le
journal accorde une place centrale à l’élevage, et établit en cas de choix entre le loup et
l’agropastoralisme, une hiérarchie en faveur de l’agropastoralisme.
Conclusion
Au cœur du conflit lié au retour du loup, l’éleveur est l’acteur auquel Le Monde et Nice-
Matin font le plus référence. L’environnement textuel des substantifs éleveur et berger
varie en fonction de leur actualisation au pluriel ou au singulier. Le calcul
cooccurrentiel montre que chacune de ces actualisations relève de deux contextes
distincts : la revendication politique et l’expérience de la prédation. Significativement
plus représentée dans Nice-Matin, l’expérience de la prédation s’accompagne dans le
quotidien régional d’une construction de la pratique de l’élevage selon une dimension
traditionnelle fragilisée par le retour du loup. L’image de l’éleveur est façonnée par
l’impact psychologique de la prédation et par les conséquences de la présence de
l’espèce protégée sur la structure familiale. Au cours des premières années suivant le
retour du loup, Le Monde médiatise peu l’expérience individuelle de prédation. Le
quotidien privilégie un discours critique lorsqu’il relaie les témoignages d’éleveurs, et
valorise parallèlement les propos de l’État. C’est à partir du début des années 2000, date
à laquelle la politique de gestion du prédateur ouvre la voie vers les tirs dérogatoires,
que la perspective du Monde sur l’éleveur évolue. La représentation de l’éleveur se
rapproche alors de celle de Nice-Matin. L’expérience individuelle de la prédation est
façonnée par l’impact psychologique des attaques. En 2012, la prise de position du
Monde en faveur de la politique de régulation des populations de loups entérinée par le
gouvernement s’accompagne d’une valorisation de l’agropastoralisme. Entre 1993 et
2014, les modalités de représentation de l’éleveur évoluent parallèlement aux
politiques de gestion du loup successivement mises en œuvre par les gouvernements.
35 Le calcul cooccurrentiel ouvre la voie à une prise en compte qualitative des textes, au
sein de sous-corpus constitués par les isotopies récurrentes en cotexte du mot pivot. À
travers la prise en compte des thèmes préférentiellement associés aux mots berger et
éleveur, l’étude qualitative permet de relever les indices de construction de l’orientation
argumentative du discours journalistique. Le journal régional adopte un discours
proche de celui de l’éleveur, alors que le discours du quotidien national suit une
évolution proche de celle des politiques institutionnelles.
Corpus, 22 | 2021
209
BIBLIOGRAPHIE
Agnès Y. (2002). Manuel de journalisme. Écrire pour le journal. Paris : La Découverte.
Champagne P. (2000). « Le médiateur entre deux Mondes », Actes de la recherche en sciences sociales
131(1) : 8-29. Doi : 10.3406/arss.2000.2662.
Doré A. (2011). Des loups dans la cité. Éléments d’écologie pragmatiste, thèse de doctorat en sociologie.
Paris : Institut d’études politiques. Liège : Université de Liège.
Dumez R., Arpin I., Hubert A., Legrand M., Lescureux N., Manceron V., Morizot B. & Mounet C.
(2017). Expertise scientifique collective sur les aspects sociologiques, culturels et ethnologiques de la
présence du loup en France. Expertise pour le Ministère de l’Environnement, de l’Énergie et de la Mer.
Paris : Muséum national d’Histoire naturelle.
Eveno P. (2001). Le journal Le Monde : une histoire d’indépendance. Paris : Éditions Odile Jacob.
Heiden S., Magué J.-P. & Pincemin B. (2010). « TXM : Une plateforme logicielle open-source pour
la textométrie – conception et développement », in I. C. S. Bolasco (éd.), Proc. of 10th International
Conference on the Statistical Analysis of Textual Data - JADT 2010, 2, 1021-1032. Rome : Edizioni
Universitarie di Lettere Economia Diritto.
Lafon P. (1981). « Analyse lexicométrique et recherche des cooccurrences ». Mots. Les langages du
politique 3 : 95-148.
Péan P. & Cohen P. (2003). La face cachée du Monde. Paris : Mille et Une Nuits.
NOTES
1. Convention CITES.
2. Annexe II de la Convention de Berne, ratifiée par la France en 1989.
3. Sur la base de données Europresse, Le Monde est ainsi défini : « Depuis sa création […] Le Monde
s’est imposé comme le quotidien de référence aussi bien par sa rigueur dans le traitement de
Corpus, 22 | 2021
210
l’information que par sa tradition d’indépendance vis-à-vis des idéologies et des pouvoirs ». Sur
le site de l’INA, la page dédiée aux soixante-dix ans du Monde se nomme « Le Monde, itinéraire
d’un journal de référence » : http://www.inaglobal.fr/presse/dossier/le-monde-itineraire-d-un-
journal-de-reference-8031.
4. Le classement des journaux en fonction de leur diffusion en France est accessible au lien
suivant : http://www.acpm.fr/Chiffres/Diffusion/La-Presse-Payante/Presse-Quotidienne-
Nationale.
5. Cette étape a été réalisée en collaboration avec Carole Vuillot, post-doctorante au Museum
National d’Histoire Naturelle de Paris et Olivier Gimenez, directeur de recherche au Centre
d’Ecologie Fonctionnelle et Evolutive de Montpellier.
6. Ces segments de discours rapporté sont consultables dans l’annexe numérique 06.
7. Nice-Matin, « Mercantour : un berger affirme avoir été attaqué par un loup », 15 août 2001.
8. Nice-Matin, « Vésubie : une quarantaine de brebis tuées par le loup ? », 8 mai 2013.
9. Nice-Matin, « Un mouton en habit de deuil à la fête des bergers de Tende », 19 août 2002.
10. Nice-Matin, « Nouvelle attaque hier à Tende », 15 juillet 2014.
11. Nice-Matin, « Nouvelle attaque hier à Tende », 15 juillet 2014.
12. Nice-Matin, « Été 96. Montagne : le ras-le-bol des bergers de l’Authion », 30 août 1996.
13. Nice-Matin, « Le berger et le loup », 28 août 2012.
14. Nice-Matin, « La grosse colère du président de la Chambre d’Agriculture », 9 mai 2013.
15. Nice-Matin, « Les bergers “en ont marre des beaux discours” sur le loup », 10 octobre 2013.
16. Nice-Matin, « Haute vallée du Var : un troupeau attaqué par un loup », 5 juillet 2002.
17. Nice-Matin, « Le berger et le loup... », 28 août 2012.
18. Nous entendons par acte de prédation spécifique les attaques relayées impliquant un éleveur,
son troupeau et un prédateur, dans un lieu et un moment déterminés. Le sous-corpus est
composé de 21 articles, dans lesquels 26 attaques spécifiques sont médiatisées.
19. Le Monde, « Après le loup dans les Alpes, l’ours exaspère les éleveurs des Pyrénées », 14 août
1999.
20. Le Monde, « Le loup, l’agneau et les écolos », 1er octobre 1997.
21. Le Monde, « Le loup revient dans l’ensemble du massif alpin », 15 septembre 1998.
22. Le Monde, « Le loup revient dans l’ensemble du massif alpin », 15 septembre 1998.
23. Le Monde, « À bon loup, bon chien », 23 juillet 2004 ; « À nous les patous », 29 juillet 2004 ; « La
philosophie dans le troupeau », 2 août 2004.
24. Le Monde, « Les éleveurs des Alpes du Sud ne supportent plus les attaques de loups »,
1er septembre 2004.
25. Entre 2008 et 2014, Le Monde représente le portrait d’éleveurs confrontés à la prédation dans
cinq articles : Le Monde, « Dans les Alpes, la difficile coexistence entre éleveurs et loups »,
22 juillet 2008 ; « Dans les Vosges, l’ombre du loup », 27 juin 2011 ; « Dans les Alpes, la peur du
loup gagne les éleveurs », 3 octobre 2011 ; « Dans le Mercantour, le loup défie les éleveurs »,
3 septembre 2012 ; « Le loup étend son territoire et sème la colère dans les plaines », 25 octobre
2013.
26. Le Monde, « Garder le loup sans perdre l’agneau », 5 novembre 2012.
27. La notion de survie est néanmoins associée au loup, mais, par la reprise anaphorique celle,
plus indirectement qu’à l’élevage.
Corpus, 22 | 2021
211
RÉSUMÉS
En Europe, la recolonisation progressive des territoires par les grands carnivores, espèces
protégées, fait l’objet de conflits virulents notamment dus à l’impact des actes de prédation sur
les activités d’élevage. Les conflits provoqués par le retour du loup en France ont été
abondamment relayés par la presse et ont ainsi été diffusés auprès d’un public élargi. À travers
une mobilisation conjointe de méthodes de la lexicométrie et de l’analyse du discours, nous avons
étudié l’évolution de l’image médiatique de l’éleveur dans la presse régionale (Nice-Matin) et
nationale (Le Monde) entre 1993 – date de première médiatisation du retour du loup – et 2014.
Notre recherche témoigne d’une construction axiologique de cet acteur dans les deux quotidiens
considérés. Tout au long de la période, Nice-Matin opère une légitimation de l’éleveur à travers la
valorisation de son témoignage et de la profession qu’il exerce. La posture du quotidien national
évolue quant à elle au cours du temps. Les premières années (1993-1999) sont marquées par un
discours évaluant négativement la parole de l’éleveur et favorisant l’expertise institutionnelle. À
partir du début des années 2000, marquées d’un point de vue institutionnel par l’autorisation de
tirs de prélèvement dérogatoires de loups, Le Monde établit progressivement une image positive
de l’éleveur et développe un discours empathique proche de celui de la presse régionale. En 2012,
la publication d’un éditorial en faveur de la politique de régulation du loup inscrit explicitement
un rapprochement entre les postures du journal et de l’institution.
The recent recovery of large carnivore populations in Europe has led to recurrent conflicts
mainly due to livestock predation. In France, the extensive media coverage of the recovery of
wolf has contributed to the dissemination of the conflict to a large audience. Using lexical
statistics and discourse analysis methodologies, we analyzed the evolution of the representation
of livestock breeders in regional (Nice-Matin) and national (Le Monde) printed press from 1993 to
2014. Our study showed that Nice-Matin has consistently portrayed farmers through the
emotional impact of predation and the threatened future of traditional farming practices. Le
Monde’s representation of farmers evolved over time. During the first years of wolves recovery
(1993-1999), legitimacy of livestock breeders testimonies was questioned by journalists. During
the early 2000s, the national newspaper progressively built a positive image of livestock
breeders, similar to Nice-Matin’s portrayal of farmers. This change in Le Monde’s portrayal of
livestock breeders occured simultaneously with the first establishments of wolves removal policy
in 2000 and 2004. In 2012, the publication of an editorial in favor of wolves regulation policy
indicated similar views regarding Le Monde and the institution.
INDEX
Mots-clés : cooccurrence, isotopie, analyse du discours, environnement, loup
Keywords : co-occurrence, discourse analysis, environment, wolves
AUTEUR
MARIE CHANDELIER
Université Côte d’Azur, laboratoire Bases, Corpus, Langage (UMR 7320)
Corpus, 22 | 2021
212
La phraséologie du roman
contemporain dans les corpus et les
applications de la PhraseoBase
The phraseology of the contemporary fiction in the PhraseoBase’s corpora and
applications
Corpus, 22 | 2021
213
part, au sein de la littérature réaliste (section 3.2 : le roman policier vs. le roman
sentimental). Enfin, nous présentons, dans la section 4, l’outil Lexicoscope 2.0 3 qui
permet d’interroger les corpus de la PhraseoBase4, ainsi que les fonctionnalités de
l’application PhraseoLing regroupant, via une interface ergonomique, les annotations
linguistiques et stylistiques des données extraites des corpus romanesques français et
anglais.
Tableau 1. Répartition des corpus PhraseoRom selon les langues (auteurs, textes, tokens)
Corpus comparables
Corpus parallèles
Corpus, 22 | 2021
214
Total 103 819 368 100 355 454 12 254 636 89 451 097
6 La Figure 1 ci-dessous montre les proportions des différents sous-genres au sein des
corpus anglais (EN), français (FR) et allemand (DE) :
7 Tous ces corpus ont d’abord été rendus accessibles sur l’interface du Lexicoscope v1
(Kraif & Diwersy 2012 ; Kraif 2016), avant leur déploiement progressif vers le
Lexicoscope 2.0.
Corpus, 22 | 2021
215
Figure 2. L’ALR allumer une nouvelle cigarette, spécifique au sous-genre policier (POL)
9 Les fréquences des ALR dans chacun des différents corpus sont comparées afin de
mesurer leur spécificité : un ALR est spécifique quand sa fréquence relative dans l’un
des sous-corpus est significativement supérieure à sa fréquence dans l’ensemble des
autres sous-corpus. Le seuil de spécificité statistique (l’indice LLR, Dunning 1993) a été
fixé à 10,836. Selon la méthodologie développée dans le cadre de PhraseoRom, les
critères retenus pour la sélection des ALR sont les suivants :
• le critère de fréquence absolue : le nombre d’occurrences d’un ALR doit être supérieur à 10 ;
• le critère de dispersion : l’ALR apparaît au moins chez 20 % des auteurs d’un sous-corpus
pouvant aller jusqu’à 50 % des auteurs du corpus ;
• le critère morpho-syntaxique : l’ARL doit comporter obligatoirement un verbe, ce qui exclut
d’emblée des expressions exclusivement référentielles (<à la tombée de la nuit>, <Monsieur le
Procureur>, <les nains de jardin>) ;
• le critère de longueur : les ALR doivent comporter au moins 3 mots dont un verbe pivot, et
ce jusqu’à 7 mots.
10 Grâce à l’ensemble de ces critères, ont été extraits des six sous-genres romanesques
8415 ALR pour le français et 1955 ALR pour l’anglais.
11 Le principal enjeu du projet était d’identifier et de décrire les genres littéraires non pas
en termes de rhétorique, de style individuel des auteurs ou d’univers de référence
thématique, comme c’est souvent le cas en stylistique classique, mais à travers des
constructions lexico-syntaxiques (CLS) récurrentes. Une fois extraites
automatiquement sous forme d’ALR, les données brutes ont été classées et analysées
sur quatre niveaux : lexical, syntaxique, sémantique et discursif. La grille conçue pour
l’annotation sémantique7 des items retenus pour le français et l’anglais (Goossens,
Corpus, 22 | 2021
216
Jacquot & Dyka 2020) comporte huit dimensions sémantiques auxquelles sont associées,
pour certaines dimensions (colonne 1 du Tableau 3), un ensemble de valeurs (colonne 2
du Tableau 3).
12 La catégorie « autre » permet de classer les ALR correspondant à nos critères mais qui
ne rentrent dans aucune de ces huit dimensions. La valeur « indéfini » permet de
catégoriser les ALR auxquels plusieurs valeurs peuvent être attribuées sans qu’il soit
possible d’en sélectionner une seule8.
13 Cette grille d’analyse a été appliquée manuellement et systématiquement aux ALR
sélectionnés. Les fichiers dans lesquels ont été codés les ALR dans les deux langues ont
été implémentés dans l’application PhraseoLing (cf. section 4.2). Les tableaux
comportant les annotations linguistiques regroupent plusieurs informations 9 dont les
plus importantes sont les suivantes : l’ALR extrait, la requête d’extraction 10, le LLR, le
genre pour lequel il est spécifique, la fréquence, la dispersion et cinq exemples
représentatifs (avec les métadonnées).
Corpus, 22 | 2021
217
14 Cette première étape d’annotation sémantique des ALR a permis ensuite de les
regrouper automatiquement11 et de faire émerger des motifs textuels. Cette notion12,
récente en phraséologie étendue (Legallois 2006 ; Longrée, Luong & Mellet 2008),
désigne des patrons lexico-syntaxiques récurrents présentant (1) des régularités et des
variations lexicales et syntaxiques (aux niveaux paradigmatique et syntagmatique),
établies avec des méthodes textométriques, et (2) des fonctions discursives spécifiques.
Par son caractère à la fois structurant et caractérisant (Mellet & Longrée 2012 ; Longrée
& Mellet 2013), le motif s’est révélé une notion opératoire pour la distinction des sous-
genres littéraires. Plus généralement, il a été montré (Novakova & Siepmann, 2020) que
la notion de motif assure le lien entre le micro-niveau (les récurrences phraséologiques
spécifiques) et le macro-niveau discursif (celui du script narratif ou fictionnel, Baroni
2007).
15 Dans notre méthodologie, les ALR constituent des guides pour identifier des motifs.
Ensuite, un système d’annotations fines des fonctions discursives (FD) a été élaboré afin
de prendre en compte la dimension textuelle de ces expressions lexico-syntaxiques, à
savoir leur rôle dans la structuration des textes littéraires.
16 Les FD désignent les fonctions stylistiques qu’occupent les CLS dans le discours
fictionnel romanesque. Elles contribuent ainsi à en assurer la cohérence (Martin 1983 :
100). La FD dépend du contexte, mais aussi du sous-genre romanesque (voir Baroni
2015). Dans un texte narratif comme le roman, les FD sont principalement (a) narratives
ou (b) descriptives (Adam 2011 : 267), la CLS permettant à l’action de progresser, ou bien
s’intégrant dans une description. L’analyse détaillée des données linguistiques a permis
d’affiner cette première typologie. Ainsi, ont été rajoutées deux nouvelles FD,
notamment l’infranarrative (lorsque les CLS renvoient à des actions minimales, sans
rapport direct avec l’intrigue principale) et l’infradescriptive, qui s’applique à une action
ou à un geste répété, caractérisant le personnage (qui fume beaucoup par exemple,
comme c’est le cas des personnages dans POL). De plus, un cas particulier de la FD
descriptive, la FD affective, a été identifié lorsque la CLS décrit l’état d’esprit du
personnage (par exemple dans « Sarah écrasa nerveusement sa cigarette »).
17 Enfin, deux autres FD ont également été modélisées. D’une part, la FD pragmatique se
rapporte aux actes de langage entre les personnages (N’en faites rien, madame, je vous en
prie, s’écria Fabienne). D’autre part, la FD cognitive s’applique à des CLS impliquant des
processus cognitifs comme les hypothèses ou les réflexions (Je sais pas ce qu’il va devenir).
Corpus, 22 | 2021
218
19 Une fois l’ALR « leader » et les ALR similaires identifiés, l’annotateur a renseigné
l’expression régulière qui caractérise l’ALR dans le Lexicoscope, afin d’observer le
contexte dans lequel le motif est susceptible d’apparaître. L’examen des extraits de
texte constitue une étape essentielle pour la détermination des FD associées au motif
et, plus largement, pour l’interprétation stylistique du rôle que le segment
phraséologique joue aussi bien dans les textes où il figure que dans le sous-genre dont il
est spécifique. Les informations recueillies à partir de l’observation de ces exemples
sont renseignées dans le fichier de l’annotation : l’identifiant (Id) attribué à chaque
motif ; son étiquette <apparaître_sur_écran> ; le sous-genre pour lequel motif est
spécifique (SF) ; la syntaxe cœur (le motif dans sa configuration syntaxique minimale
V+SNprép) ; la position du motif dans la phrase et au-delà ; la distribution des éléments
autour de la syntaxe cœur ; au moins 5 exemples extraits du Lexicoscope avec les
métadonnées (auteur, titre, année de publication) ; la FD attribuée au motif,
l’interprétation stylistique et le commentaire de l’annotateur. Des fichiers d’annotation
stylistique13, constitués pour stocker ces données, ont servi à l’élaboration de la
PhraseoBase et, en particulier, de l’application PhraseoLing présentée dans la section 4.
Corpus, 22 | 2021
219
24 Nos résultats ont révélé comme hautement spécifique de POL l’ALR <allumer une
cigarette>, même si on le rencontre aussi dans SENT (Gonon, Goossens & Novakova
2020). Le Tableau 4 récapitule la fréquence, la dispersion et le LLR dans les deux sous-
corpus :
Dispersion 124 43
25 L’ALR <allumer une cigarette>, cœur du motif, présente une forte variation
paradigmatique sur le nom (cigarette, cigare, pipe, clop(e), tige, Gitane, Camel, Craven) ou
sur le verbe relevant de différences de nature aspectuelle : début (rouler, allumer),
déroulement (fumer, griller) et fin (éteindre, terminer, écraser) du procès. Le motif, sous sa
forme minimaliste, agrège aussi de nombreuses extensions syntagmatiques (adjectifs,
adverbes, SN prép). Ainsi, nous avons identifié le schéma suivant pour ce motif :
X allume (fume, écrase, éteindre, prendre) (nerveusement) une (nouvelle) cigarette
(mentholée) (contre le mur, sous le bureau)
26 Souvent dans POL, le motif de la cigarette remplit une double FD, à la fois descriptive et
affective, et ce, grâce aux différentes extensions syntagmatiques de la syntaxe cœur.
Ainsi, en (1), pour le personnage féminin, Diane :
(1) Diane alluma une cigarette d’agacement. Il y avait les cigarettes de calme, les
cigarettes d’exaspération, les cigarettes de plaisir – les plus rares –, les cigarettes de
Corpus, 22 | 2021
220
32 Les corpus n’étant pas, en l’état, diffusables en ligne, pour des questions de droits, nous
avons choisi de les intégrer à une interface telle que le Lexicoscope afin d’en permettre
l’interrogation sous forme de statistiques lexicométriques et de concordances, qui ne
donnent accès qu’à des contextes restreints (Kraif 2019). Dans le but de comparer entre
elles les différentes subdivisions du corpus, notamment au niveau des principaux sous-
genres, il a été nécessaire de développer une nouvelle version, le Lexicoscope 2.0,
accessible en ligne depuis 2020. Cette nouvelle version de l’interface, tout comme la
précédente, permet d’extraire des concordances et des tableaux de cooccurrents autour
d’une expression pivot, qui peut être un mot simple ou une expression complexe.
Corpus, 22 | 2021
221
35 Lors du choix d’une collection prédéfinie, on peut accéder à des statistiques concernant
le vocabulaire du corpus ainsi que les collocations et colligations. Ces statistiques
permettent d’avoir la liste des 5 000 lemmes les plus fréquents apparaissant dans au
moins deux sous-genres différents (voir Figure 3).
Corpus, 22 | 2021
222
36 Comme la plupart des index hiérarchiques, cette liste est triée par fréquence
décroissante, et un simple clic sur un lemme aura pour effet de déclencher une requête
sur ce lemme. Ce tableau permet par ailleurs, par simple clic sur la colonne
« Comparer », d’accéder rapidement à la comparaison des spécificités (LLR) par sous-
genre, afin de faire contraster les corpus de manière synthétique. Par exemple, on voit
dans la Figure 4 ci-dessous la répartition des spécificités pour le verbe demander, qui se
trouve être spécifique à SENT et à POL, et sous-employé dans GEN ou SF.
Corpus, 22 | 2021
223
37 Ces données fréquentielles et ces calculs de spécificité sont également accessibles pour
les parties du discours (où l’on voit, par exemple, que les signes de ponctuation sont
spécifiques à GEN), ainsi que pour les collocations binaires et les étiquettes de relation
syntaxique. Pour les collocations, une mesure d’association est fournie en supplément
de la fréquence. Nous avons choisi l’information mutuelle spécifique, qui favorise les
associations entre unités de basse fréquence et qui se trouve en meilleure
complémentarité avec la fréquence brute. Ainsi, comme on le voit dans la Figure 5, un
tri fondé sur cette mesure permet de mettre en avant des entités nommées (Garbo,
Giorgio etc.), des expressions en langue étrangère (feel like, all right etc.) ou des unités
polylexicales (congestion pulmonaire) :
Figure 5. Index hiérarchique des collocations binaires, trié par PMI (information mutuelle
spécifique)
4.1.3. Requêtes
39 Comme dans la première version du Lexicoscope, le fait d’entrer une expression simple
ou complexe permet d’accéder à sa définition sous forme de requête formalisée
précisant les lemmes, parties du discours, et éventuellement les relations syntaxiques
entre les mots – afin de mettre en œuvre une forme de requête basée sur l’exemple
(voir Figure 6), comme chez Augustinus, Vandeghinste & Vanallemeersch (2016) ou
Wang (2017).
Corpus, 22 | 2021
224
Corpus, 22 | 2021
225
43 Pour donner accès aux résultats issus des analyses sémantiques, discursives et
stylistiques, nous avons mis en place une base de données relationnelle interrogeable
via une interface en ligne17, PhraseoLing. Celle-ci comprend deux formulaires, l’un pour
les données syntactico-sémantiques, l’autre pour les données stylistiques, permettant
de concevoir des requêtes à différents niveaux d’abstraction. Ainsi, dans le cas des
données syntactico-sémantiques, on peut rechercher des ALR non seulement en
fonction de la langue (français ou anglais), du genre littéraire et de la classe sémantique
dont ils relèvent, mais aussi en fonction des mots qu’ils impliquent, de la classe
grammaticale de ceux-ci ou encore de la fonction syntaxique que ces mots occupent au
sein de l’ALR.
44 L’application principale associée à ces requêtes est l’affichage d’entrées
lexicographiques, classées soit par groupe d’ALR ou genre littéraire, pour ce qui est des
données syntactico-sémantiques, soit par motif, fonction discursive ou genre, pour ce
qui est des données stylistiques. La Figure 8 montre l’une des entrées obtenues à la
suite de la requête visant les ALR contenant l’adjectif heureux spécifiques à FY.
Corpus, 22 | 2021
226
Figure 8. Entrée lexicographique résultant de la requête visant les ALR contenant l’adjectif heureux
spécifiques à FY
Corpus, 22 | 2021
227
Figure 9. Entrée lexicographique se rapportant au motif stylistique <apparaître sur écran> dans les
romans de science-fiction (SF)
46 Au-delà de l’affichage d’entrées lexicographiques, les requêtes portant sur les données
syntactico-sémantiques enchaînent sur différents traitements statistiques 18 dont
l’objectif est la caractérisation et la classification des genres littéraires en fonction des
ALR ou des catégories sémantiques répertoriés par une requête donnée. Les procédés
mis en place19 s’inscrivent dans la lignée de la textométrie (AFC, calcul de spécificités ;
cf. Lebart & Salem 1994) et de la stylométrie contemporaine (clustering, ACP,
échelonnement multidimensionnel ; cf. Eder, Rybicki & Kestemont 2016). En guise
d’exemple, le graphique de la Figure 10 donne les résultats d’une AFC basée sur la
distribution des ALR relevant des catégories sémantiques communication:physique,
communication:verbale et communication:indéfini par genre littéraire.
Corpus, 22 | 2021
228
Figure 10. Classification par AFC des genres littéraires en fonction des ALR associés aux
catégories communication:physique, communication:verbale et communication:indéfini
47 L’AFC montre que, par rapport aux ALR sélectionnés, les romans de GEN s’opposent à
ceux de FY sur l’axe principal (en horizontal) et que le deuxième axe (en vertical) met
en opposition les romans historiques (HIST) avec les romans policiers (POL) et
sentimentaux (SENT).
48 Parmi les procédés implémentés à travers la plateforme, on trouve également la
classification ascendante hiérarchique (CAH). Une CAH appliquée aux genres
romanesques à partir des ALR associés aux catégories sémantiques action:déplacement et
action:mouvement, et effectuée avec la mesure de distance cosine delta (Jannidis et al.
2015) ainsi que la méthode d’agrégation de Ward, permet d’obtenir la matrice de
distances (représentée sous forme de heatmap, Figure 11) et le dendrogramme
(Figure 12).
Corpus, 22 | 2021
229
Figure 11. Heatmap représentant la matrice de distances entre genres de romans, obtenue à partir
des ALR relevant des catégories sémantiques action:déplacement et action:mouvement
Corpus, 22 | 2021
230
5. Conclusion
50 Fondé sur une approche originale en linguistique et en stylistique outillées, le projet
PhraseoRom a produit des résultats aussi bien sur le plan théorique qu’appliqué. Il a
tout d’abord révélé la pertinence de la notion de motif textuel – inconnue jusqu’alors
dans la tradition linguistique et stylistique anglosaxonne – pour caractériser et
distinguer les genres littéraires. Il contribue ainsi à l’élaboration d’une « théorie
opératoire des genres » (Rastier 2011 : 72). Ensuite, les outils créés dans le cadre du
projet (Lexicoscope 2.0 et PhraseoLing) auront un impact dans le domaine de
l’apprentissage automatique des textes (deep learning) et des nouvelles technologies
pour la fouille des textes. Enfin, ses résultats, disponibles dans la base de données
PhraseoBase, pourront trouver de multiples applications dans d’autres domaines,
notamment en narratologie cognitive, en traductologie et dans des ateliers d’écriture
créative.
BIBLIOGRAPHIE
Adam J.-M. (2011). Les Textes : types et prototypes : récit, description, argumentation, explication et
dialogue. Paris : Armand Colin.
Barnier J. (2019). Explor : Interactive Interfaces for Results Exploration. R package version 0.3.5.
https://CRAN.R-project.org/package=explor.
Baroni R. (2015). « Temps, mode et intrigue : de la forme verbale à la fonction narrative ». Modèles
linguistiques 71 : 125-142.
Diwersy S., Gonon L. Goossens V., Gymnich M. & Tutin A. (2020). « Speech Verbs in French and
English Novels ». In I. Novakova & D. Siepmann (éd.), Phraseology and Style in Subgenres of the
Novel : a Synthesis of Corpus and Literary Perspectives. Cham : Palgrave MacMillan, 83-113.
Dunning T. (1993). « Accurate methods for the statistics of surprise and coincidence »,
Computational Linguistics 19(1) : 61-74.
Fellbaum C. (éd.) (1998). « A Semantic Network of English : The Mother of All WordNets ».
Computers and the Humanities 32 : 209-222.
Gonon L., Goossens V. & Novakova I. (2020). « Les phraséologismes spécifiques à deux sous-genres
de la paralittérature : le roman sentimental et le roman policier ». In S. Mejri, L. Meneses-Lerin &
B. Buffard-Moret, La phraséologie française en questions. Paris : Hermann, 105-111.
Corpus, 22 | 2021
231
Goossens V., Jacquot C. & Dyka S. (2020). « Science Fiction versus Fantasy : A Semantic
Categorization and its Contribution to Distinguishing Two Literary Genres ». In I. Novakova &
D. Siepmann (éd.), Phraseology and Style in Subgenres of the Novel : a Synthesis of Corpus and Literary
Perspectives. Cham : Palgrave MacMillan, 189-221.
Grossmann F., Gymnich M. & Siepmann D. (2020). « Alcohol and Tobacco Consumption in English
and French Novels since the 1950s : A Corpus-stylistic Analysis ». In I. Novakova &
D. Siepmann (éd.), Phraseology and Style in Subgenres of the Novel : a Synthesis of Corpus and Literary
Perspectives. Cham : Palgrave MacMillan, 114-150.
Hoey M. (2005). Lexical priming. A New Theory of Words and Language. London/New York : Routledge.
Jannidis F., Pielström S., Schöch C. & Vitt T. (2015). « Improving Burrows’ Delta – An empirical
evaluation of text distance measures ». In Digital Humanities 2015 : Conference Abstracts. Sydney :
University of Western Sydney.
Kassambara A. & Mundt F. (2020). Factoextra : Extract and Visualize the Results of Multivariate Data
Analyses. R package version 1.0.7. https://CRAN.R-project.org/package=factoextra.
Kilgariff A., Rychly P., Smrz P. & Tugwell D. (2004). The Sketch Engine. Proceedings of the Eleventh
EURALEX International Congress. Lorient, 105-116.
Kraif O. (2016). « Le lexicoscope : un outil d’extraction des séquences phraséologiques basé sur
des corpus arborés ». Cahiers de lexicologie 108 : 91-106.
Kraif O. & Diwersy S. (2012). « Le Lexicoscope : un outil pour l’étude de profils combinatoires et
l’extraction de constructions lexico-syntaxiques », Actes de la conférence TALN 2012. Grenoble,
399-406.
Eder M., Rybicki J. & Kestemont M. (2016). « Stylometry with R : A Package for Computational
Text Analysis ». The R Journal 8(1) : 107-121. doi : 10.32614/RJ-2016-007.
Lê S., Josse J. & Husson F. (2008). « FactoMineR : An R Package for Multivariate Analysis ». Journal
of Statistical Software 25(1) : 1-18.
Legallois D. & Koch S. (2020). « The Notion of Motif Where Disciplines Intersect : Folkloristics,
Narrativity, Bioinformatics, Automatic Text Processing and Linguistics ». In I. Novakova &
D. Siepmann (éd.), Phraseology and Style in Subgenres of the Novel : a Synthesis of Corpus and Literary
Perspectives. Cham : Palgrave MacMillan, 17-46.
Legallois D. (2006). « Des phrases entre elles à l’unité réticulaire du texte ». Langages 163 : 56-70.
Longrée D., Luong X. & Mellet S. (2008). « Les motifs : un outil pour la caractérisation topologique
des textes ». In S. Heiden, B. Pincemin & L. Vosghanian, Actes des JADT 2008 : 9 es journées
internationales d’analyse statistique des données textuelles, 733-744. Disponible en ligne [http://
www.jadt.org/].
Longrée D. & Mellet S. (2013). « Le motif : une unité phraséologique englobante ? Étendre le
champ de la phraséologie de la langue au discours ». Langages 189 : 65-79.
Mahlberg M. (2007). « Clusters, Key Clusters and Local Textual Functions in Dickens ». Corpora
2(1) : 1-31.
Corpus, 22 | 2021
232
Mayaffre D., Pincemin B & Poudat C. (2019). « Explorer, mesurer, contextualiser. Quelques
apports de la textométrie à l’analyse du discours ». Langue française 203 : 101-115.
McCarthy D., Kilgariff A., Jakubicek M. & Reddy S. (2015). « Semantic word sketches ».
Communication présentée à Corpus Linguistics 2015, Lancaster University, UK – 21 st to 24th July
2015.
Mellet S. & Longrée D. (2012). « Légitimité d’une unite textométrique : le motif ». In A. Dister,
G. Purnelle & D. Longrée, Actes des JADT 2012 : 11es journées internationales d’analyse statistique des
données textuelles, 715-728. Disponible en ligne [http://lexicometrica.univ-paris3.fr/jadt/
jadt2012/tocJADT2012.htm].
Novakova I. & Siepmann D. (2020). « Literary Style, Corpus stylistic and Lexico-grammatical
narrative patterns. Toward the concept of litterary motifs ». In I. Novakova & D. Siepmann (éd.),
Phraseology and Style in Subgenres of the Novel : a Synthesis of Corpus and Literary Perspectives. Cham :
Palgrave MacMillan, 1-15.
Quiniou S., Cellier P., Charnois T. & Legallois D. (2012). « Fouille de données pour la stylistique :
cas des motifs séquentiels émergents ». In A. Dister, D. Longrée & G. Purnelle (éd.), Actes des JADT
2012 : 11es journées internationales d’analyse statistique des données textuelles [http://www.jadt.org/,
consulté le 04/10/2017].
Sievert C. (2020). Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman and
Hall/CRC.
Sinclair J. (2004). Trust the Text : Language, Corpus and Discourse. London : Routledge.
Wang I. (2017). Syntactic Similarity Measures in Annotated Corpora for Language Learning : application to
Korean Grammar, Thèse de doctorat, sous la dir. de S. Kahane & I. Tellier, Université Paris 10.
NOTES
1. Le projet est consultable en ligne : https://phraseorom.univ-grenoble-alpes.fr/.
2. Pour un historique sur ce point, voir Mayaffre, Pincemin & Poudat (2019).
3. Le Lexicoscope est consultable en ligne : http://phraseotext.univ-grenoble-alpes.fr/
lexicoscope_2.0/.
4. La PhraseoBase est consultable en ligne : http://phraseotext.univ-grenoble-alpes.fr/
phraseobase/index.html.
5. Pour le détail du nombre d’auteurs et d’œuvres dans chaque sous-genre, voir Novakova &
Siepmann 2020 : 288.
6. C’est le seuil à partir duquel la surreprésentation de l’ALR dans un corpus peut être considérée
comme statistiquement significative. Il s’agit d’un rapport de vraisemblance permettant
d’évaluer objectivement si la répartition des unités linguistiques au sein d’un corpus est aléatoire
ou non.
7. Cette grille a été créée dans la continuité des ontologies WordNet (Fellbaum 1998), des
functional groups clusters de Mahlberg (2007) ou encore de McCarthy et al. (2015).
8. Pour une définition exhaustive des différentes dimensions et valeurs sémantiques retenues
dans la grille sémantique, cf. le manuel d’annotation sémantique (en français et en anglais),
consultable sur la PhraseoBase.
9. Pour consulter les fichiers complets des ALR annotés en français et en anglais, cf. http://
phraseotext.univ-grenoble-alpes.fr/phraseobase/ressources-fr.html.
Corpus, 22 | 2021
233
10. Par exemple, la requête pour l’ALR <ils passèrent dans la rue> se présente sous cette forme
<l=passer,c=VERB,#1>&&<l=dans,c=PREP,#2>&&<l=le,c=DET,#3>&&<l=rue,c=NOUN,#4>::
(DETERM_DEF,4,3) (PREPOBJ,4,2) (VMOD_POSIT1,1,4).
11. Le regroupement automatique des 8415 ALR pour le français a été effectué à l’aide du logiciel
Word2vec.
12. Le motif est une notion transversale utilisée dans de nombreux domaines comme la
narratologie, les études folkloriques, la bio-informatique, le TAL, la stylistique, la linguistique
(Legallois & Koch 2020).
13. Les fichiers complets des annotations stylistiques des données françaises et anglaises sont
disponibles sur http://phraseotext.univ-grenoble-alpes.fr/phraseobase/ressources-fr.html.
14. Sur ce point, voir Grossmann, Gymnich & Siepmann (2020 : 127).
15. Ces fonctionnalités sont illustrées par des vidéos explicatives accessibles en ligne : http://
phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0/help.
16. Ces fonctionnalités étant coûteuses en ressources, elles ne sont accessibles qu’aux utilisateurs
en ayant fait la demande explicite auprès de l’administrateur.
17. Le système de gestion choisi pour la base de données est MySQL et l’interface est programmée
essentiellement en php.
18. Les calculs sont mis en œuvre à partir des valeurs de fréquence d’apparition par sous-corpus
de genre littéraire enregistrées dans la base de données pour les ALR à la suite de leur extraction
automatique.
19. Les calculs en question sont effectués au moyen de différents scripts R faisant appel aux
packages FactoMineR (Lê, Josse & Husson 2008), explor (Barnier 2019), stylo (Eder, Rybicki &
Kestemont 2016), factoextra (Kassambara & Mundt 2020) et plotly (Sievert 2020).
RÉSUMÉS
Cet article présente les ressources développées dans le cadre du projet franco-allemand ANR DFG
PhraseoRom (2016-2020). Son objectif était de caractériser la phraséologie du genre romanesque
contemporain dans trois langues (français, anglais, allemand). Nous détaillons ici les choix ayant
présidé à la constitution des corpus littéraires trilingues, ainsi qu’à la méthodologie inédite
d’extraction des données et de leur analyse linguistique et stylistique. Nous présentons enfin les
fonctionnalités de la PhraseoBase, interrogeable avec l’outil Lexicoscope 2.0, et celles de
l’interface PhraseoLing. Ces ressources sont librement consultables sur http://phraseotext.univ-
grenoble-alpes.fr/phraseobase/index-en.html
This article presents the resources developed by the Franco-German project ANR DFG
PhraseoRom (2016-2020). The main goal of the project was to characterize the phraseology of the
contemporary fiction in French, English, and German. We detail here the choices that led to the
constitution of a trilingual literary corpora, as well as the new methodology of the data
extraction and of the linguistic and stylistic analysis. Finally, we present the functionalities of the
PhraseoBase, with the Lexicoscope 2.0, and the PhraseoLing interface. These resources are freely
available online http://phraseotext.univ-grenoble-alpes.fr/phraseobase/index-en.html
Corpus, 22 | 2021
234
INDEX
Keywords : corpus linguistics, NLP, digital humanities, corpus stylistics, contemporary literary
genres, extended phraseological units, motifs
Mots-clés : linguistique de corpus, TAL, stylistique outillée, genres romanesques contemporains,
unités phraséologiques étendues, motifs
AUTEURS
SASCHA DIWERSY
Université Montpellier 3 Paul Valéry, Praxiling UMR 5267
LAETITIA GONON
Université de Rouen Normandie, CÉRÉdI
VANNINA GOOSSENS
Université Grenoble Alpes, LIDILEM
OLIVIER KRAIF
Université Grenoble Alpes, LIDILEM
IVA NOVAKOVA
Université Grenoble Alpes, LIDILEM
JULIE SORBA
Université Grenoble Alpes, LIDILEM & Litt&Arts UMR 5316
ILARIA VIDOTTO
Université de Lausanne, Section de français
Corpus, 22 | 2021