Vous êtes sur la page 1sur 9

Critical Studies in Languages and Literature (2019)

10.2978/CSLL.corpusensciencesdulangage

O PEN ACCES S

Construire son corpus en sciences du langage


De la linguistique structurale à la sociolinguistique

Wafa Bedjaoui1, Noudjoud Berghout2*

Received: 27 April 2018


Accepted: 24 December 2018
Published online: XXXX
© The Author(s) XXXX

Abstract This article is an interdisciplinary reading of a key notion in language


science; namely, the notion of corpus, because of the different epistemological
meanings it covers. Our starting question is summarized as: What are the criteria for
selecting corpora in the language sciences? To answer our question, we will try to
present the characteristics of the corpus in the relevant disciplines of the language
sciences, specifically, structural linguistics, discourse analysis, corpus linguistics,
and sociolinguistics. Our overlaps and our analyses led us to deduce that the object of
the research is followed by the choice of the corpus. Two notions have also emerged
as the closed corpus characterizing Saussure’s office linguistics and the open corpus
characterizing field linguistics.

Keywords corpus, structuralism, discours analysis, sociolinguistics, corpus


linguistics

*Noudjoud Berghout
Université d’Alger 2

noudjuod2dz@yahoo.fr
1
Université Princesse Noura bint Abdulrahmane
2
Université Abul Kacem Saad Allah

Le corpus en sciences du langage  79

Résumé Cet article est une lecture interdisciplinaire d’une notion clé en sciences
du langage; à savoir la notion de corpus en raison des différentes significations
épistémologiques qu’elle recouvre. Notre question de départ se résume comme suit:
quels sont les critères de sélection des corpus dans les sciences du langage? Pour
répondre à nos questions, nous tenterons de présenter les caractéristiques du corpus
dans les disciplines pertinentes des sciences du langage. Il s’agit donc de linguistique
structurale, d’analyse du discours, de linguistique de corpus et de sociolinguistique.
Nos lectures et nos analyses nous ont conduites à déduire que l’objet de la recherche
est corrélé au choix du corpus. Deux notions sont également apparues: celle d’un
corpus fermé caractérisant la linguistique de bureau de Saussure et celle d’un corpus
ouvert caractérisant la linguistique de terrain.

Mots clés corpus, structuralisme, analyse du discours, sociolinguistique, linguistique


de corpus.

1. Introduction

En lisant le «Cours de Linguistique Générale»1, nous constatons que Saussure a défini


un ensemble de dichotomies telles que: langue/parole, signifiant/signifié…etc. Ces
définitions ont été déterminées sur la base d’un «corpus». Or, ce dernier n’a pas été
cité ni défini explicitement dans l’ouvrage du linguiste suisse. Une lecture minutieuse
de l’œuvre de Saussure montre que des études théoriques de corpus textuels ont été
conduites sur les Anagrammes et sur les Légendes germaniques. Les structuralistes,
tenants d’un courant linguistique qui puisent sa source dans le CLG pour analyser
la langue comme système, travaillent sur corpus (échantillon de langue constitué
d’énoncés oraux ou écrits). Ainsi, le corpus va devenir un enjeu de la théorie du
langage et de ses méthodes.
Il est à noter qu’il ne s’agit pas, dans le cadre de cette contribution, de contraster
les différentes théories et approches linguistiques et post-linguistiques dans leurs
réflexions épistémologiques, mais de montrer comment à partir de données de nature
différentes l’on peut construire des corpus à même d’être traités et analysés selon
l’objectif et l’orientation de la discipline ou la sous-discipline. Il s’agit également
de présenter le corpus selon la tradition linguistique européenne, voire francophone.

1.1 Questions de recherche

Dans le cadre de notre contribution, nous voulons vérifier comment le statut des corpus
a évolué depuis le structuralisme jusqu’à nos jours par l’émergence de plusieurs champs
disciplinaires qui se sont autonomisés. En réponse à des questionnements incontournables,
nous essayerons d’apporter quelques éclaircissements épistémologiques dans le cadre
du présent article. À partir de là, des questions s’imposent: Quels sont les nouveaux
critères pris en considération par les linguistes postsaussuriens pour définir la notion de
corpus? Quelles formes le corpus prend-il en sciences du langage?

Désormais CLG.
1
80 W. Bedjaoui

2. Cours de Linguistique Générale: Une théorie du corpus fermé

Saussure a mis en place une linguistique synchronique, c’est-à-dire une science qui
étudie la langue à un moment donné, par opposition à la linguistique diachronique, qui
prédominait à l’époque, et observait l’évolution historique de la langue. L’originalité
de Saussure est de faire de la langue un objet scientifique. Selon lui, la langue est«à
la fois un produit social de la faculté de langage et un ensemble de conventions
nécessaires» (CLG: 23)2. Il l’oppose à la parole, qui est l’emploi de ce produit
social par les sujets parlants, en d’autres termes «un acte individuel de volonté et
d’intelligence» (CLG: 25).
De plus, Saussure considère la langue comme une structure qui obéit à un système;
d’où le nom de la discipline dans laquelle il s’inscrit: la linguistique structurale.
C’est Saussure aussi qui est le précurseur de la théorie du signe linguistique qui
s’inscrit dans la tradition logico-grammaticale. Deux élémentsconstituent le signe:
un signifié (le concept abstrait, le sens) et un signifiant (l’«image acoustique», la face
matérielle). Le signe linguistique est arbitraire, dans le sens où aucun rapport interne
entre signifié et signifiant existe. Selon Saussure.
Tout le travail théorique mené par Saussure pour délimiter les caractéristiques
intrinsèques et extrinsèques des différentes dichotomies qu’il a pu analyser a constitué
les jalons du corpus en linguistique structurale. Comme nous l’avons signalé plus
haut, la notion de corpus n’a pas été citée ni définie dans l’ouvrage de Saussure
explicitement. Mais, il est à préciser que toutes les définitions saussuriennes ont été
déterminées sur la base d’un corpus, celui des Anagrammes qu’il avait analysé et
décrit. D’où les premières prémices d’une linguistique textuelle.
En plus, la découverte des éléments et l’étude de leur fonctionnement dans le
système ne font qu’un, car pour établir les éléments, il faut percevoir les relations
qu’ils entretiennent entre eux. Ainsi, on ne saurait en français isoler le -ai- de
l’imparfait (il chant-ai-t) qu’en établissant, à l’intérieur du système temporel, qu’il
se distingue du présent (il chante), du futur (il chante-r-a), et du conditionnel (il
chanter-ai-t). Ces exemples, à priori simplistes, peuvent constituer un micro-corpus
à une étude linguistique structurale paradigmatique sur les temps verbaux et leur
structure. La linguistique structurale est donc une linguistique de la norme.
Cette linguistique de la norme a fait l’objet de critique de nombreux linguistes
qui ont remis en question les notions de «homogénéité» et de «représentativité»
préconisées par Saussure en matière de corpus.
Les discours des structuralistes semblent tous convergés sur les trois traits suivants
«représentativité, exhaustivité et homogénéité» (Greimas: 1966) des corpus qu’ils
analysaient. En fait, «la linguistique structurale travaillait à partir d’unusage
normé, alors que les autres disciplines à l’instar de la sociolinguistique et de la
linguistique de corpus prennent en comptedesusages concurrents» (Boyer, 2008:4),
contextualisés et situationnels, en d’autres termes l’accent est mis sur l’universel des
langues et les singularités des emplois.
Force est de noter que plusieurs linguistes à l’instar de Jakobson connu par son
schéma de communication considérait le Cours de Linguistique Générale tel que
2
Un système de signes commun à l’ensemble des membres d’une communauté.
Le corpus en sciences du langage  81

présenté par les disciples de Saussure comme apocryphe. Ce dernier avait été parmi
les premiers à travailler sur des corpus réduits à travers son interprétation et sa
transcription phonétique du poème «Chats» de Baudelaire (1977). La distinction
entre corpus écrit et oral commençait à voir le jour à cette époque, mais ne semblait
pas faire l’objet de théorisation.
Après avoir mis en relief la théorie qui a tenté de cerner le corpus sans le
mentionner ni le définir, nous allons voir comment le corpus est appréhendé dans les
prolongements théoriques de cette discipline «mère».

3. Le corpus: Essai de définition

La notion de corpus a fait l’objet d’étude de différentes disciplines telles que la


linguistique, l’analyse de discours, la sociolinguistique, la linguistique de corpus, etc.
En linguistique, le corpus est défini comme est un ensemble de données recueillies
pour réponde à des questions de recherche relatives à un phénomène linguistique,
discursif ou sociolinguistique. À partir de cette définition, le corpus est facilement
classifiable selon sa nature et son statut. (Dalbera, 1996, 2002) cite les corpus de
textes et les corpus d’unités de langue (phrasèmes, monèmes, phonèmes). Sans
oublier ceux qui relèvent de l’écrit et ceux qui relèvent de l’oralité. Une autre
division a été adoptée selon les dichotomies suivantes: échantillons représentatifs
des faits linguistiques VS corpus exhaustifs dans un champ donné, corpus clos VS
corpus non-clos d’une part, brut VS traité de l’autre. Ce qui engendre certainement
une panoplie de corpus à étudier et à analyser.
Pour plus de précisons, nous pouvons prendre pour exemple l’étude du verbe en
langue française. En tant qu’objet scientifique, il peut être appréhendé d’un point
de vue syntaxique (comme signalé plus haut), d’un point de vue lexicologique par
l’étude de sa morphologie (flexion et dérivation), d’un point de vue discursif et
sémiotique par l’étude de son usage et son influence sur le récepteur. Pour étudier
ce phénomène langagier, les corpus sont aussi diversifiés que riches. Les corpus
numériques constituent actuellement une source importante de données pour observer
l’évolution des langues naturelles à travers l’étude de leurs constituants3.
Nous avons schématisé dans le tableau ci-après une application de l’étude des
verbes pour une représentation synthétisée de l’idée:
Il s’agira, dans les lignes suivantes, de mettre en avant les caractéristiques du
corpus dans les disciplines qui se rapportent aux sciences du langage de par leurs
objets de recherche, à savoir l’analyse du discours, la linguistique de corpus et la
sociolinguistique.

3.1 Le corpus en analyse du discours

En analyse de discours, Charaudeau avait consacré un de ses articles à la question du


corpus intitulé« Dis-moi quel est ton corpus, je te dirai quelle est ta problématique»
publié en 2009, puis mis en ligne sur le site de la revue Corpus en 2010. Il y affirme
que la construction du corpus dépend du substrat théorique et de l’objectif de

3
Il existe des sous-disciplines auxquelles nous ne nous sommes pas attardées, puisque notre objectif est
d’offrir une vue globale de la question du corpus en sciences du langage.
82 W. Bedjaoui

Tableau 1 Le verbe en tant que corpus1.


Objet de recherche Méthode de recueil de corpus/ Analyse et résultats
et nature
Les verbes Isoler la catégorie du verbe Étude sémantique dimension sémantico-
de l’ensemble des segments cognitive) propriétés sémantiques
prédicatifs, en explicitant les intrinsèques des morphèmes, propriétés
critères qui permettent cette qui ne sont pas prises en compte dans la
délimitation. grammaire traditionnelle.

l’analyse. Il y distingue les textes proprement dits (textes journalistiques, scolaires,


administratifs, programmes politiques) et les textes conversationnels (entretiens,
échanges téléphoniques, débats, etc.).
Pour bien définir la notion de corpus, Charaudeau prend en considération ces
différentes distinctions: le discours comme forme oral du texte/le texte comme
forme écrite du discours; et le contexte sous ses trois aspects «paratextuel,
interdiscursifetsituationnel» (Charaudeau, 2010, p. 27). Le corpus de discours est
donc toujours construit à partir de divers types de données: corpus selon leparatexte(de
mots, d’énoncés, d’énonciation), corpus selon l’interdiscours(connaissance,
croyance), corpus selon lasituation(destinateurs, buts et moyens). Ces données sont
regroupées en fonction de laproblématique, de l’analyse adoptéeet de lamise en
contrasteélaborée par le chercheur. Grâce à cette démarche diverses typologies de
discours voient le jour et nécessitent une théorisation.

3.2 Le corpus en linguistique de corpus

Dans le cadre de ce qu’est appelée la «linguistique de corpus»4, Rastier (2004)


évoque quatre niveaux pour construire le corpus à analyser. Notons que Maingueneau
propose, quant à lui, une autre terminologie pour ces quatre niveaux: Il nomme
univers discursif l’archive, champ discursif le corpus de référence et espace discursif
le corpus d’étude.

1) L’archive, selon Rastier, est l’ensemble des données accessibles. On ne peut


la considérer comme corpus puisqu’il s’agit des documents bruts. Elle ne
peut constituer l’objet d’une recherche déterminée.
2) Le corpus de référencerenferme l’ensemble de textes choisis de l’archive.

4
Corpus linguistics has been developed to extract the linguistic knowledge needed for language teaching
from a corpus, a corpus being a principled collection of real language data. Part of applied linguistics, it
made little claim to its own theoretical framework. Nevertheless, it has provided a new way to look at
language. Corpus linguistics situates meaning in the discourse, in the interaction between people, rather
than in the minds of speakers. Only words embedded in their contexts have meaning, and what they
mean is determined by their contextual collocates. Making sense of a text segment means exploring the
intertextual links connecting it to the diachronic dimension of the discourse. Hermeneutics thus is the
theoretical framework of a corpus linguistics bridging the gap between language and society
(WolfgangTeubert, 2016).
Le corpus en sciences du langage  83

Figure 1. Les pôles de la sociolinguistique.

3) Le corpus d’étudeest conditionné par les besoins de l’application. En


d’autres termes, l’échantillon de l’étude.
4) Le sous-corpus de travail en cours contient les exemples tirés du corpus
d’étude pour analyser un phénomène linguistique donné.

En guise d’exemple, l’étude thématique des données textuelles relatives aux


attentats terroristes trouve son archive dans tous les articles de presse du monde; le
corpus de référence est constitué de 100 articles tirés du journal français le Monde
entre 2015 et 2016; le corpus d’étude est composé des passages relatifs aux noms
donnés aux attentats; et le corpus de travail ou de sélection est le corpus propre à tel
ou tel attentat.
Cette taxonomie des corpus et des sous corpus permet de comprendre l’importance
du champ disciplinaire dans lequel le corpus sera appréhendé. L’appareillage théorique
d’un chercheur en linguistique de corpus et donc soumis aux notions précédemment
développées. Il est important aussi d’observer que la nature, le statut et les matériaux
constitutifs ne posent pas de problème dans le cadre de cette discipline. D’autres
critères doivent être pris en considération dans le cadre de la linguistique de corpus.
Le texte est donc l’unité minimale de tout corpus conformément aux propos de
Rastier. Il doit obéir à trois critères, à savoir: objectivité, pertinence et intégralité.
Tout corpus doit être choisi objectivement pour un objectif bien clair et respecter le
principe de l’exhaustivité.
84 W. Bedjaoui

Figure 2. Différents types de corpus.

3.3 Le corpus en sociolinguistique

Il est à noter que l’avènement de la sociolinguistique avec les travaux de Ferguson


(1959) et Fishman (1967) sur la diglossie5 ont bouleversé les théories linguistiques.
La norme linguistique n’attire plus les linguistes qui se concentrent sur l’étude de
l’usage des langues dans différentes contextes sociaux. De nouvelles caractéristiques
sont ainsi exigées dans la construction des corpus.
Les sociolinguistes tels J.-B. Marcellesi et B. Gardin (1974, p. 240) ont d’ailleurs
clairement réagit à la notion d’homogénéité, qui était posée comme condition sine
qua non à la construction des corpus en linguistique structurale. Or, dans cette
même discipline, le corpus a également fait l’objet de changement de nature et
de statut, et ce avec l’avènement des sous-disciplines de la sociolinguistique: la
microsociolinguistique et la macrosociolinguistique. Le schéma ci-après met en avant
les principales caractéristiques en matière d’objet d’étude, de corpus et d’analyse.
Bref, en fonction de nos lectures et de nos études de terrain, le corpus en sciences
du langage est a priori l’ensemble des productions langagières sur la base desquelles
se conduisent des analyses quantitatives et qualitatives. Ce corpus relève, en premier
lieu, desdonnées construites et/ ou en construction: il s’agit d’un certain nombre de
discours recueillis grâce à divers procédés pour des objectifs bien précis. Le corpus
est ainsi de l’ordre desdonnées pertinentes et ciblées. Par ailleurs, le contexte joue un
rôle déterminant pour la construction du corpus et son interprétation.

5
La diglossie est un phénomène sociolinguistique de hiérarchisation des langues en présence dans une
société donnée. L’arabe standard est par exemple la forme de toutes les variétés de l’arabe dans le monde
arabe.
Le corpus en sciences du langage  85

Donc, un corpus est un ensemble de données hétérogènes, construites et pertinentes


dont l’objectif est la validation d’une hypothèse émise (Bedjaoui & Berghout, 2016).
Le corpus peut être de nature diverse et peut répondre à des objectifs divers dans
différentes disciplines. Le schéma suivant en fait le résumé:

4. Conclusion

Nous avons tenté de mettre en exergue la notion du corpus relatif aux sciences
du langage avec les principales disciplines qui étudient le langage comme objet
de recherche. À partir de notre analyse, nous avons pu définir le corpus comme
un construit hétérogène et que sa construction fait partie intégrante du prisme
théorique à travers lequel le chercheur entend appréhender le réel. D’un point de
vue méthodologique, nous avons défini le corpus dans le cadre de deux disciplines
différentes, mais complémentaires (linguistique générale et sociolinguistique).
Notre analyse a démontré que le corpus répond à divers modes de recueils
de données conformément à des critères préétablis du domaine de recherche.
En nous référant à toutes ces définitions que nous venons de présenter au sein
des sciences du langage, depuis pratiquement plus d’un quart de siècle, sur la
notion decorpus, nous avons pu constater qu’une évolution relatif au paradigme
épistémologique dans lequel est traité le corpus. Selon les objectifs de la recherche
et les exigences de la discipline, le corpus se construit en obéissant à certaines
règles telles que l’homogénéité ou l’hétérogénéité, clôture ou ouverture. La notion
d’ouverture de corpus trouve en effet ses échos dans d’autres disciplines qui ont
intégré de nouveaux paramètres répondants aux exigences de l’apparition de corpus
non traditionnels comme les corpus numériques. Il s’agit actuellement d’éclatement
de corpus. Ce qui ouvre des perspectives de recherches interdisciplinaires.
Au terme de cette lecture relative au statut du corpus dans quelques disciplines
des sciences du langage, il est indéniable de constater l’apport de chaque discipline
en matière d’appréhension d’un seul et même corpus. Un texte journalistique, en
guise d’exemple, peut faire l’objet de la linguistique structurale dans la mesure où
il s’attarde sur la structure des phrases sur le plan paradigmatique et syntagmatique.
En linguistique de corpus, le phénomène linguistique est appréhendé en diachronie
afin d’étudier les différentes constructions phrastiques. En analyse du discours,
les différentes approches (énonciative, pragmatique et textuelle) offre un éventail
d’approches analytiques. En sociolinguistique, les phénomènes de contacts des
langues sont à traiter sous la perspective des représentations et des pratiques
langagières. La présentation de ces exemples ne prétend aucunement l’exhaustivité,
mais tente d’esquisser les grandes lignes du corpus en sciences du langage.

5. Bibliographie
Bedjaoui, W., & Berghout, N. (2016). «Construire son corpus en sciences du langage: de la linguistique
structurale à la sociolinguistique», Colloque international: La linguistique, 100 ans après De Saussure,
Bilans et perspectives. Alger, Université d’Alger 2.
86 W. Bedjaoui

Boyer, H. (2008). «Sociolinguistique: fairecorpusde toute(s) voix?»,Mots. Les langages du politique[En


ligne], 69|2002, mis en ligne le 14 mai 2008, consulté le 16 novembre 2018. URL: http://journals.
openedition.org/mots/10553; doi:10.4000/mots
Charaudeau, P. (2009). «Dis-moi quel est ton corpus, je te dirai quelle est ta problématique»,Corpus[En
ligne], 8|2009, mis en ligne le 01 juillet 2010, consulté le 16 novembre 2018. URL: http://journals.
openedition.org/corpus/1674
Dalbera., J.-Ph. (2002). «Le corpus entre données, analyse et théorie»,Corpus[En ligne], 1|2002, mis en
ligne le 15 décembre 2003, consulté le 16 novembre 2018. URL: http://journals.openedition.org/
corpus/1
Jakobson, R., & Lévi-Strauss, C. (1962). « Les Chats » de Charles Baudelaire. In:L’Homme,, tome 2 n°1.
pp. 5-21. doi:https://doi.org/10.3406/hom.1962.366446 www.persee.fr/doc/hom_0439-4216_1962_
num_2_1_366446. Consulté le 16/11/2018.
Greimas, A. J. (1966). Sémantique structurale, Larousse.
Marcellesi, J.-B., & Gardin, B. (1974).Introduction à la sociolinguistique, Paris, Larousse.
Rastier, F. (2004). Enjeux épistémologiques de la linguistique de corpus. Texto ! [en ligne]. Rubrique
Dits et inédits. Disponible sur: http://www.revue-texto.net/Inedits/Rastier/Rastier_Enjeux.html
(Consultée le 20-09-2016).
Rastier, F. (2009). Saussure et les textes. De la philologie des textes saussuriens à la théorie saussurienne
des textes. Disponible sur: http://www.revue-texto.net/docannexe/file/2420/texto_saussure_et_les_
textes_rastier.pdf
Wolfgang,T. (2009). «Corpus Linguistics: An Alternative»,Semen[En ligne], 27|2009, mis en ligne le 01
avril 2009, consulté le 20-09- 2016. URL: http://semen.revues.org/8914 consulté le 21-09-2016

Vous aimerez peut-être aussi