Vous êtes sur la page 1sur 43

Linguistique de corpus

écrits
Ahamada KASSIME
(Contenu inspiré du cours de Marie Chandelier)
ahamada.kassime@univ-montp3.fr

Séance 1

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Présentation du cours
Linguistique de corpus écrits
1) Contexte d’émergence de la discipline

2) Le corpus écrit : enjeux et définitions

3) Les différents courants de la linguistique de corpus

4) De la conception à l’étude de corpus écrits : aspects théoriques et méthodologiques

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Objectifs
- Connaître le contexte d’émergence de la linguistique de corpus et ses fondements
méthodologiques

- Savoir constituer un corpus écrit à partir d’une question de recherche (recueil des données et
des métadonnées)

- Maîtriser les outils des principaux logiciels d’analyse

- Savoir interpréter les résultats issus des analyses

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Modalités d’évaluation
Dossier : constitution et analyse d’un corpus de données textuelles

Calendrier

- 13 février : groupes constitués


- 29 février : avoir déterminé une question de recherche. Indiquer le corpus et les outils qui
seront utilisés pour y répondre
Google docs partagé à compléter sur Moodle

Envoi des dossiers : au maximum le 31 mars

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Outils d’analyse de corpus
Antconc : http://www.antlab.sci.waseda.ac.jp/software.html
Txm : https://txm.gitpages.huma-num.fr/textometrie/files/software/TXM/0.8.3/
Iramuteq : Téléchargement et installation — IRaMuTeQ

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Contexte d’émergence de la linguistique de corpus

Seconde moitié du XXe siècle

Structuralisme Générativisme
Saussure Chomsky

Volonté de fonder l’étude


linguistique sur des usages attestés,
en contexte

La linguistique de corpus comporte une forte


dimension empirique

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Contexte d’émergence de la linguistique de corpus

Favorisée par le développement des technologies et des outils informatiques

Permet de collecter de grands corpus de textes

De l’analyse de texte à l’analyse de corpus

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Contexte d’émergence de la linguistique de corpus

Traits majeurs de la linguistique de corpus


(1) Intérêt pour la performance linguistique, plutôt que sur la compétence linguistique
(2) Focalisation sur la description linguistique et non sur les universaux linguistiques
(3) Etude quantitative et qualitative des modèles du langage
(4) Approche plus empiriste que rationaliste de l’étude scientifique
Leech (1992:107)

Leech, G. (1992). Corpora and theories of linguistic performance. In J. Svartvik(Ed.), Directions in corpus
linguistics (pp. 105-122). Berlin, New York : Mouton de Gruyter.

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Contexte d’émergence de la linguistique de corpus

De l’analyse de texte à l’analyse de corpus


Quelles conséquences pour l’analyse linguistique ?

Tognini-Bonelli 2001
The ability to examine large text corpora in a systematic manner allows access to a quality of evidence that has
not been available before.
Sinclair 1991 : 4
Licence 3 –Sciences du langage E64SLL5 / E64SLL9 Tognini-Bonelli 2001
Contexte d’émergence de la linguistique de
corpus
Premiers grands corpus :
Développement d’annotations morphosyntaxiques (à chaque mot est associé une catégorie
grammaticale)
-Brown Corpus of Standard American English (1963)
- Frantext (1970)
- British National Corpus (1994)

L’annotation constitue un court texte qui vient enrichir le texte initial


Exemple de l’annotation morphosyntaxique :
Pierre [Npr] et [coord] Jean [Npr] sont [V] partis [V] à [prep] la [art] mer [N]

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Qu’est-ce qu’un corpus ?

Regroupement d’un ensemble de textes documentés, annotés et rassemblés de manière à


constituer un tout cohérent qui permettra de répondre à/aux questions particulières posées par
le chercheur.

https://uoh.fr/front/noticefr/?uuid=6e4ddf71-f934-4c37-8ac3-16d1e01f717f
Qu’est-ce qu’un corpus ?

Tognini-Bonelli2001
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Qu’est-ce qu’un corpus ?

- Le caractère authentique des textes constituent le corpus


-La représentativité du langage inclut dans le corpus
-Le critère d’échantillonnage utilisé pour sélectionner les textes

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Qu’est-ce qu’un corpus ?

Importance de la question de recherche !

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Qu’est-ce qu’un corpus ?
Pour qu’une collection de texte constitue un corpus, elle doit répondre à plusieurs conditions :
Conditions de signifiance :
Un corpus est constitué en vue d’une étude déterminée (pertinence), portant sur un objet
particulier, une réalité telle qu’elle est perçue sous un certain angle de vue (et non sur plusieurs
thèmes ou facettes indépendants, simultanément) (cohérence).
Conditions d’acceptabilité :
Le corpus doit apporter une représentation fidèle (représentativité), sans être parasité par des
contraintes externes (régularité). Il doit avoir une ampleur et un niveau de détail adaptés au
degré de finesse et à la richesse attendue en résultat de l’analyse (complétude).
Conditions d’exploitabilité :
Les textes qui forment le corpus doivent être commensurables (homogénéité). Le corpus doit
apporter suffisamment d’éléments pour pouvoir repérer des comportements significatifs (au
sens statistique du terme) (volume)
Pincemin1999
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Typologie des corpus
Plusieurs éléments peuvent être pris en compte

• Support sur lesquels sont produits les données (oral, écrit, vidéo)

• Nature des documents constitutifs (mots, phrases, textes, etc.)

• La forme et la nature des annotations

• La représentativité

Nesrine Raisi

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Typologie des corpus
Plusieurs éléments peuvent être pris en compte

• Les corpus écrits sont les plus fréquents

• Les corpus oraux supposent au moins, en plus de la documentation, une transcription de


base.

• Les corpus vidéo sont également de plusieurs sortes, selon la façon dont les données ont été
collectées

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Typologie des corpus
Un corpus peut être composé de
• Textes complets
• Ensemble de textes complets
• Echantillons extraits de textes complets
• Ensembles de citations
• Dictionnaire(s)
• Gigantesque archive non structurée de textes

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Typologie des corpus
Corpus vs archives

Le contenu et la façon dont il est structuré aide à distinguer le corpus de l’archive:


• Corpus : compilation systématique et structurée
• archive: assemblage gigantesque, non structuré de textes généralement récoltés un peu au
hasard

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Typologie des corpus
Corpus et archives

Une archive peut regrouper :


• Les œuvres complètes d’un ou de plusieurs auteurs
• Tous les numéros d ’un journal sur une ou plusieurs années
• Tous les textes connus d’une période historique particulière

• ⇒ Peut être utilisée dans les mêmes buts qu’un corpus

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


L’analyse des corpus : deux approches
Corpus based
Hypothèses et grilles d’analyse construites a priori

Corpus driven
Hypothèses émergeant de l’exploration des données textuelles

Lexicométrie
(Salem & Lebart1994)
Textométrie Logométrie
TogniniBonelli2001

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La lexicométrie : « ensemble de méthodes permettant d’opérer des réorganisations formelles de
la séquence textuelle et des analyses statistiques sur le vocabulaire d’un corpus de textes »
(Lebart et Salem 1988)

- s’appuie sur des données quantitatives (grand corpus)


Textométrie

- discipline qui reprenant les acquis de la lexicométrie et de la statistique textuelle


- étudie les textes à partir de formes lexicales (lexicométrie)
- caractérise les genres, les auteurs
- s’applique à l’analyse du discours et à la stylistique
- s’appuie sur les données quantitatives (statistique)

Exemple:
- la notion d’écologie chez François Hollande (discours)
- le vocabulaire spécifique de Zola (stylistique)
Nesrine Raisi
Logométrie :
- elle ne se contente pas de traiter que du lexique
- elle étend ses procédures à toutes les unités linguistiques jugées pertinentes du
discours (mots graphiques, lemmes, codes grammaticaux, cooccurrents, enchaînements
syntaxiques, etc.)
- décrit qualitativement et quantitativement le contenu linguistique d’un corpus.

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


PARTIE II

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Corpus based–Corpus driven
London School of linguistics

Corpus driven Corpus based

Hypothèses émergeant de Hypothèses et grilles d’analyse


l’exploration des données textuelles construites a priori
(John Sinclair) (Geoffrey Leech)

Lexique Grammaire
TogniniBonelli2002

Léon 2008

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La constitution de corpus

Importance de la question de recherche

critère d’échantillonnage
authenticité
représentativité

TogniniBonelli2002
Léon 2008

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La constitution de corpus

L’analyse du discours, même lorsqu’elle convoque l’outil informatique, s’inscrit en sciences


humaines et sociales dans une démarche scientifique : les données sont construites en fonction
d’une problématique de recherche, elles servent à valider ou infirmer des hypothèses de
recherche. (Fleury et al., 2017 : 28)

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La constitution de corpus
Question de recherche Objectifs de l’analyse
Analyse du discours (analyse énonciative, rhétorique par exemple)
Exemple : Modalités de représentation du discours rapporté des gilets jaunes dans la presse
Construction et/ou vérification d’une hypothèses
Exemple: Analyse de la circulation d’un terme scientifique dans le discours courant : l’usage intensif conduit à
des modifications sémantiques
Analyse de la structure des textes (question du genre textuel)
Exemple : Spécificités linguistiques du genre scientifique (présence d’un vocabulaire spécialisé) vs spécificités
linguistiques du discours de presse sur un même sujet
Phénomène linguistiques particuliers (syntaxique, lexical ou discursif)
Exemple: néologie
Description systématique d’une langue
Traitements automatiques des langues
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus

Question de recherche Objectifs de l’analyse

Critères

Critères externes
(extralinguistiques)

Critères internes
(linguistiques, distributionnels)

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La constitution de corpus
Le consortium CORLI recense les corpus écrits et oraux
Corpus écrits : https://corli.huma-num.fr/inventaire-des-corpus-ecrits/
Corpus oraux : http://ircom.huma-num.fr/site/corpus.php

Exercice :
À partir des descriptions des projets listés ci-dessous, identifier les questions et objectifs de recherche
(critères externes) d’une part, les critères de constitution des corpus (critères internes) d’autre part

Les interrogatives directes tirées de dix romans policiers


(https://www.ortolang.fr/market/corpora/interrogatives-in-novels)
Débats parlementaires sur l’Europe à l’Assemblée Nationale (2002-2012)
(https://www.ortolang.fr/market/corpora/fr-parl)

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La constitution de corpus
Corpus : Les interrogatives directes tirées de dix romans policiers

Critères externes Critères internes


(extralinguistiques) (distributionnels, linguistiques)

Les interrogatives directes


Roman policier (genre) Les variations morphosyntaxiques
Multimodalité

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La constitution de corpus
Corpus Débats parlementaires sur l’Europe à l’Assemblée nationale (2002-2012)

Critères externes Critères internes (distributionnels,


(extralinguistiques) linguistiques)

Expressions de la 3e personne
Débat parlementaire (genre)
Langues (français, allemand, anglais)
Temporalité

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La constitution de corpus
Critères
Critères externes (extralinguistiques) Critères internes (distributionnels, linguistiques)

-> Comment prendre en compte ces critères, linguistiques et extralinguistiques dans l’analyse des données
textuelles ?

« Les métadonnées »

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Le rôle des métadonnées
Les données textuelles sont non structurées
Métadonnées : ajouts d’information aux données brutes, dans le but d’organiser et de documenter
les textes
Produit un enrichissement des données et ouvre la voie à des analyses quantitatives
contextualisées
Les métadonnées (et les annotations) permettent de structurer les textes
Explicitation du contexte et des conditions de production des textes observés

-> Le corpus est structuré par les métadonnées

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Exemple du British National Corpus
Considéré comme un corpus de référence
4,124 textes (incluant des transcriptions d’enregistrements)
Environ 100 millions de mots: 90% écrit+ 10% oral

Critères pour les collections écrites


• Le domaine: le type de contenu(i.e. sujet, thème)
• Le temps: la période de production des textes
• Medium: le type de publication (livres, périodiques, etc)

Critères pour les collections orales


• Démographiques: conversations informelles de locuteurs sélectionnés suivant leur groupe d’âge, leur sexe, leur
classe sociale et leur région
• Context-governed : rencontres formelles comme des réunions, des conférences et des émissions de radio
enregistrées dans 4 catégories contextuelles larges
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Les genres du discours

Tout texte relève d’une catégorie de discours, d’un genre de discours


Grande variété de termes pour désigner et catégoriser les textes produits dans une société :
conversation, manuel, journal, tragédie, roman sentimental, description, polémique, sonnet, récit, proverbe et
maxime, hebdo, tract, rapport de stage, mythe, carte de voeux, etc.

Ces dénominations de genres s’appuient sur des critères très hétérogènes :


Roman sentimental→ contenu (sentimental);
Récit → mode d’organisation (narratif)
Journal→ caractère périodique de la publication
Sonnet→ disposition particulière des vers du poème

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Les genres du discours

Le genre de discours induit des niveaux de régularités linguistiques en fonction des dispositifs de
communications. Ces dispositifs de communications émergent dans des contextes socio-
historiques spécifiques.

- Par exemple, le genre du rapport de stage suppose l’existence d’entreprises, d’étudiants qui ont
besoin d’expérience professionnelles, de professeurs pour évaluer ces travaux.

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


La question de l’échantillonnage
Un corpus est un échantillon d’une population donnée (langue, usage linguistique)
Un échantillon est une version réduite d’une population plus large
Ce que nous observons dans un échantillon vaut pour la population prise en compte

The aim of sampling “is to secure a sample which, subject to limitations of size, will reproduce the characteristics of
the population, especially those of immediate interest, as closely as possible” (Yates 1965: 9)

La méthode d’échantillonnage est déterminante pour la représentativité du corpus

Licence 3 –Sciences du langage E64SLL5 / E64SLL9


Clôture des corpus
Peut-on considérer un corpus comme clos ?

- Clôture du corpus par rapport à d’autres corpus


Est-ce que des corpus potentiellement équivalents sont accessibles ?
Peut-on les adjoindre à notre corpus de travail, ou comparer les deux jeux de données ?

- Clôture du corpus par rapport aux connaissances de l’analyste


Jusqu’où le linguiste s’autorise-t-il à faire intervenir sa connaissance pour construire une
interprétation ?
Doit-on interpréter l’absence d’une unité ?

Licence 3 –Sciences du langage E64SLL5 / E64SLL9

Vous aimerez peut-être aussi