Statistique Txtuelle

1.
La statistique textuelle :
L'analyse de données textuelles (ou ADT) est une approche des

sciences humaines qui envisage les textes comme des données organisées qui,
constituées en corpus, peuvent être analysées indépendamment de leur
énonciataire, voire de leur énonciation. Le développement des outils
informatiques a donné une impulsion indéniable à cette approche. La
statistique textuelle se situe à la croisée de plusieurs disciplines : la statistique
classique, la linguistique, l’analyse du discours, l’informatique, le traitement
des enquêtes (Lebart et Salem, 1994). Elle s’applique à des corpus de textes
de nature extrêmement variée : entretiens, réponses à des questions ouvertes,
écrits historiques, littéraires, textes d’archives, etc.
L'analyse de données textuelles, inspirée par la linguistique

structurelle et l'analyse de discours, est autant qualitative que quantitative.
Elle cherche à qualifier les éléments des textes à l'aide de catégories et à les
quantifier en analysant leur répartition statistique. L'approche a été très
inspirée par les travaux de Jean-Paul Benzécri et a été utilisée dès les années
1960 sur des corpus de textes littéraires ou de textes politiques.
La textométrie s’appelle aussi logométrie ou statistique textuelle, c’est
la forme actuelle de la lexicométrie (Lebart & Salem 1994). Elle propose des
procédures de tris et de calculs statistiques pour l’étude d’un corpus de textes
numérisés. A ces procédures quantitatives la textométrie articule fortement
des moyens de parcours et d’interprétation qualitatifs, déterminants quant aux
affinités possibles avec une théorie linguistique telle que la sémantique
interprétative.
La textométrie, centrée sur le texte, a pu être mobilisée par diverses
sciences humaines (histoire, littérature, sciences politiques…). Développée au
sein d’une communauté scientifique s’intéressant à l’analyse des données
textuelles, elle se caractérise notamment par certains calculs fondateurs,
statistiques (les spécificités, les cooccurrences) ou non (les segments répétés,
les concordances), et accorde une place fondamentale au « retour au texte »
(bien outillé dans les logiciels) pour interpréter les unités (généralement des
mots) sélectionnées par les calculs.
2. Les apports de la textométrie ; Des expériences positives
révélatrices.
On rappelle une expérience initiale révélatrice des apports de la

textométrie explorés pour :
 Un calcul de cooccurrence tel que celui implémenté par la

fonction Thème du logiciel Hyperbase sert à repérer des corrélats
sémantiques pour une description thématique des isotopies et des
molécules sémiques (Rastier 2001 : 213).
 Pour le repérage de passages et la caractérisation des textes et des
genres textuels.]
3. Rapport de la textométrie avec le sémantisme des textes :
Le corpus de textes à traiter peut être par exemple un ensemble de

réponses à une question ouverte dans une enquête. La taille des réponses varie
de quelques mots à quelques phrases, et on dispose par ailleurs d’un ensemble
de caractéristiques sur les répondants et de leurs réponses à d’autres questions
de l’enquête. L’objectif de l’analyse est d’extraire les principaux axes de
différenciation du vocabulaire des réponses et de les rattacher à des groupes
de locuteurs.
La collection de textes à analyser peut aussi se présenter sous la forme

de textes plus longs tels que des entretiens, matériau de recherche
fréquemment utilisé en sciences humaines (démographie, psychologie,
sociologie, géographie, histoire, etc.). Il s’agit alors de synthétiser le contenu
des entretiens en en faisant émerger des thématiques et de les comparer selon
les caractéristiques sociales et démographiques des répondants (âge, sexe,
milieu social, profession, région, etc.).
1/15
L’intérêt majeur des méthodes de la statistique textuelle est de traiter
les textes tels qu’ils ont été écrits ou recueillis sans intervenir pour les
modifier. En effet, le recours à une post-codification dans le cas de réponses à
des questions ouvertes a pour inconvénient de simplifier et parfois de
déformer les réponses par la médiation du chiffreur ou l’interprétation du
chercheur. Ainsi, ce sont des textes sous leur forme brute que l’on va tenter de
saisir et d’analyser à travers le sens des mots et les formes des phrases qui les
structurent. La statistique textuelle permet d’objectiver et de synthétiser ces
informations qualitatives pour faire émerger une représentation commune et
diverse à la fois.
4. La textométrie :
La sémantique interprétative s’intéresse au sens. Selon elle, le sens

peut s’élaborer à partir d’indices morphologiques, syntaxiques, phonétiques,
etc. Il peut être transversal aux catégories grammaticales, mobiliser au même
titre une ponctuation, un aspect verbal, un morphème, un profil prosodique et
rythmique, une typographie, une mise en page (Bourion 2001, Malrieu &
Rastier 2001, Beaudouin 2002, Valette 2004, Loiseau 2006).
La textométrie est en mesure de prendre en compte des descriptions

du texte de toutes natures, pour peu qu’elles soient explicitées par un codage
du corpus. Dès ses débuts, la textométrie s’est fait une spécialité du traitement
des questions ouvertes dans les enquêtes, pour éviter le postcodage des
réponses (entre l’enquête et l’analyse) qui efface des variations d’expressions
potentiellement significatives (Lebart & Salem 1994).
Le souci de fidélité au texte s’est également vivement exprimé dans le

débat traversant la communauté textométrique et concernant la lemmatisation
(Brunet 2011) : l’expérience avait révélé que bien souvent les différentes
flexions sont porteuses d’une sémantique différente, typiquement les pluriels
sont plus concrets que les singuliers (ex. « le travail » vs « les travaux »)
2/15
(Geoffroy, Lafon & Tournier 1974). La sémantique interprétative partage
cette sensibilité à ne pas écraser ces distinctions, comme le montre l’étude de
Bourion (2001 : 62) sur « au pied de » vs « aux pieds de » dans un corpus
littéraire.
4.1. La place centrale des textes à toutes les étapes de l’analyse

textométrique
Dans les termes de la sémantique interprétative, l’objet empirique de la

linguistique n’est pas d’abord le mot, la phrase ou la proposition, mais le
texte.
L’évolution de désignation de la « lexicométrie » en « textométrie »
veut exprimer que l’analyse menée ne se cantonne pas à l’étude du lexique,
mais investit l’ensemble du texte. La textométrie compte ainsi des utilisateurs
non seulement en linguistique mais aussi dans diverses sciences humaines
(littérature, politique, histoire, philologie etc.), dont l’objectif est de se donner
des moyens de renouveler la lecture de leur corpus de documents textuels.
Le corpus, comme ensemble construit de textes, est au cœur de
l’analyse ; le retour au texte est une fonctionnalité centrale des logiciels de
textométrie. L’approche textométrique est celle de la curiosité d’une lecture
approfondie et renouvelée par la mise en évidence de régularités non encore
perçues. On est loin ici d’un corpus « réservoir », dont la connaissance
globale importe peu, et dont le rôle n’est que de pouvoir livrer quelques
extraits ciblés, souvent sans considération particulière pour la formulation
employée et sa contextualisation complète.
4.2. La contextualisation comme principe de l’analyse et le rôle

déterminant du corpus de référence :
La textométrie compte, situe, caractérise, des unités dans et par des contextes.
Or justement « la compréhension du texte […] procède par contextualisation
3/15
et intertextualisation » (Rastier 2001 : 93). Cela se déploie à tous les paliers,
se reformulant en autant de principes (Rastier 2001 : 92) :
a) le principe de contextualité (« deux signes ou deux passages d’un
même texte mis côte à côte sélectionnent réciproquement des éléments
de signification (sèmes) […] »…).
b) le principe d’intertextualité (analogue pour deux passages de textes
différents).
c) le principe d’architextualité, selon lequel tout texte plongé dans un
corpus en reçoit des déterminations sémantiques, et modifie
potentiellement le sens de chacun des textes qui le composent.
En outillant une lecture non linéaire (par l’extraction de contextes, la

génération de concordances), la textométrie joue fondamentalement sur les
principes de contextualité et d’intertextualité. Les cooccurrences ont pu être
comprises également comme une forme de contextualisation minimale, dans
l’esprit de la sémantique interprétative (Mayaffre 2008). Quant au principe
d’architextualité, le fonctionnement statistique du corpus de référence en est
une concrétisation : en effet, tout texte inclus dans le corpus apporte sa
contribution aux fréquences globales, et réciproquement, se trouve caractérisé
par rapport à ces fréquences globales. Le choix du corpus de référence
conditionne l’interprétation, et un texte reçoit autant d’éclairages possibles
que de contextualisations pertinentes en corpus. Par le biais du corpus de
référence, le global détermine le local, et l’analyse est la mise en évidence de
formes qui se détachent sur un fond (Rastier 2001 : 42 sq.). On peut
reconnaître aussi dans certains processus textométrique des principes
herméneutiques traditionnels, comme celui des « passages parallèles »
(Bourion 2001 : 116, Pincemin 2006).
5. La Sémantique interprétative :
L’analyse textométrique procède également d’une démarche
construite : on ne peut pas fournir un corpus, « faire tourner » le logiciel, et
récupérer le résultat comme produit fini. Chaque étape suppose des choix et
implique l’utilisateur, et bien souvent la dynamique de l’interprétation
4/15
procède par ajustement progressif des données et des calculs : on retrouve très
concrètement l’interprétation comme action et comme geste qui affine
dynamiquement sa trajectoire.
5.1. Les logiciels les plus utilisés dans le domaine des statistiques
textuelles :
Il existe un grand nombre de logiciels qui permettent d’analyser un corpus

de textes mais il faut distinguer les logiciels à proprement dit de statistique textuelle
des logiciels d’aide à l’exploration de textes. Les premiers considèrent les textes
comme des variables de nature particulière que l’on peut traiter par des méthodes de
statistique exploratoire classiques (Spad, Alceste, Lexico, etc.) ; les seconds
(Sphinx, Nvivo, etc.) supposent l’élaboration a priori par le chercheur d’une grille
d’analyse qui peut être enrichie et modifiée par une relecture assistée du corpus
grâce à des outils d’aide à la lecture, ces logiciels ne proposent aucune analyse
statistique.
5.2. Choisir les méthodes à utiliser :
Deux types d’analyse des données sont utilisés dans le cadre de la

statistique textuelle : les méthodes factorielles (Analyse Factorielle des
Correspondances, Analyse des Correspondances Multiples, etc.) qui mettent
en évidence les principales structurations du corpus selon des axes factoriels,
et les techniques de classification automatique destinées à « mettre en
évidence une dimension d’organisation du corpus de textes » selon une
partition des unités textuelles (Reinert, 1983).
5.2.1. Les méthodes factorielles :
Effectuer une Analyse Factorielle des Correspondances (AFC) sur le
Tableau Lexical Entier permet de structurer l’ensemble des « mots » en
fonction de leur répartition dans les unités textuelles. La représentation des
résultats sous forme de graphiques appelés plans factoriels permet de
visualiser la proximité des mots, les oppositions, les tendances, impossibles à
5/15
discerner directement sur un grand tableau lexical (Escofier et Pagès, 2008).
Deux mots seront d’autant plus proches sur un plan factoriel que leurs
contextes d’utilisation se ressemblent et d’autant plus éloignés qu’ils seront
rarement utilisés ensemble (Figure 1). Les cooccurrences de mots ainsi mises
en évidence permettront au lecteur de repérer des thèmes et de visualiser des
oppositions entre thèmes. On observe à la lecture de la figure que l’on peut
quasiment reconstituer des réponses : « le milieu dans lequel je vis », «
l’endroit où j’habite », « tout ce qu’il y autour de moi », etc.
Figure 1 − Exemple de plan factoriel issu d’une Analyse Factorielle sur le
Tableau Lexical Entier associé au corpus « Environnement » (logiciel Spad)
Interprétation possible : On observe sur le graphique une proximité entre les

différentes composantes de la nature qui sont souvent citées dans les réponses sous forme
d’énumération (jardins, champs, fleurs, etc.). L’opposition la plus marquée (axe 1) apparaît
entre les réponses des personnes qui évoquent un environnement construit autour de la
nature, des jardins, de la montagne, de la mer, associé à un ensemble de sensations pur,
6/15
calme, beauté, tranquillité, libre, et celles dont la conception de l’environnement se limite à
une proximité immédiate, l’autour (Guérin-Pace et Collomb, 1998).
5.2.2. Méthodes des classifications hiérarchiques :
Les méthodes de classification hiérarchique permettent d’obtenir à partir

d’un ensemble d’éléments décrits par des variables une hiérarchie de classes
partiellement emboitées les unes dans les autres (Lebart et Salem, 1994).
Appliquées à un corpus de textes, ces méthodes permettent de représenter des
proximités entre les éléments d’un Tableau Lexical Entier (lignes ou colonnes), par
des regroupements en classes.
Figure 5 − Exemple d’arbre issu d’une Classification Descendante Hiérarchique sur
le corpus « Environnement » (logiciel Alceste)
7/15
Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992) Note : Le
libellé des classes résulte de l’interprétation du chercheur. Le chiffre entre parenthèses
indique le nombre de réponses contenues dans la classe.
Interprétation possible : En effectuant une classification (CDH) sur le

corpus « environnement », on obtient une partition en huit classes aux
effectifs comparables. Au niveau le plus agrégé de l’arborescence, deux
grands regroupements se trouvent constitués. Ils correspondent à deux
approches fondamentalement différentes de la notion d’environnement. L’une
de ces approches relève d’une définition et aborde l’environnement selon un
mode cognitif ou sémiotique, l’autre peut être considérée comme une
construction plus symbolique ou imaginaire. On a choisi d’intituler «
iconographie de la nature » la classe 2 qui regroupe un ensemble de
composantes de la nature. On relève principalement les termes arbre (124),
campagne (67), animal (59), maison (57), bois (55), oiseau (54), forêt (54),
8/15
fleur (51), mer (46), jardin (42), montagne (38), champ (28), rivière (16),
soleil (15), etc. (Guérin-Pace et Collomb, 1998).
5.2.3. Les aides à l’interprétation
Pour interpréter la proximité entre deux formes (mots) sur un plan factoriel (Figure 2), il
est utile de regarder leur contexte respectif d’utilisation. De même, on peut interpréter plus
finement les proximités graphiques entre les mots et les caractéristiques individuelles en
recourant au calcul du vocabulaire spécifique pour une caractéristique donnée de la
population.
a). Les contextes d’utilisation des mots
Intitulée aussi concordance, elle consiste à restituer les parties de textes dans lesquelles un
mot donné est utilisé. À titre d’exemple, observer l’emploi respectif des formes équilibre et
naturel qui se situent à proximité l’une de l’autre sur la figure 3.
Figure 3 − Extrait du contexte d’utilisation des mots équilibre et naturel dans le corpus «
Environnement » (logiciel Spad)
b).Les spécificités lexicales
Il s’agit ici de repérer des différenciations d’utilisation de vocabulaire

entre différentes partitions du corpus. Concrètement, le corpus est découpé
selon les modalités d’une variable que l’on choisit (exemple : âge, diplôme,
etc.). Le vocabulaire de chacun des sous-corpus ainsi formé est comparé au
9/15
vocabulaire d’ensemble afin de repérer les mots éventuellement sur ou sous
représentés.
L’ensemble des méthodes que nous venons d’exposer permet de faire
émerger le contenu d’un corpus de textes, sans a priori sur celui-ci, à partir
d’univers lexicaux ou de thèmes qui sont identifiés au moyen d’analyses
statistiques. Les représentations graphiques (plans factoriels, arbre de
classification) mettent en évidence des oppositions et des hiérarchies entre les
thèmes.
Bibliographie :
• Guérin-Pace France. « La statistique textuelle ». Un outil exploratoire
en sciences sociales. In : Population, 52ᵉ année, n°4, 1997. pp. 865-
887;,
• Bénédicte GARNIER, France GUÉRIN-PACE. « Appliquer les
méthodes de la statistique textuelle». Paris 2010, les collections de
CEPED ;
• Bénédicte Pincemin, « Sémantique interprétative et textométrie » –

Version abrégée, p. 259-269,
Webographie :
 https : //fr.wikipedia.org/wiki/Analyse_de_donn%C3%A9es_textuelles,
consulté le 19/01/2023
10/15

Statistique Txtuelle

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique Txtuelle

Transféré par

Droits d'auteur :

Formats disponibles

1.

L'analyse de données textuelles (ou ADT) est une approche des

L'analyse de données textuelles, inspirée par la linguistique

On rappelle une expérience initiale révélatrice des apports de la

 Un calcul de cooccurrence tel que celui implémenté par la

3. Rapport de la textométrie avec le sémantisme des textes :

Le corpus de textes à traiter peut être par exemple un ensemble de

La collection de textes à analyser peut aussi se présenter sous la forme

La sémantique interprétative s’intéresse au sens. Selon elle, le sens

La textométrie est en mesure de prendre en compte des descriptions

Le souci de fidélité au texte s’est également vivement exprimé dans le

4.1. La place centrale des textes à toutes les étapes de l’analyse

Dans les termes de la sémantique interprétative, l’objet empirique de la

4.2. La contextualisation comme principe de l’analyse et le rôle

En outillant une lecture non linéaire (par l’extraction de contextes, la

Il existe un grand nombre de logiciels qui permettent d’analyser un corpus

Deux types d’analyse des données sont utilisés dans le cadre de la

Interprétation possible : On observe sur le graphique une proximité entre les

5.2.2. Méthodes des classifications hiérarchiques :

Les méthodes de classification hiérarchique permettent d’obtenir à partir

Interprétation possible : En effectuant une classification (CDH) sur le

a). Les contextes d’utilisation des mots

b).Les spécificités lexicales

Il s’agit ici de repérer des différenciations d’utilisation de vocabulaire

• Bénédicte Pincemin, « Sémantique interprétative et textométrie » –

Vous aimerez peut-être aussi