Académique Documents
Professionnel Documents
Culture Documents
La statistique textuelle :
1/15
L’intérêt majeur des méthodes de la statistique textuelle est de traiter
les textes tels qu’ils ont été écrits ou recueillis sans intervenir pour les
modifier. En effet, le recours à une post-codification dans le cas de réponses à
des questions ouvertes a pour inconvénient de simplifier et parfois de
déformer les réponses par la médiation du chiffreur ou l’interprétation du
chercheur. Ainsi, ce sont des textes sous leur forme brute que l’on va tenter de
saisir et d’analyser à travers le sens des mots et les formes des phrases qui les
structurent. La statistique textuelle permet d’objectiver et de synthétiser ces
informations qualitatives pour faire émerger une représentation commune et
diverse à la fois.
4. La textométrie :
2/15
(Geoffroy, Lafon & Tournier 1974). La sémantique interprétative partage
cette sensibilité à ne pas écraser ces distinctions, comme le montre l’étude de
Bourion (2001 : 62) sur « au pied de » vs « aux pieds de » dans un corpus
littéraire.
La textométrie compte, situe, caractérise, des unités dans et par des contextes.
Or justement « la compréhension du texte […] procède par contextualisation
3/15
et intertextualisation » (Rastier 2001 : 93). Cela se déploie à tous les paliers,
se reformulant en autant de principes (Rastier 2001 : 92) :
a) le principe de contextualité (« deux signes ou deux passages d’un
même texte mis côte à côte sélectionnent réciproquement des éléments
de signification (sèmes) […] »…).
b) le principe d’intertextualité (analogue pour deux passages de textes
différents).
c) le principe d’architextualité, selon lequel tout texte plongé dans un
corpus en reçoit des déterminations sémantiques, et modifie
potentiellement le sens de chacun des textes qui le composent.
5. La Sémantique interprétative :
L’analyse textométrique procède également d’une démarche
construite : on ne peut pas fournir un corpus, « faire tourner » le logiciel, et
récupérer le résultat comme produit fini. Chaque étape suppose des choix et
implique l’utilisateur, et bien souvent la dynamique de l’interprétation
4/15
procède par ajustement progressif des données et des calculs : on retrouve très
concrètement l’interprétation comme action et comme geste qui affine
dynamiquement sa trajectoire.
5.1. Les logiciels les plus utilisés dans le domaine des statistiques
textuelles :
5/15
discerner directement sur un grand tableau lexical (Escofier et Pagès, 2008).
Deux mots seront d’autant plus proches sur un plan factoriel que leurs
contextes d’utilisation se ressemblent et d’autant plus éloignés qu’ils seront
rarement utilisés ensemble (Figure 1). Les cooccurrences de mots ainsi mises
en évidence permettront au lecteur de repérer des thèmes et de visualiser des
oppositions entre thèmes. On observe à la lecture de la figure que l’on peut
quasiment reconstituer des réponses : « le milieu dans lequel je vis », «
l’endroit où j’habite », « tout ce qu’il y autour de moi », etc.
Figure 1 − Exemple de plan factoriel issu d’une Analyse Factorielle sur le
Tableau Lexical Entier associé au corpus « Environnement » (logiciel Spad)
6/15
calme, beauté, tranquillité, libre, et celles dont la conception de l’environnement se limite à
une proximité immédiate, l’autour (Guérin-Pace et Collomb, 1998).
7/15
Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992) Note : Le
libellé des classes résulte de l’interprétation du chercheur. Le chiffre entre parenthèses
indique le nombre de réponses contenues dans la classe.
Pour interpréter la proximité entre deux formes (mots) sur un plan factoriel (Figure 2), il
est utile de regarder leur contexte respectif d’utilisation. De même, on peut interpréter plus
finement les proximités graphiques entre les mots et les caractéristiques individuelles en
recourant au calcul du vocabulaire spécifique pour une caractéristique donnée de la
population.
Intitulée aussi concordance, elle consiste à restituer les parties de textes dans lesquelles un
mot donné est utilisé. À titre d’exemple, observer l’emploi respectif des formes équilibre et
naturel qui se situent à proximité l’une de l’autre sur la figure 3.
Figure 3 − Extrait du contexte d’utilisation des mots équilibre et naturel dans le corpus «
Environnement » (logiciel Spad)
9/15
vocabulaire d’ensemble afin de repérer les mots éventuellement sur ou sous
représentés.
L’ensemble des méthodes que nous venons d’exposer permet de faire
émerger le contenu d’un corpus de textes, sans a priori sur celui-ci, à partir
d’univers lexicaux ou de thèmes qui sont identifiés au moyen d’analyses
statistiques. Les représentations graphiques (plans factoriels, arbre de
classification) mettent en évidence des oppositions et des hiérarchies entre les
thèmes.
Bibliographie :
• Guérin-Pace France. « La statistique textuelle ». Un outil exploratoire
en sciences sociales. In : Population, 52ᵉ année, n°4, 1997. pp. 865-
887;,
• Bénédicte GARNIER, France GUÉRIN-PACE. « Appliquer les
méthodes de la statistique textuelle». Paris 2010, les collections de
CEPED ;
Webographie :
https : //fr.wikipedia.org/wiki/Analyse_de_donn%C3%A9es_textuelles,
consulté le 19/01/2023
10/15