Académique Documents
Professionnel Documents
Culture Documents
Exemple :
Une forme verbale est réduite en Infinitif mangerai → manger
Un substantif pluriel est réduit en Singulier chevaux → cheval
Un adjectif au féminin est réduit en Masculin bleues → bleu
Une forme élidée est réduite sans élision l’ → le
* Le Chi2 ou Chi-deux ou χ2 de Karl Pearson est utilisé pour tester l’indépendance des lignes et
des colonnes du tableau, on parle aussi de la métrique ou de la distance du Chi2.
© IMAGE
3 © IMAGE
4
DÉCOMPOSITION DE LA CLASSIFICATION DU TABLEAU INITIAL L’Analyse Factorielle des Correspondances (A.F.C.)
Après la reconnaissance des formes et le découpage en unités de contexte du corpus,
J.P. Benzécri, le créateur de cette méthode d’analyse des données, écrivait il
Alceste constitue un tableau à double entrée : en ligne on représente les unités de contexte
y a plus de 20 ans : « C’est principalement en vue de l’étude des langues que
U.Cj, et en colonne les formes ou les mots analysés Formei. Ci-dessous ce tableau :
nous nous sommes engagés dans l’analyse factorielle des correspondances»
[A.D/tome 2/p 327] ou encore :« L’analyse des correspondances a été
Forme Forme .........Formei..................Formep initialement proposée comme une méthode inductive d’analyse des
1 2
données linguistiques » [Histoire et Préhistoire de l’Analyse des Données].
U.C.
1
U.C. .2 1 si la forme est présente dans U.C.
......... Cette méthode est utilisée pour décrire à l’aide de quelques facteurs la
U.C..
δij δij =
structure d’un tableau de cooccurrences. Les tableaux soumis à l’A.F.C.
j 0 si la forme est absente dans U.C.
......... dans Alceste croisent le vocabulaire retenu avec des classes d’U.C.E. Notre
U.C.
n
objectif est de donner une représentation spatiale schématique des relations
entre classes.
Ce tableau (I x J) destiné à la classification est un tableau binaire de présence-absence.
Le tableau est partitionné ensuite en deux parties distinctes suivant les lignes comme
La Classification Ascendante Hiérarchique (C.A.H.)
l’indique le schéma ci-dessous :
Cette technique n’est utilisée dans la méthodologie Alceste qu’en deux
occasions:
( I1 x J ) a) en complément à une aide à la représentation des liens entre classes;
I1 et I2 : les deux parties de I
b) pour présenter des relations locales entre formes d’une même classe.
J : l’ensemble des formes analysées.
( I2 x J ) Pour le détail de cette procédure nous renvoyons à la bibliographie. Le
tableau de départ est toujours un tableau de présence-absence. L’objectif
est de représenter par un arbre des relations entre les profils colonnes de
A partir de cette partition, on crée deux sous ensemble J1 et J2 des formes de ce tableau. Pour cela, les colonnes sont représentées par des points dans
telle sorte que les tableaux (I1 x J1) et (I2 x J2) aient la plus forte densité de «1». un espace particulier. Un tableau de distances est calculé entre points.
On obtient alors le schéma suivant : On agrège ensuite à chaque pas les deux points les plus voisins en les
remplaçant par un point moyen. On procède ainsi jusqu’à ne plus avoir
qu’un seul point résultant. Le critère de distance utilisé est ici l’inertie intra-
( I1 x J1 ) classe calculée avec la métrique du Chi-deux, la classification ainsi obtenue
forte densité en «1»
≈0 est représentée par un arbre hiérarchique appelé dendrogramme de la
classification ascendante (voir exemple détaillé page 14).
( I2 x J2 )
≈0 forte densité en «1»
A l’étape suivante, l’analyse portera sur le plus grand des sous-tableaux (en nombre de
lignes). Dans ce cas, on travaillera sur les tableaux (I1 x J1) ou (I2 x J2), ainsi de suite
jusqu’à l’obtention d’un nombre de classes terminales prédéfini à l’avance, par défaut 10
classes; l’utilisateur peut modifier ce paramètre en fonction de la nature de son corpus.
© IMAGE
5 6
© IMAGE
PRESENTATION DES DIFFERENTES ETAPES DEUXIEME PARTIE : ALCESTE PAR L’EXEMPLE
Une fois l’analyse achevée, Alceste vous propose une large palette de fichiers
Introduction
résultats. Certains sont purement techniques et d’autres ne vous intéresseront
que si vous voulez modifier les conditions de l’analyse. Une analyse comporte
quatre grandes étapes : Nous avons évoqué dans la première partie les fondements et
l’originalité de la méthodologie Alceste, qui est basée sur la manière
• L’étape A : durant cette étape Alceste reconnaît les unités de contexte de découper les unités de contexte et leur classification descendante
initiales (U.C.I.) que vous avez vous-même définies, ainsi que les mots étoilés. hiérarchique. C’est cette méthodologie qui fait d’Alceste un logiciel
pertinent d’analyse et d’aide à l’interprétation des données textuelles.
Différents dictionnaires permettent d’identifier les locutions, les mots outils et
d’effectuer une lemmatisation des formes textuelles identifiées.
Le logiciel Alceste trouve ses applications en de multiples domaines :
Cette étape établit un dictionnaire du vocabulaire de votre corpus, puis Traitements d’enquêtes, Sociologie, Psychologie, Conseils en Marketing,
un dictionnaire des «formes réduites». Par exemple elle va rassembler les Publicité, Analyse de discours, Journalisme, Analyse de Presse, Histoire,
formes «cache», «cachées», «cachaient», sous le même radical «cach+er» Droit, Médecine, Recherche Documentaire, etc.
dont la fréquence sera prise en compte.
On peut citer de nombreux exemples de traitements, parmi lesquels des
• L’étape B : durant cette étape Alceste découpe le corpus en unités de
analyses d’interviews, de réponses à des questions ouvertes, de débats
contexte et effectue leur classification en fonction de la distribution du
télévisés lors des élections présidentielles, de récits d’enfants, de rêves, de
vocabulaire.
récits de cauchemars, d’analyse de textes techniques, de comptes-rendus,
Cette étape est essentielle puisque c’est sur ces classes, caractérisées par de pannes et de messages techniques en informatique, de messageries, de
leur vocabulaire dominant, que va s’appuyer votre interprétation. forums de discussion sur internet, de diagnostics médicaux, des analyses et
synthèses d’oeuvres littéraires, de poésies, de pièces de théâtre, de textes
• L’étape C : cette étape fournit les principaux fichiers résultats. On y trouve philosophiques, etc.
les différentes classes retenues, leur dépendance mutuelle, le vocabulaire
dominant, les mots étoilés et les mots outils caractéristiques de chacune des Alceste traite donc tout type de texte, saisi à l’aide d’un traitement de texte,
classes. C’est sur ces éléments que vous baserez votre interprétation. d’un scanner ou par reconnaissance vocale, et dans différentes langues.
• Enfin l’étape D : après l’obtention définitive de la classification, cette étape La deuxième partie de ce fascicule présente à l’aide d’un exemple les
effectue des calculs complémentaires sur chacune des classes, comme fonctionnalités et la puissance du logiciel Alceste.
la liste des unités de contexte élémentaires, la classification ascendante, les
segments répétés, le calcul de concordances, etc.
Comme exemple d’application, nous avons choisi l’extrait d’une enquête
menée auprès d’adolescents toulousains.
• Un module de consultation ergonomique et convivial, permet de décrire
l’ensemble des fichiers et les graphiques comme les arbres de classifications
Le corpus est formé de 61 réponses à la question « Quels sont vos projets
descendantes et ascendantes, l’Analyse Factorielle des Correspondances,
d’avenir dans le domaine professionnel, familial ou autre ? ».
la cartographie du texte, les représentations en secteurs des variables, etc.
F
© IMAGE
7 © IMAGE
8
Voici un extrait de ce jeu de données: Voici le premier écran dit écran de synthèse regroupant les trois classes d’énoncés retenues :
9 © IMAGE
10
© IMAGE
de naviguer et de consulter en détail l’ensemble des résultats : dans l’élaboration d’un projet d’avenir, ci-dessous un extrait des U.C.E. de cette classe :
Figure n°2
Comme on l’observe, cet écran se décompose en fenêtres indépendantes Figure n°3
et autonomes. Chaque fenêtre représente un résultat important. Ces U.C.E. sont numérotées suivant l’ordre du texte, ce qui permet de
On peut passer d’une classe à l’autre à l’aide des boutons situés en bas de l’écran. localiser leur emplacement d’origine dans le corpus. On lit également pour
On observe dans la fenêtre de classification descendante (figure n°1) que la classe chaque U.C.E. sa valeur de Chi2 d’association dans la classe. Plus la valeur
n°2 est la première à être dissociée. Cette classe est plutôt issue de garçons du Chi2 est grande, plus le lien est fort.
appartenant à une association de quartier, car l’on trouve les deux modalités
de variables, à savoir sexe masculin et membre d’une association (*sexe_m, Nous retrouvons les termes ˝métier˝, ˝réaliser˝ , ˝projet˝ dans les U.C.E.
*assoc_oui) dans les présences significatives. Le discours de cette classe est n°111 et 87 avec les Chi2 d’association les plus forts, ce qui confirme leur
centré autour de termes tels que ˝formation˝,˝technique˝, ˝examen˝,˝continuer˝, ce appartenance à la classe n°3.
qui évoque l’avenir scolaire et professionnel des jeunes.
S’oppose à la classe n°2, la classe n°1 qui elle aussi est issue de garçons mais Pour visualiser et afficher la totalité des formes caractéristiques (présences
qui ne font pas partie d’une association. Les termes que l’on y trouve sont totalement significatives) d’une classe, il suffit de cliquer sur le bouton correspondant
différents de ceux de la classe n°2. Le vocabulaire est axé autour des mots
dans la barre d’outils :
˝maison˝,˝voiture˝,˝belle˝,˝femme˝, dans un monde imaginaire, voire publicitaire.
La classe n°3 , quant à elle, est une classe féminine, dont le discours caractéristique
est formé des termes ˝métier˝, ˝réaliser˝ , ˝projet˝. En observant les énoncés
spécifiques de la classe on comprend que ces mots évoquent les difficultés
© IMAGE
11 © IMAGE
12
Voici par exemple les formes significatives associées à la classe n°1 : De même, en cliquant sur , on obtient la classification ascendante par classe :
Pour chaque forme on obtient son Chi2 d’association ainsi que son La classification ascendante par classe nous permet de mettre en évidence
effectif dans la classe, son effectif total, sa catégorie grammaticale et des groupes de mots suivant leur distance de proximité.
son concordancier.
Comme l’indique la figure ci-dessus pour la classe n°1, on a positionné la
Vous observez sur cet écran le concordancier du mot «belle», c’est-à- réglette à un niveau de coupure donné, afin de mettre en évidence des
dire les unités textuelles qui contiennent le mot belle. paquets de mots agrégés comme : (belle-femme), (maison-voiture-marier),
(monde-devenir). En cliquant sur chacune des branches on obtiendra une
Remarque : concordance multiple des mots formant la branche.
En ce qui concerne les catégories grammaticales, si une classe est marquée Voici quelques concordonciers pour la branche de l’arbre formée des mots
par des adjectifs son discours sera plutôt descriptif. De même, la présence belle et femme : Mes projets seraient d’avoir une belle maison , une femme,
significative de marqueurs de temps, de lieux et d’espace donnera des un enfant. Je compte me marier avec une femme brune qui aura de beaux
indications importantes pour l’interprétation des résultats. yeux, et belle physiquement , je veux avoir une belle voiture de sport, une
femme et un enfant minimum, etc.
© IMAGE
13 © IMAGE
14
Voici le module d’Analyse Factorielle des Correspondances : Dans un cas où l’on a 3 axes, on obtiendra le graphique suivant :
Figure n°8
Figure n°7 Ce module nous permet de visualiser les relations entre les classes dans un
espace en trois dimensions, par des représentations en corrélations, contri-
Le module d’Analyse Factorielle des Correspondances nous donne les butions et coordonnées. Les possibilités de zoom, de rotation du graphique,
représentations en corrélations, contributions et coordonnées des classes, de modification des axes de projection ou des options de visualisation des
des individus et des formes. En cliquant sur un point, on affichera le mot classes font de ce module un outil indispensable pour l’aide à l’interprétation.
associé. On peut également filtrer les formes en fonction de leur effectif, de
leur Chi2 (χ2) d’association à la classe, modifier les axes factoriels pour les
projections, etc.
L’Analyse Factorielle des Correspondances confirme la forte opposition
entre le discours de la classe n°1 et celui de la classe n°2, on constate
ainsi l’impact que pourraient avoir les associations sur le comportement des
jeunes. La classe n°3 est proche du centre d’inertie, d’où un discours peu
marqué.
Par ailleurs, un module 3D permet de visualiser les graphiques d’A.F.C., bien
sûr lorsque le nombre d’axes est supérieur ou égal à 3.
© IMAGE
15 © IMAGE
16
Le module statistique nous présente l’écran ci-dessous : Voici le dictionnaire des formes complètes :
17 18
© IMAGE
© IMAGE
L’écran de paramétrage simplifié se présente de la manière suivante : BIBLIOGRAPHIE
Achard Pierre, La sociologie du langage, Que sais-je ? P.U.F., Paris, 1993
Benzécri Jean-Paul, Histoire et préhistoire de l’Analyse des Données, DUNOD, 1982
Benzécri Jean-Paul, L’Analyse des Données (tome 1 et 2), DUNOD, Paris, 1973.
Benzécri Jean-Paul, Pratique de l’Analyse des Données : linguistique et lexicologie, DUNOD, Paris, 1981
Blanchet Alain & col, Recherches sur le langage en psychologie clinique, Dunod, 1997
Bolasco Sergio, Vers une interprétation sémiotique de l’analyse des données,
METRON, 1982, vol XL, n° 1-2, p 93-102
Bourdieu, P., Ce que parler veut dire, Fayard, 1982
Lacan J., Encore ; Le séminaire : livre 20, Editions du Seuil, 1975
Lafon Pierre, Salem André , L’inventaire des segments répétés d’un texte, Mots, 1983, 6,161-177.
Lebart Ludovic, Les questions ouvertes, outils de contrôle, d’évaluation, de valorisation, Les
langages du politique, Mots, 1990, 23,76-91
Lebart Ludovic, Salem André, statistiques textuelles, DUNOD, Paris, 1994.
Looze (de) M.-A., Roy A., Coronni R., Reinert M., Jouve O., Two measures
for identifying the perception of risk associated with the introduction of transgenic
plants, Scientometrics, , Elsevier Science, 1999, vol 44, n° 3, 401-426.
Reinert Max,1983, Une méthode de classification descendante hiérarchique : Application
à l’analyse lexicale par contexte. Cahiers de l’Analyse des Données, 1983, 3,187-198.
Reinert Max,1986, Classification descendante hiérarchique: un algorithme
pour le traitement des tableaux logiques de grandes dimensions, in E. Diday &
coll. (Eds.), Data analysis and informatics, Elsevier Science,1986, p. 23-28
Reinert Max,1986, Présentation du logiciel ALCESTE à l’aide d’un exemple.
Psychologie et Education, 1986- X (2), 58-73.
Reinert Max,1987, Classification descendante hiérarchique et analyse
lexicale par contexte: application au corpus des poésies d’A. Rimbaud. Bull.
Figure n°11 de Méthodo. Sociol., 1987, 13, 53-90.
Reinert Max,1987, Un logiciel d’analyse lexicale (ALCESTE). Cahiers Analyse des Données, 1987, 4, 471-484.
Vous observez que les 4 étapes de calcul sont cochées, ainsi que les valeurs des Reinert Max,1990, Une méthode de classification des énoncés d’un corpus
différents types d’analyse, ces valeurs pouvant être modifiées suivant le besoin de présentée à l’aide d’une application, Cahiers Analyse des Données, 1990, 1, 21-36.
l’utilisateur. Par exemple, un utilisateur peut ne pas faire une classification double et Reinert Max,1991, une analyse informatique d’un corpus de 44 poèmes d’A. Rimbaud, in G.
lancer une classification simple, dans le but de traiter des réponses aux questions Maurand, Poésie et Modernité, Colloques d’Albi Langages & Signification, 1991, p 303-325 .
ouvertes, ou désactiver une lemmatisation, etc. Reinert Max,1993, Les mondes lexicaux et leur logique à travers l’analyse statistique
d’un corpus de récits de cauchemars, Langage et Société, 1993, 66, 5-39
Le paramétrage expert est représenté dans un écran muni de petites cases contenant les Reinert Max,1993, Quelques problèmes méthodologiques posés par
différentes valeurs des paramètres : c’est une approche intelligente et d’une grande transparence l’analyse de tableaux «Enoncés x Vocabulaire», in Bécue, Lebart, Rajadell
qui permet à l’utilisateur de modifier à tout moment une ou plusieurs valeurs données dans (Eds), JADT 1993 (Journées Internationales d’Analyse des Données
ce tableau, puis de relancer l’analyse pour aller encore plus loin dans l’interprétation. Textuelles), Montpellier, Telecom Paris 93 S 003, 1993, p 539-549
Pour faire un tri-croisé sous Alceste, il suffit de croiser les modalités d’une variable avec le Reinert Max,1994, L’approche des mondes lexicaux dans «AURELIA» de G. de
Nerval, in Martin, E., Les Textes et L’informatique, Didier Erudition, 1994, 145-175
corpus, afin d’obtenir des classes propres à chaque modalité, ou alors de croiser un mot Reinert Max,1995, Quelques aspects du choix des unités d’analyse et de leur
avec le texte, afin de scinder le texte en partie contenant le mot et partie ne le contenant pas. contrôle dans la méthode «Alceste», in Bolasco, Lebart, Salem (Eds), Analisi
Enfin Alceste est le logiciel d’Analyse de données textuelles pouvant travailler en Statistica dei Dati Testali (JADT 1995), CISU, Roma, 1993, p. 27-34
différentes langues (Français, Anglais, Allemand, Italien, Portugais, Espagnol), grâce Reinert Max,1997, Les «Mondes lexicaux» des six numéros de la revue «Le
à ses dictionnaires de langue. Il suffit alors de sélectionner un dictionnaire donné pour Surréalisme au Service de la Révolution» , Mélusine N° XVI, Editions L’Age
d’Homme, Lausanne, 1997, p 270-302.
pouvoir analyser dans cette langue. Ces dictionnaires restent ouverts, l’utilisateur peut
Salem André, Pratique des segments répétés , klincksieck, Paris, 1987.
les modifier ou les enrichir à sa volonté. De même, de nombreux autres modules de
traitement existent sous Alceste, que nous ne pouvons pas tous détailler dans un
document aussi synthétique.
© IMAGE
19 © IMAGE
20