Vous êtes sur la page 1sur 13

Lanalyse de similitude applique aux corpus textuels:

les primaires socialistes


pour llection prsidentielle franaise
(septembre-octobre 2011)
Pascal Marchand1, Pierre Ratinaud2
1

Universit de Toulouse pascal.marchand@iut-tlse3.fr


2
Universit de Toulouse ratinaud@univ-tlse2.fr

Abstract
The analysis of similarity (ADS) is a technique based on graph theory, conventionally used to describe the social
representations using survey questionnaires. We integrated the analysis of similarity of a textual matrix to the
software Iramuteq (P.Ratinaud).
The results can show, in a single graph, both common elements (usually absent of specific research, analysis of
lexical correspondences or classifications), and the varying elements of variables related to the corpus.
The corpus analyzed here as an example is the discussion of socialist primary for the presidential election of 2012.

Rsum
Lanalyse de similitude (ADS) est une technique, reposant sur la thorie des graphes, classiquement utilise
pour dcrire des reprsentations sociales, sur la base de questionnaires denqute. Nous avons intgr au logiciel
Iramuteq (P.Ratinaud) lanalyse de similitude dune matrice textuelle.
Les analyses permettent de montrer, en un seul graphique, la fois les lments communs (gnralement absents
des recherches de spcificits, analyses des correspondances ou classifications lexicales), mais galement les
lments diffrentis en fonction de variables lies au corpus.
Le corpus analys ici titre dexemple est constitu des dbats des primaires socialistes pour llection prsidentielle
de 2012.

Mots-cls: Analyse de similitude; Discours politique; Iramuteq.

1. Introduction
On a parfois limpression, aprs une analyse lexicomtrique, que le monde lexical est bien
partag et que nos variables dlimitent des territoires lexicaux bien tracs. Cette impression
vient surtout du fait que le tableau lexical est, le plus souvent, partitionn selon des hypothses
plus ou moins clairement explicites. La recherche de spcificits lexicales, lanalyse des
correspondances, voire mme la CDH (avec lattention apporte aux lments illustratifs),
accentuent alors les diffrences et minimisent les ressemblances entre les colonnes du tableau.
Nous montrerons que lanalyse de similitude (ADS) permet de reprsenter graphiquement la

688

Pascal Marchand, Pierre Ratinaud

structure dun corpus, en distinguant galement les parties communes et les spcificits des
variables codes.
Nous proposerons de lillustrer sur le corpus des primaires socialistes , qui ont pos
dintressantes questions danalyse: les candidats devaient se diffrencier les uns des autres
tout en prservant lunit du parti quils seraient amens dfendre ensemble.
Les questions que nous pouvons nous poser sont les suivantes:
Quels sont les mots, les phrases et les relations lexicales qui peuvent caractriser chacun des
dbatteurs?
Les trois dbats ont-ils t quivalents?
- Chacun des candidats a-t-il t constant dans les trois dbats ou peut-on observer des
changements ou des volutions?

2. Principes gnraux de lanalyse de similitude (ADS)


LADS est une technique, reposant sur la thorie des graphes, classiquement utilise pour
dcrire des reprsentations sociales, sur la base de questionnaires denqute (Flament, 1962;
Flament, 1981; Vergs & Bouriche, 2001).
Lobjectif de lADS est dtudier la proximit et les relations entre les lments dun ensemble,
sous forme darbres maximum: le nombre de liens entre deux items voluant comme le carr
du nombre de sommets (Flament & Rouquette, 2003: 88), lADS cherche rduire le nombre
de ces liens pour aboutir un graphe connexe et sans cycle (Degenne & Vergs, 1973: 473).
Les bases thoriques de cette technique sont rsumes dans un exemple dvelopp par Flament
& Rouquette (2003, o.c.). Dans la figure suivante, le graphique de gauche montre tous les liens
possibles entre chaque item.

Figure 1: Exemple de calcul de larbre maximum (ADS)

A partir de ces liens, on va chercher reprsenter un arbre sans cycle, dit arbre maximum,
cr par les artes les plus fortes du graphique. Cest larbre le plus simple que lon peut obtenir,
mais cest aussi le plus lourd (en termes dinformation). A partir de lexemple prcdent: on
considre la clique ABCA et on limine le lien le plus faible (entre A et C). On considre
ensuite la clique BCDB et on limine le lien le plus faible (entre B et D). Et ainsi de suite
pour toutes les cliques possibles. Le graphique de droite sur la figure1 reprsente larbre
maximum, sans cycle, du graphique de similitude de gauche.

Lanalyse de similitude applique aux corpus textuels

689

Lanalyse de similitude dune matrice textuelle a t intgre au logiciel IRaMuTeQ (dvelopp


par Pierre Ratinaud) et permet de dcrire des classes lexicales, des profils de spcificits ou
mme des corpus entiers.

3. Le corpus
Les primaires socialistes pour llection prsidentielle franaise de 2012 se sont droules en
deux tours. Au premier tour saffrontaient six candidats: Martine Aubry, Jean-Michel Baylet,
Franois Hollande, Arnaud Montebourg, Sgolne Royal et Manuel Valls. Trois dbats ont
dabord t organiss et diffuss sur des chanes de radio et de tlvision:
Jeudi 15 septembre 2011 (2h50 sur France 2, Le Monde)
Mercredi 28 septembre 2011 (2h30 sur i-Tl, Europe 1, Le Parisien, LCP-Assemble Nationale)
Mercredi 05 octobre 2011 (2h20 sur BFM, RMC, Le Point, Public Snat).
La retranscription des trois dbats permet de dresser les tableaux suivants:
nombre duci:
295 (tours de parole)
nombre doccurrences:
71913
nombre de formes:
5265
moyenne doccurrences par forme:
18.96
nombre dhapax:
1472 (2.05% des occurrences - 27.96% des formes)
moyenne doccurrences par uci:
243.77
Tableau 1: Caractristiques gnrales (corpus lemmatis)

Le vote du 9 octobre 2011 a permis de dgager les deux finalistes: Martine Aubry et Franois
Hollande se sont affronts le 16 octobre 2011.
Partie
Aubry1
Aubry2
Aubry3
Aubry4
Baylet1
Baylet2
Baylet3
Hollande1
Hollande2
Hollande3
Hollande4
Montebourg1
Montebourg2

occurrences
formes
hapax
4990
817
4956
830
4374
774
10543
1189
4160
750
4036
781
3368
742
4519
807
4096
772
3518
730
9352
1200
3920
844
3821
910

Frq. Max
408
412
382
510
367
407
402
382
373
372
531
449
519

165
187
147
402
198
183
149
180
179
164
439
161
161

Forme
tre
tre
avoir
tre
tre
tre
tre
tre
tre
tre
tre
de
de

690

Pascal Marchand, Pierre Ratinaud

Montebourg3
Royal1
Royal2
Royal3
Valls1
Valls2
Valls3

3592
4093
4048
3034
4483
4146
3640

870
835
856
687
835
826
749

505
436
453
377
416
427
404

154
159
162
108
182
158
142

de
la
de
tre
de
tre
de

Tableau 2: Principales caractristiques lexicomtriques (corpus lemmatis)

Les premiers traitements du corpus suivent rigoureusement la mthode ALCESTE (Reinert,


1983, 1990): reconnaissance et lemmatisation des formes, dcoupage en units de contextes
lmentaires (UCE), et cration de la matrice habituellement soumise une CDH simple sur
UCE.

4. Analyses lexicomtriques classiques


Classiquement, nous avons soumis le corpus des analyses factorielles et classificatoires. Nous
analysons ici le corpus partitionn selon les lignes du Tableau2, cest--dire en croisant les trois
premiers dbats avec les six locuteurs. Le tableau lexical comprend donc 18 colonnes et 1086
lignes (slectionnes sur critre de frquence).

Lanalyse de similitude applique aux corpus textuels

691

4.1. Analyse des correspondances

Figure 2: AFC des formes lexicales pour les trois premiers dbats

Le premier facteur oppose les formes: inventer, imaginer, histoire, nouvelle, unir, vie, banque,
aux formes: priorit, sortir, falloir, recherche, justice, changer
Le deuxime facteur oppose les formes: devoir, soutien, Nicolas Sarkozy, oublier, chec, doute,
droite, tranger, drogue, effort, vrit, candidature, aux formes: aider, an, je, Manuel, tenir,
supprimer, centrale, nuclaire, absolument, bien sr, moi, droit, ressource, smic, prix

692

Pascal Marchand, Pierre Ratinaud

Figure 3: AFC des six locuteurs dans les trois premiers dbats (nj=18)

On observe tout dabord que les locuteurs restent sur des lexiques constants au long des trois
dbats. Les dbats nont donc pas structur le corpus aussi fortement que les dbatteurs. On
montre ensuite quArnaud Montebourg soppose quasiment tous les autres (1er facteur) et
que Manuel Valls et Franois Hollande sopposent Martine Aubry, Jean-Michel Baylet et
Sgolne Royal (2me facteur). On recherche alors les spcificits des six dbatteurs.
4.2. Spcificits (sur les trois premiers dbats)
4.2.1. Martine Aubry
Sp+: on, dire, moi, coter, je, rduire, voil, accord, exemple, profondment, qu, rien, vouloir,
effectivement, oui, tu, achat, allemagne, alors, arrter, augmenter, battre, commencer, croire,
croissance, dfendre, fermer, former, lieu, supprimer, sr, taxe, a

Lanalyse de similitude applique aux corpus textuels

693

Sp-: dans, de, y, un, une, nos, solution, tre, dette, candidat, devoir, difficile, elles, il, entreprise,
plus, voquer, situation.
Uce caractristiques: Et moi, je lai dit, je serai la prsidente du redressement de la France,
redressement conomique mais non, mais je vous ai dit que je ne rpondrai pas
Mais, je le dis, il faudra, moi je lai dit comme une priorit, je vais vous dire que a cote,
il faut environ, il faut rorganiser la police, Manuel a totalement raison, ils font des tches
qui nont rien voir avec ce quon leur demande, cest--dire maintenir la scurit pour les
habitants.
4.2.2. Jean-Michel Baylet
Sp+ : naturellement, commun, radical, quand, parler, mme, quant, cannabis, cela, porter,
concitoyen, que, relancer, voir, europen, principe, sant, je, ils, diffrent, entendre, europe,
nous, regarder, rpublicain, trop, constater, crer, particulier, peu, tre
Sp- : des, pays, qui, faire, exemple, augmenter, enfant, payer, pour, videmment, financier,
cette, notamment
Uce caractristiques: Moi je voudrais quand mme en venir lEurope parce que je vois
que si, je vois que le temps tourne.
Je ne suis pas, encore une fois je ne suis pas pour les mesures coercitives.
4.2.3. Franois Hollande
Sp+ : il, candidat, est_ce, voquer, gnration, 25, jeunesse, y, puis, qui, prendre, violence,
gnraliste, avoir, milliard, prison, 0, 2012, financement, falloir, une, cette, donc, quartier,
rapport, secteur, intervenir, poste, contrat, l, esprance, prsidence, quinquennat, lection, eh,
senior
Sp-: je, cela, vouloir, moi, france, de, la, banque, contre, et, raison, europen, que, relancer,
juste, chose, exemple, accord
Uce caractristiques: Parce que cette jeunesse, qui a des talents, mais qui a aussi des retards,
qui a aussi des discriminations, qui a aussi des violences, eh bien il faut la faire esprer.
Et puis, il y a ce que jai appel le contrat de gnration qui servira aussi.
4.2.4. Arnaud Montebourg
Sp+: approuver, mdicament, financier, argent, vos, distribuer, mondial, banque, dividende,
finalement, face, population, de, 15, systme, ses, dette, maintenant, mesure, contre, europen,
appliquer, le, plan, march, sous, actionnaire, mdecin, train, dans, devenir, s, stratgie
Sp-: moi, falloir, quand, a, juste, mais, dire, on, mme, qu, je, vouloir, videmment, franais,
parler, priorit, justice, sur, retraite, confiance, parce, jeune, l
Uce caractristiques : Nous navons, dans notre pays, nous navons pas de pnurie de
mdecins.
Il ny aurait, je vous le dis, si nous avions mis si les dirigeants qui, aujourdhui, nous ont
prcipit dans cette crise - car cette crise est la consquence de lincomptence de nos

694

Pascal Marchand, Pierre Ratinaud

dirigeants-, si nous avions mis en place ces mesures, nous naurions pas aujourdhui de crise
de la zone euro.
4.2.5. Sgolne Royal
Sp+ : licenciement, cologique, juste, interdiction, inscrire, capital, activit, pourquoi, tat,
peuple, mtier, effet, rgion, chance, rvolution, c_est__dire, 40, accs, ouvrier, bancaire,
des, retraite, 50, dure, et, rentrer, libert, quitable, dvelopper, remettre, entreprise, dcision,
dlinquant, travail, puisque, nation, possible, couter, leur, banque
Sp- : nous, il, falloir, nos, quand, on, parler, gauche, s, mais, videmment, hpital, sarkozy,
nicolas, devoir, manire, aujourd, hui, prsident, avoir, y, notre, mdecin
Uce caractristiques : Quelle dcision ? celle que lon a dj entendue avant la crise de
2008, cest linterdiction des banques et a a doit tre une dcision europenne et mme
internationale, linterdiction des banques de spculer sur la dette des tats cest--dire sur la
misre des peuples.
Et demain je veux que toutes les rgions puissent entrer au capital des entreprises stratgiques.
4.2.6. Manuel Valls
Sp+ : videmment, vrit, ingalit, comptitivit, nos, immigration, uniquement, effort,
gouverner, gauche, nicolas, devoir, soutenir, dbat, sujet, inscurit, notamment, doute,
davantage, mais, sarkozy, notre, l, sur, confiance, demain, police, quilibre, soutien, facile,
un
Sp-: je, vous, payer, quand, on, avoir, milliard, finalement, voir, sr, argent, moi, aider, voil,
an, prendre, dj
Uce caractristiques: Si nous pensons un seul instant que demain il y a une majorit et que
nous pourrons tout faire uniquement sur notre programme et que nous naurons pas entendu
la voix des franais, alors je ne donne pas le cher du temps que nous passerons dans un contrat
de confiance avec les Franais.
Donc, il y a dabord un chec majeur de Nicolas Sarkozy et de la droite sur ce sujet-l.
4.3. ADS des sous-corpus
Lanalyse de similitude est applique chacun des sous-corpus dfinis par les locuteurs, aprs
dcoupage en UCE, et cration de la matrice formes * UCE. Si lon retrouve, sur chacun des
arbres de similitude ci-aprs, les spcificits dfinies ci-dessous pour chaque locuteur, des
formes communes apparaissent galement et avec un critre de centralit (France, franais,
aller)

Lanalyse de similitude applique aux corpus textuels

695

Figure 4: ADS du sous-corpus Aubry

Figure 5: ADS du sous-corpus Baylet

Figure 6: ADS du sous-corpus Hollande

Figure 7: ADS du sous-corpus Montebourg

Figure 8: ADS du sous-corpus Royal

Figure 9: ADS du sous-corpus Valls

696

Pascal Marchand, Pierre Ratinaud

Les mthodes classiques permettent de spcifier les colonnes du tableau lexical et rendent trs
bien compte des diffrences qui sinstaurent entre les six locuteurs, qui structurent davantage le
lexique que les trois situations de dbat. Quant lADS de chacun des sous-corpus de locuteurs,
elle fournit une reprsentation graphique indpendante des calculs factoriels et des spcificits,
mais qui les confirme nanmoins, tout en restituant les usages communs.

5. ADS du corpus global


Aprs segmentation, reconnaissance et lemmatisation des formes, puis partition en UCE, la
matrice du corpus global peut tre reprsente de diverses faons (arbres linaires ou circulaires;
taille des formes proportionnelle la frquence ou la liaison statistique). On reprsente ici
larbre des liaisons lexicales du corpus (calcul de cooccurrence et algorithme de FruchtermanReingold).

Figure 10: Exemple dADS applique au corpus primaires PS

A partir de cette reprsentation, on peut mettre en vidence les spcificits des locuteurs (figure
11: il est possible de colorier les formes lexicales en fonction des locuteurs et la taille de police
est proportionnelle la spcificit) 1.
1

On se reportera la version lectronique pour visualiser les couleurs.

Lanalyse de similitude applique aux corpus textuels

697

Figure 11: Exemple dADS applique au corpus primaires PS (avec spsificits)

6. Conclusions
LADS permet de voir que les diffrences entre les modalits de variables (le plus souvent en
colonnes du tableau lexical) ne sont pas aussi absolues que des mthodes plus classiques
inciteraient parfois le penser. Lintrt de lADS est de rtablir la partie commune, en
reprsentant les relations entre les formes lexicales dans un corpus non partitionn par des
variables exognes, mais uniquement en units de contexte.
On repre alors les diverses thmatiques qui structurent le corpus et on observe que les
spcificits de chaque locuteur ne sont pas toutes regroupes dans le graphe des similitudes du
corpus global. On peut donc en conclure que les locuteurs convergeaient sur les thmatiques
abordes, mais diffraient dans la faon de les aborder.

698

Pascal Marchand, Pierre Ratinaud

7. Epilogue
A lissue du premier dbat, et sur la base de la Figure 3, on pouvait imaginer:
QuArnaud Montebourg prouverait des difficults prendre position pour lun des deux
finalistes;
Que Manuel Valls se rallierait Franois Hollande;
Que Jean-Michel Baylet et Sgolne Royal se rallieraient Martine Aubry.
Seules les deux premires hypothses se sont vrifies, indiquant que la proximit lexicale ne
saurait expliquer toutes les stratgies lectorales.
Si lon introduit, dans le corpus, le dbat du deuxime tour, on observe que les deux finalistes
sont rests dans leur vocabulaire et nont fait aucun mouvement de rapprochement vers les
lexiques des candidats limins.

Figure 12: AFC des six locuteurs dans les quatre dbats (nj=20)

Lanalyse de similitude applique aux corpus textuels

699

Rfrences
Degenne, A., Vergs, P. (1973). Introduction lanalyse de similitude. Revue franaise de sociologie,
14 (4), 471-511.
Flament, C. (1962). Lanalyse de similitude. Cahiers du centre de recherche oprationnelle, 4, 63-97.
Flament, C. (1981). LAnalyse de Similitude, une Technique pour les Recherches sur les Reprsentations
Sociales. Cahiers de Psychologie Cognitive, 1, 375- 395.
Flament, C., Rouquette, M.L. (2003). Anatomie des ides ordinaires: comment tudier les reprsentations
sociales. Paris: Armand Colin.
Ratinaud, P. (2003). Les professeurs et Internet: Contribution la modlisation des penses sociale
et professionnelle par ltude de la reprsentation professionnelle dInternet denseignants du
secondaire. Thse de lUniversit de Toulouse 2 - Le Mirail, dcembre 2003.
Ratinaud, P. (2009). Iramuteq: Interface de R pour les Analyses Multidimensionnelles de Textes et de
Questionnaires. www.iramuteq.org
Reinert, M. (1983). Une mthode de classification descendante hirarchique: application lanalyse
lexicale par contexte. Les cahiers de lanalyse des donnes, VIII (2), 187-198.
Reinert, M. (1990). ALCESTE: Une mthodologie danalyse des donnes textuelles et une application:
Aurlia de Grard de Nerval. Bulletin de mthodologie sociologique, 26, 24-54.
Vergs, P. & Bouriche, B. (2001). Lanalyse des donnes par les graphes de similitude. Sciences
Humaines (en ligne: http://www.scienceshumaines.com/textesInedits/Bouriche.pdf).

Vous aimerez peut-être aussi