Vous êtes sur la page 1sur 78

Les mthodes d'analyse d'enqutes

Philippe Cibois
Professeur mrite de sociologie.
Universit de Versailles St-Quentin en Yvelines
Introduction
La procdure d'enqute est utilise quand, dans un domaine donn, on se
trouve confront une situation d'incertitude quant aux causes d'un tat de chose.
De ce fait on est amen poser des questions, souvent des personnes, pour
inventorier leurs opinions, leurs pratiques, leur situation, leur pass. De ce vaste
coup de filet sans hypothse pralable, on espre tirer des explications sur les
phnomnes en cause.
Cette procdure d'enqute est souvent couteuse en temps et en moyens
mobiliss mais le rsultat est souvent dcevant car ceux qui font des enqutes ne
disposent pas en gnral de mthodes pour les explorer en profondeur et se
contentent donc de rsultats superficiels. Des mthodes efficaces existent
cependant, certaines datant des annes soixante comme l'analyse factorielle des
correspondances, d'autres plus rcentes comme la rgression logistique.
Le but du prsent ouvrage est de donner au crateur d'enqute les moyens de
comprendre les mthodes qui lui permettront, en utilisant les logiciels disponibles, de
raliser lui-mme un dpouillement d'enqute efficace.
La stratgie utilise pour mettre en uvre les mthodes d'analyse est de
respecter la situation d'incertitude de dpart et de ne pas imposer une mthode qui
force les rsultats dans un sens ou un autre mais qui laisse merger d'ventuelles
surprises. A cette fin le processus d'analyse sera caractris par l'utilisation du
concept de variable d'intrt : tout enqute est faite quand on est face un
phnomne dont on veut rendre compte et cette focalisation dtermine une ou
plusieurs "variables d'intrt" dont on veut rendre compte. On proposera donc une
premire mthode qui consiste reprer quelles sont les questions de l'enqute qui
sont le plus lies cette variable d'intrt. On utilisera cette fin le PEM,
Pourcentage de l'Ecart Maximum qui permet de faire ce travail. Comme cette
mthode est trs simple au point de vue thorique elle permettra de comprendre les
notions d'indpendance dans un tableau et d'cart l'indpendance, qui sont
indispensables pour la bonne intelligence des mthodes suivantes.
Une fois repres les variables qui sont lies au phnomne tudi, on utilisera
une mthode, l'analyse des correspondances, qui permettra de faire une analyse
globale du phnomne, c'est--dire qui positionnera les diffrentes modalits de la
variable d'intrt dans un univers de modalits suffisamment riche pour que des
hypothses de travail puissent en tre issues, mais suffisamment limit pour que
l'analyse ne soit pas submerge par trop de donnes.
Une fois cette vue d'ensemble tablie, l'analyse se focalisera sur des points
prcis qui demandent une investigation complmentaire car l'analyse prcdente,
comme une carte qui englobe un vaste territoire, est peu prcise et trop incertaine.
De l'analyse globale, on passe l'analyse locale, et de l'hypothse de travail sa
vrification.

1
Dans ce but un utilisera galement la rgression logistique sur donnes
d'enqutes qui permet d'estimer l'effet d'une variable sur une autre "toutes choses
gales par ailleurs", c'est--dire par exemple en neutralisant l'effet de l'ge quand on
tudie l'effet de l'origine sociale.
On montrera enfin qu'il est possible de retrouver dans la population observe
des types de rpondants en classant les individus en fonction des rsultats
prcdents. Ce retour aux donnes est une prcaution qui permet de vrifier la
rsistance des rsultats et d'viter que les types-idaux obtenus ne s'ancrent pas
assez dans la ralit.
Pour chaque mthode, on partira d'exemples simples pour faire comprendre les
concepts utiliss, sans en donner les justifications mathmatiques qui n'ont pas leur
place dans un ouvrage introductif. Ensuite un exemple en vraie grandeur suivi tout
au long du livre permettra de juger des capacits de la dmarche.

Vingt ans aprs


Ce livre se substitue au Que sais-je ? 2095 intitul l'Analyse factorielle paru en
1983. En effet les attentes des lecteurs ne sont plus les mmes : quand une nouvelle
technique apparait, on cherche comprendre comment elle fonctionne et on soulve
volontiers le couvercle pour dmonter lintrieur. Dans les annes 1980, je me
souviens avoir d expliquer comment fonctionnait un ordinateur mais ces temps sont
rvolus : on nprouve plus ce besoin aujourd'hui pas plus que pour le tlphone ou
pour un moteur lectrique. Pour utiliser le vocabulaire de la sociologie des sciences1,
lordinateur est utilis aujourdhui comme une boite noire : on veut nen connaitre que
ce qui est utile un bon usage.
Il en est de mme pour les techniques statistiques : en vingt ans
denseignement rgulier de ces techniques, jai vu la demande des utilisateurs
voluer, passant dun dsir trs fort de savoir comment lanalyse factorielle produisait
ses rsultats un objectif diffrent, comment bien utiliser la mthode. Le prsent
livre prend acte de cette volution : la part du principe de la mthode y est rduite
pour laisser plus de place des exemples comments dutilisation et des rgles de
bonne pratique. Cependant des annexes permettront ceux qui le dsirent de
parvenir une comprhension des algorithmes utiliss par l'analyse des
correspondances et la rgression logistique.
Comme dans le prcdent ouvrage, je veux redire ici ma dette l'enseignement
de Georges Th. Guilbaud qui est l'origine de la prsentation de l'analyse des
correspondances faite ici, ainsi qu'aux formalisations opres par Henry Rouanet et
son quipe. Pour la rgression logistique, Louis-Andr Vallet reste celui vers lequel
on peut toujours se tourner en cas de doute sur la mthode.

1
Dominique Vinck, Sociologie des sciences, Paris, A. Colin, 1995

2
Chapitre 1 : reprer les questions pertinentes

On suppose donc une enqute dj existante, soit issue d'une recherche, soit
en vue de l'analyse secondaire d'une enqute disponible et rendue accessible aux
chercheurs. On suppose que les donnes de cette enqute sont utilisables par le
biais soit d'un logiciel international comme SAS ou SPSS, soit d'un logiciel libre
comme Trideux, dvelopp par l'auteur et dont les exemples de ce livre sont issus.
Les mthodes de dpouillement prsentes ici sont indpendantes des logiciels : les
aspects pratiques en dpendent videmment et il faudra s'y reporter pour plus de
dtails.
On suppose donc que l'on a un fichier d'individus dont le nombre est variable,
qui peut aller de quelques dizaines plusieurs centaines de milliers : il peut sembler
paradoxal d'envisager un dpouillement d'enqute avec moins de cent individus mais
regarder attentivement le contenu d'un fichier est un objectif valable mme si la
possibilit d'tendre les rsultats obtenus une population de rfrence est faible.
Quand on fait une enqute, quelque soit le nombre d'individus, on veut lgitimement
avoir une description de la population enqute : si l'effectif en est faible, on ne
pourra que constater l'tat de la population ; si l'effectif est important on pourra
gnraliser les rsultats la population dont l'enqute est issue, sous rserve que
l'chantillon a t prlev de manire raisonne, par exemple par la mthode des
quotas ou en slectionnant des populations spcifiques. Il faut bien distinguer la
description des donnes d'une part, des rsultats qui peuvent tre gnraliss
l'ensemble de la population tudie d'autre part. Pour pouvoir gnraliser on utilisera
des tests statistiques, essentiellement celui du khi-deux que l'on supposera connu :
on se souviendra que le khi-deux tant sensible aux effectifs, ds qu'une population
d'enquts devient importante, il devient rare que le khi-deux d'un tableau crois ne
soit pas significatif.
Dans la suite, on utilisera comme exemple des donnes assez classiques en
terme d'effectif, c'est--dire de plusieurs centaines d'individus. Il ne faut cependant
pas avoir peur des faibles effectifs car on peut faire une bonne description d'une
centaine d'individus. Mme si on ne peut gnraliser les rsultats obtenus la
population de rfrence d'une manire certaine, si la cohrence des rsultats est
grande, leur valeur probatoire apparaitra aux lecteurs qui les considreront comme
des pistes poursuivre, des tendances intressantes explorer par d'autres
enqutes.
Quand, dans une recherche de type ethnologique, on dispose de peu
d'informateurs, on leur demande d'tre de bonne qualit et personne ne se formalise
de leur faible effectif. Quand dans une recherche historique on nous prsente le cas
particulier d'un petit gentilhomme du Cotentin qui a tenu tout au long de son
existence un journal, les gnralisations qui sont faites partir de ce cas unique
n'ont de valeur que dans la mesure o l'on s'assure que notre homme est
reprsentatif de son corps social2. C'est d'ailleurs ce qui permet la micro-histoire de
porter tous ses fruits et c'est une attitude analogue qui doit conduire celui qui a peu
de donnes les utiliser au mieux, en tirer toutes les informations, tre
suffisamment motiv pour aller le plus loin possible (sans tomber dans l'acharnement

2
Madeleine Foisil, Le sire de Gouberville, un gentilhomme normand au XVIe sicle, Flammarion, 2001

3
de celui qui veut obtenir une certaine orientation des rsultats, mais le dbutant est
plutt trop modeste dans ses prtentions).
A l'inverse, celui qui a beaucoup d'individus et qui leur a pos beaucoup de
questions risque d'tre noy par la masse d'informations dont il dispose
potentiellement. Dans ce cas galement, une bonne description des donnes
s'impose : les mthodes descriptives sont les mmes dans les deux cas, ce n'est
affaire que de degrs, de nombre de questions que l'on peut prendre en compte
dans une mme analyse.
On suppose donc que l'on a une population d'individus laquelle on a pos un
certain nombre de questions. Ces questions seront de deux catgories : des
questions d'opinion ou relatives aux pratiques de l'individu dans le domaine enqut,
ou pouvant l'clairer ; des questions indpendantes de l'enqute mais relatives la
connaissance de l'enqut en gnral telles que l'ge, le sexe, la catgorie
socioprofessionnelle, le plus haut diplme obtenu, ou d'autres encore comme le
revenu, l'affiliation politique (ou religieuse) qui relvent de l'opinion ou de la
description mais qui ont en commun de ne pas tre spcifiques d'une enqute
donne.
On supposera dans la suite que toutes ces questions seront utilises sous
formes de catgories, de modalits : la question "sexe" a deux modalits de rponse
; masculin ou fminin. La variable ge qui a pu tre recueillie en codant l'ge en clair
doit tre recode en tranches d'ges : le recueil des donnes doit se faire, non pas
au niveau le plus fin possible (pour l'ge, la date de naissance prcise avec le jour et
le mois) mais au niveau le plus fin pertinent : pour des adultes ce sera l'anne, pour
des enfants du primaire, ce peut tre le trimestre, pour des plus jeunes, le mois ou
une dure moindre. Il faut que ce qui soit recueilli soit pertinent pour la finalit de
l'enqute tant entendu que l'on pourra toujours facilement recoder les donnes
d'une manire logicielle : par exemple, il est bon de recueillir les donnes en mettant
des catgories d'accord ou de dsaccord qui respectent les nuances d'une opinion
(tout fait d'accord, peu prs d'accord, etc.). Dans le courant du dpouillement, il
sera souvent utile d'effacer ces nuances, de perdre de l'information pour en gagner
par ailleurs par confrontation de nombreuses autres modalits.
Si on doit viter de proposer la non-rponse un enqut, on doit l'enregistrer :
on proposera dans la suite des mthodes qui permettent de tirer de l'information de
ce type de modalit par comparaison avec les rponses que l'enqut a donn aux
autres questions. On ne doit pas liminer les non rpondants : ils peuvent tre
porteurs d'une attitude qu'il faut ventuellement prendre en compte.

I Premire tape : les pralables


On suppose donc que l'on dispose d'une population qui a rpondu de
nombreuses questions. Les rponses sont enregistres dans un logiciel et le travail
minimum a t fait, c'est--dire que pour chaque question on dispose d'un identifiant
alphanumrique de quelques caractres et que les modalits ne sont repres que
par leur numro. Par exemple la question V02 qui se trouve tre le sexe du
rpondant, a deux modalits de rponse dont on sait par le biais des guides de
codage que la modalit note 1 correspond au sexe masculin et la modalit 2 au
sexe fminin. S'il y avait des non-rponses, elle seraient codes 0 (c'est rare pour
cette question, quand cela arrive, on a vrifi que ce sont souvent des hommes pour

4
qui c'est "normal" d'tre homme alors qu'une femme n'oublie jamais sa condition
fminine).
La premire opration faire est de confectionner un instrument de travail que
l'on imprimera immdiatement et qui est la distribution des rponses toutes les
questions, appel souvent "tri plat" des rponses, par opposition "tri crois" qui
fait intervenir plusieurs questions en mme temps. Les rsultats peuvent tre de
cette forme :

Question V02 Code-max. 2


Tot. 1 2
512 244 268
100 47.7 52.3
Il s'agit de la question V02 (en fait le sexe de l'enfant car il s'agit d'une enqute
de sociologie concernant une population d'enfant au collge). Le code maximum que
peut prendre cette question est videmment 2. Le total est de 512 individus qui
correspondent 100%. Il y a 244 individus cods 1 c'est--dire de sexe masculin, qui
reprsentent 47,7% de la population, et 268 de sexe fminin reprsentant 52,3%. Il
n'y a pas de non-rponses3.
Rapidement, on prouvera le besoin de rendre les rsultats plus lisibles et de
faire en sorte que la modalit 1 soit code "masculin", la 2 "fminin" et que la
question V02 s'appelle "sexe". Un tel travail ne doit pas tre fait au dpart pour deux
raisons : il est rapidement dcourageant par le temps de travail qu'il demande ; il ne
doit tre fait que sur des questions, des variables (les deux mots sont assez
interchangeables) qui ont t travailles, tudies, recodes ventuellement, que l'on
s'est approprie par un examen attentif.
Une enqute se dpouille en prenant un certain temps, variable selon la
dextrit informatique et selon les dsirs, la motivation de celui qui fait le
dpouillement : qui manie bien un logiciel peut esprer en une semaine complte de
travail arriver des rsultats non ngligeables. Il faut de ce fait conserver une trace
crite des oprations faites : ouvrir un fichier de traitement de texte et y reporter les
rsultats intermdiaires et les recodages faits est une bonne pratique. On se
constitue ainsi un journal de bord des oprations faites qui constitue un grand
secours quand on est oblig de reprendre un traitement aprs quelques jours.
Il faut garder trace de la manire dont on a construit des variables nouvelles
partir d'anciennes. Par exemple pour l'enqute scolaire qui nous sert d'exemple, on
dispose videmment de l'anne de naissance de l'enfant et de la classe o il est
arriv. En tenant compte de ces deux indications, on peut construire une variable
nouvelle, que l'on va appeler AGS en code simplifi, "Age scolaire" en clair et qui
aura trois modalits : 1 = "en avance ", 2 = " l'heure", 3="en retard"4. Ceux qui sont
en avance reprsentent 18% de l'ensemble, ils sont 74% tre l'heure et

3
Sachant que 0,1% de la population correspond une demi individu, une prcision plus grande serait
illusoire. On arrondi au plus prs et l'on garde toujours un chiffre aprs la virgule, quelque soit la prcision, afin
de bien distinguer typographiquement les effectifs observs, qui sont toujours des entiers, de ce qui relve d'un
calcul comme les pourcentages.
4
autre recodage possible : " l'heure" contre "en retard".

5
seulement 8% tre en retard. Ces chiffres manifestent une russite qui ne se
retrouve pas dans l'ensemble de la population des collges et qui manifeste que
notre chantillon est spcifique : il l'est par construction car son but est de comparer
les motivations de parents d'lves scolariss soit dans des "coles nouvelles", soit
dans des collges recrutement social quivalent et tant perus comme de "bons
tablissements". Les "coles nouvelles" sont des coles publiques (Decroly) ou
prives non confessionnelles (La Source Meudon, l'Ecole Alsacienne) qui se
caractrisent par une pdagogie diffrente mise au point par des rformateurs
comme Decroly ou Cousinet qui ont cherch mieux partir des intrts des enfants
et mettre au point des techniques pdagogiques spcifiques (qui se sont d'ailleurs
rpandues ensuite, ce qui fait qu'on peut se demander ce qu'il en reste aujourd'hui :
c'est une des rponses attendue de cette enqute).
Comme cette enqute va opposer deux types d'lves : ceux qui sont en cole
nouvelle et ceux qui sont dans des collges recrutement social analogue et de bon
niveau, une variable d'intrt privilgie va tre prcisment cette question deux
modalits "Ecole Nouvelle", "Collge de bonne rputation" : la distribution de cette
question n'est pas pertinente en soi dans la mesure o, par construction, chaque
enquteur devait interroger quatre lves de collge bonne rputation et un d'cole
nouvelle. Ce n'est qu'en la croisant avec d'autres questions que l'on verra l'effet de
cette variable5.
Un premier tableau crois va nous permettre de voir de premiers rsultats et de
mettre au point un outil qui nous servira dans la suite : un indicateur de la force de
liaison entre modalits (ou entre questions). Nous effectuons donc le tri crois entre
le sexe et la variable d'intrt, le type de collge.

Croisement de la question 17A type d'coles avec la question


V02 sexe
Le Khi-deux du tableau est de 3.8
Degr libert = 1 Prob.= 0.047 **

Il s'agit d'un tableau 2 lignes et 2 colonnes et donc un degr de libert


puisqu'en fixant l'effectif d'une case, toutes les autres se dduisent des marges.
Le khi-deux est significatif au seuil de 5% (p < 0,05 cod souvent avec deux
toiles)

Le PEM du tableau est de 18.6%

Par PEM il faut entendre Pourcentage de l'Ecart Maximum : il s'agit d'un


indicateur d'attraction qui vaut pour l'ensemble du tableau (PEM global) ou pour une
case du tableau (PEM local). Nous allons expliciter en premier lieu le PEM local.

5
"Les stratgies ducatives des classes moyennes et suprieures salaries", enqute dirige par Franois
de Singly et Philippe Cibois dans le cadre du Deug de sociologie de l'Universit de Paris V en 1991-1992

6
Dans le tableau ci-dessous, on trouve 4 nombres dans chaque case (et leur
somme en marge) :
- l'effectif (N=) : pour la case "Fminin en Ecole nouvelle, il est de 60 individus ;
- le pourcentage en ligne (%Ligne) : sur 268 lves de sexe fminin, les 60 en
cole nouvelle reprsentent 22,4% du total (soit plus que 19,1%, le pourcentage
toutes lignes confondues, ce qui indique une attraction)
- la contribution au khi-deux qui est gale l'effectif en cart l'indpendance
au carr divis par l'effectif thorique.
Ici l'effectif thorique (produit des marges par le total) est de 98 x 268 / 512 =
51,30. L'cart l'indpendance est de (observ thorique) 60 51,30 = 8,70. La
contribution au khi-deux est de 8,70 / 51,30 = 1,5
- le PEM, Pourcentage de l'Ecart Maximum (%Attrac). On a not que pour cette
case, l'cart l'indpendance est 8,70 individus. Si la liaison entre sexe fminin et
cole nouvelle tait son maximum, les 268 filles ne pourraient pas tre l'cole
nouvelle (dont l'effectif n'est que de 98 individus) mais les 98 lves de l'cole
nouvelle pourraient tre de sexe fminin. Donc 98 est le maximum de la case et
l'cart l'indpendance dans le cas de ce maximum serait de (maximum thorique)
98 51,30 = 46,70
Comparons l'cart observ 8,70 l'cart dans le cas du maximum 46,70 ce qui
nous donne une proportion de 8,70 / 46,70 = 0,186 ou 18,6% en pourcentage. Cette
valeur est suivie d'une toile sur le tableau pour signaler qu'elle est issue d'un
tableau crois significatif6.
+-----------+---------+----------+--------+
|N= %Ligne| Ecole | Collge |Total |
|Khi2%Attrac|Nouvelle |BonneRp |en ligne|
+-----------+---------+----------+--------+
|Masc | 38 15.6| 206 84.4| 244 100|
| |1.6 -18.6* 0.4 18.6* 2.0 47.7|
+-----------+---------+---------+---------+
|Fmi | 60 22.4| 208 77.6| 268 100|
| |1.5 18.6* 0.3-18.6* 1.8 52.3|
+-----------+---------+---------+---------+
| Total | 98 19.1| 414 80.9| 512 100|
|en colonne |3.1 | 0.7 | 3.8 100|
+-----------+---------+---------+---------+
Dans un tableau 2 x 2, tous les PEM sont symtriques, c'est--dire de mme
valeur absolue et de signes opposs, c'est--dire correspondant non une attraction,
mais une rpulsion dans le cas d'un PEM ngatif. Le PEM global est pris en faisant
la somme des carts positifs observs l'indpendance par rapport la somme des
carts positifs dans le cas de la liaison maximum : on vrifie facilement qu'il est aussi
gal 18,6%. Ce rsultat est gnral : dans le cas d'un tableau 2 x 2, le PEM global
et le PEM local (positif) sont identiques. Le calcul du PEM peut tre tendu des
tableaux plus grands ayant un ordre sur les marges (que l'on peut toujours tablir par
une mthode d'analyse factorielle).

6
Philippe Cibois, "Le PEM, pourcentage de l'cart maximum : un indice de liaison entre modalits d'un
tableau de contingence", Bulletin de mthodologie sociologique, 1993, n40, p.43-63.

7
Empiriquement, des cas de PEM trs levs (suprieurs 50%) manifestent
une liaison tellement forte qu'ils sont l'indice d'une redondance des indicateurs : par
exemple, dans toute enqute, on vrifie que le PEM entre le fait d'tre la retraite et
d'tre dans une tranche d'ge suprieur 60 ans est toujours trs lev.
Inversement, quand la liaison est infrieure 10%, elle peut tre l'effet du hasard et
c'est pour cette raison qu'on associe toujours au PEM le test du khi-deux. On
constate empiriquement que les PEM intressants se situent entre 10 et 50%.
Quand on dpouille une enqute, il faut immdiatement intgrer tout rsultat
obtenu, en tant bien conscient qu'il pourra tre remis en cause dans la suite. Par
exemple ici, on doit immdiatement prendre acte de la liaison entre sexe fminin et
coles nouvelles : c'tait d'ailleurs l'une des hypothses qui taient proposes au
moment de la construction de l'enqute de vrifier si les coles nouvelles, en mettant
l'accent sur les aspects relationnels, n'taient pas en train de moderniser la dfinition
traditionnelle du rle fminin.
Quand on commence dpouiller une enqute, il faut progressivement
s'approprier les donnes, en faire l'exprience et c'est une bonne pratique de
commencer par explorer quelques hypothses simplement par le biais de tris
croiss. Par exemple, une autre hypothse de dpart qu'il est facile de vrifier tait
que les coles nouvelles taient privilgies par des parents de classe moyenne ou
suprieure dont les enfants avaient des difficults scolaires. Nous allons utiliser
cette fin, l'ge scolaire, variable que nous avons construite et qui est un indicateur
"objectif" des difficults du parcours scolaire.
On a le tableau crois suivant :

Croisement de la question AGS Age scolaire avec la question


17A type d'coles
Le Khi-deux du tableau est de 8.8
Degr libert = 2 Prob.= 0.012 **

+-----------+---------+---------+---------+
|N= %Ligne| Ecole | Collge | Total |
|Khi2%Attrac|Nouvelle |BonneRp | en ligne|
+-----------+---------+---------+---------+
|En avance | 16 17.4| 76 82.6| 92 100|
| | 0.1 -9.1| 0.0 9.1| 0.2 18.0|
+-----------+---------+---------+---------+
|A l'heure | 67 17.7| 312 82.3| 379 100|
| | 0.4 -7.6| 0.1 7.6| 0.5 74.0|
+-----------+---------+---------+---------+
|En retard | 15 36.6| 26 63.4| 41 100|
| | 6.5 21.6* 1.5-21.6* 8.1 8.0|
+-----------+---------+---------+---------
| Total | 98 19.1| 414 80.9| 512 100|
|en colonne | 7.1 | 1.7 | 8.8 100|
+-----------+---------+---------+---------+
On voit que les contributions au khi-deux qui rendent le tableau significatif sont
associes prcisment au fait d'tre en retard scolaire, qu'il y a une attraction (PEM
de 21,6% significatif) entre ce retard scolaire et l'cole nouvelle. On voit donc que

8
l'hypothse qui avait t faite est d'une certaine manire confirme, mais la
condition de bien voir que les lves en retard sont trs minoritaires, y compris dans
l'cole nouvelle (83 des 98 soit 85% des lves d'cole nouvelle sont l'heure ou en
avance).
A partir de ce deuxime tri crois, on voit que chaque tableau crois apporte
une information utile, mais ponctuelle, il manque la fois la vue d'ensemble et la
prise en compte des nombreuses autres questions de l'enqute. Nous allons
maintenant mettre au point une procdure qui permette une dcouverte
systmatique des lments intressants de l'ensemble des tris croiss possibles.

II Slectionner les questions pertinentes


Ce que nous voulons reprer, ce sont les questions qui sont pertinentes par
rapport la variable d'intrt de notre enqute, l'opposition entre coles nouvelles et
collges de bonne rputation. Nous allons donc croiser systmatiquement cette
variable d'intrt avec toutes les autres questions de l'enqute mais ne slectionner
que celles qui sont le plus en attraction avec elle.
Le questionnaire, qui comprenait plus de cent questions, non seulement testait
la situation sociale de la mre avec une grande prcision sur le plan du mtier, de la
formation (y compris celle des grands-parents), des gouts, des affiliations politiques,
religieuses, associatives, du couple, mais envisageait aussi :
- une description fine de l'enfant : ses "qualits", ses "dfauts", son attitude en
famille ;
- son comportement et son niveau scolaire, les raisons du choix du collge, ses
matires prfres, son avenir ;
- ses loisirs ;
- le style des relations que la mre avait avec l'enfant (complicit, fermet, etc.).
L'indicateur que nous utiliserons sera le PEM global, identique au PEM local
positif dans le cas d'un tableau 2 x 2 (comme plus haut, le croisement avec le sexe).
Dans le cas d'un tableau qui a davantage de colonnes, comme dans le tableau
prcdent, on se rfrera la publication de prsentation de la mthode7. Si le PEM
n'est pas disponible sur le logiciel que l'on utilise, on pourra prendre des indicateurs
analogues comme le V de Cramr (dont le PEM est une extension qui tient compte
des possibilits actuelles de calcul). Limportant est de disposer dun indicateur qui,
pour une question donne, donne automatiquement la liste des autres questions de
lenqute avec lesquelles elle est en attraction.
Les rsultats, pour la question type dcole (choix dune cole nouvelle
contre choix dun collge de bonne rputation) sont les suivants : on prend les
questions par ordre dattraction dcroissante de faon avoir un premier choix dune
vingtaine de questions. Ces questions peuvent tre regroupes autour de plusieurs
thmes :

7
Cibois 1993

9
- les raisons du choix du collge lui-mme : sil tait proche ou non ; si lon y
cultivait lautonomie ou la russite scolaire et par qui le choix a t fait (un parent, les
deux, lenfant a-t-il t associ ce choix ?)
- comment est envisag la scolarit de lenfant : est-ce que lenfant est satisfait
de lenseignement quil reoit ? Pour le futur, faut-il le pousser ou le laisser suivre
son rythme ? Si lon a prvu le lyce o il irait. Jusquo pense-t-on quil ira
(universit ou grandes coles ?).
- un certain nombre de questions concernent le style ducatif des parents : ce
que lon souhaite obtenir comme rsultat (respect des autres, savoir-vivre, sens des
responsabilits, etc.) ; quel type de sanction on envisage ventuellement (privation,
rprimande) ; si les parents ont le sentiment ou non de reproduire le style
dducation quils ont reu eux-mmes ; si lenfant connait les opinions politiques de
ses parents.
- questions portant sur les activits de lenfant : ses activits prfres, sil
pratique la comptition sportive, ses jeux prfrs, ce quil a reu Nol
- il y a peu de questions relatives aux parents sinon la catgorie
socioprofessionnelle de la mre et ses loisirs favoris.
Cette vingtaine de questions, qui comportent peu prs 200 modalits de
rponses (soit une dizaine de modalits par question en moyenne) nest quun point
de dpart pour commence se faire une opinion sur le contenu de lenqute.
Cette procdure qui consiste passer par la variable dintrt pour slectionner
les questions lavantage daider commencer la recherche avec un nombre
suffisant de modalits de 200, qui est un bon point de dpart. Ce nest quun point de
dpart quil faudra affiner dans la suite. Pour le traiter, nous allons utiliser lanalyse
factorielle des correspondances.

10
Chapitre 2. Lanalyse factorielle des correspondances
I Dcomposition des carts l'indpendance
Avant de montrer comment utiliser cette technique, il faut en comprendre quels
sont les concepts fondamentaux. A cette fin nous partirons du tableau suivant qui,
issu toujours de la mme enqute, croise lintrt vis--vis de la religion de la
personne interroge (la mre de lenfant) avec sa position politique. Dans la
catgorie marque ni gauche ni droite , on a regroup les rponses faisant
rfrence au mouvement cologique ou qui refusent de se positionner sur une
chelle gauche/droite.

Intrt vis--vis de la
Position religion
politique Fort Moyen Nul Total
Droite 24 41 7 72
Centre 14 30 12 56
Gauche 28 89 74 191
Ni G ni D 46 83 64 193
Total 112 243 157 512
Tableau 1 : effectif observ
Faire lanalyse des correspondances de ce tableau conduit construire un
graphique o chaque point reprsente un intitul de ligne ou de colonne. Un point
ligne sera proche dun point colonne quand on pourra reprer une attraction entre
cette ligne et cette colonne, attraction repre par un fort cart lindpendance.
La situation dindpendance dans un tableau se dfinit de la faon suivante : en
moyenne dans ce tableau, la proportion de fort intrt est de 112 / 512 = 0,219 soit
21,9%. Si cette proportion sappliquait au 72 personnes de droite, leffectif quil y
aurait serait de 0,219 x 72 = 15,8 personnes. Cet effectif correspondrait au cas fictif
o il y aurait indpendance entre les lignes et les colonnes puisquil est calcul
simplement par produit des marges divis par le total.
Pour lensemble du tableau les rsultats sont les suivants.

Position Intrt vis--vis de la religion


politique Fort Moyen Nul Total
Droite 15,8 34,2 22,1 72
Centre 12,3 26,6 17,2 56
Gauche 41,8 90,7 58,6 191
Ni G ni D 42,2 91,6 59,2 193
Total 112 243 157 512
Tableau 2 : indpendance

11
Comme il sagit dun cas fictif, on lappelle tableau des effectifs thoriques sous
lhypothse dindpendance.
Les observation sont soit au-dessus de lindpendance comme pour la
premire case Droite et fort intrt o lon a un cart lindpendance de
24 15,75 = 8,25 personnes en cart positif. Par contre on a un cart ngatif entre la
gauche et le fort intrt :
28 41,8 = -13,8 o le dficit manifeste une rpulsion. Quand on est de gauche, on
est moins que la moyenne avoir un fort intrt pour la religion.
Le tableau gnral est le suivant :
Position Intrt vis--vis de la religion
politique Fort Moyen Nul Total
Droite 8,3 6,8 -15,1 72
Centre 1,8 3,4 -5,2 56
Gauche -13,8 -1,7 15,4 191
Ni G ni D 3,8 -8,6 4,8 193
Total 112 243 157 512
Tableau 3 : carts lindpendance
On voit quil y attraction entre la droite (et dans une mesure plus faible le
centre) avec lintrt fort ou moyen ; une attraction entre la gauche et une absence
dintrt. Pour ceux qui refusent le positionnement politique traditionnel, ils se
retrouvent dans les extrmes et fuient lintrt moyen.
Ces rsultats sont tout fait classiques en sociologie8 : en France lopposition
gauche / droite se superpose souvent lopposition vis--vis de la religion
(catholique souvent). Quant la position moyenne, elle reflte souvent un
attachement traditionnel en voie de se distendre : ceux qui ne se situent pas dans
lopposition politique classique font leur choix soit pour soit contre le domaine
religieux.
Chaque cart lindpendance est le rsultat de lopration effectif observ
effectif thorique. On peut tendre cette opration au tableau en disant que ce qui
est vrai au niveau de chaque case lest aussi au niveau du tableau dans son
ensemble. Le tableau observ est ainsi dcompos en une somme de deux
tableaux : thorique + carts lindpendance. En reprenant les intituls des
tableaux on a:
T observ = T thorique + T carts
Cest cette dcomposition qui va tre poursuivie par lanalyse des
correspondances o le tableau des carts va tre dabord approxim par un tableau
le plus proche de lui mais o, comme dans le tableau dindpendance, chaque case
sera connue par ses marges.

8
Ren Rmond, Les droites en France, Paris, Aubier, 1982 ; Jean-Franois Sirinelli (dir.), Les droites
franaises, Gallimard, 1995 ; Guy Michelat et Michel Simon, Classe religion et comportement politique, Paris,
Presses de la FNSP et ed. sociales, 1977 ; Jean-Marie Donegani, La libert de choisir, Paris, Presses de la FNSP,
1993.

12
Voici lapproximation du tableau des carts avec les coefficients marginaux qui
permettent de le construire9 : les valeurs des cases du tableau sont trs proches du
tableau 3 des carts. Pour sen convaincre il suffit de faire la diffrence terme
terme dans un tableau du reste.

Position Intrt vis--vis de la religion


politique Fort Moyen Nul Coeff.
Droite 9,0 5,7 -14,7 -3,147
Centre 2,8 1,8 -4,6 -0,993
Gauche -10,4 -6,7 17,1 3,645
Ni G ni D -1,4 -0,9 2,3 0,495
Coeff. -2,854 -1,826 4,680
Tableau 4 : approximation des carts
Le tableau suivant est le reste : ce quil faut ajouter terme terme pour
retrouver les carts.
Position Intrt vis--vis de la religion
politique Fort Moyen Nul Coeff.
Droite -0,7 1,1 -0,4 -0,394
Centre -1,1 1,6 -0,5 -0,586
Gauche -3,4 5,0 -1,6 -1,826
Ni G ni D 5,2 -7,7 2,5 2,807
Coeff. 1,851 -2,742 0,891
Tableau 5 : reste
Dans lapproximation o se trouve la plus grande partie des carts, les nombres
vont en valeur absolue jusqu 17 (gauche intrt nul), tandis que dans le reste, la
plus forte valeur est proche de 8 (en ngatif : ni gauche ni droite intrt moyen).
Le tableau du reste peut galement tre obtenu par la multiplication terme
terme de coefficients marginaux.
Si on regarde comment se sont rpartis les carts, on voit que dans
lapproximation, ce sont surtout les oppositions des trois premires lignes (lchelle
politique traditionnelle) qui ont t prises en compte tandis que dans le reste cest
plutt la ligne dopposition la rpartition gauche / droite habituelle qui est prsente.
On voit ainsi que la dcomposition en tableaux spars met en relief pour chacun un
aspect des donnes, pour lequel on emploie le mot de facteur.
On peut utiliser les couples de coefficients marginaux de chaque facteur ,
ceux de lapproximation et ceux du reste, comme abscisse et ordonnes des points
dans un graphique. Le rsultat est le suivant :

9
Voir l'annexe pour les dtails complmentaires.

13
Figure 1 : Facteur approximation en abscisse, reste en ordonne
Les rgles de lecture pour ce plan factoriel permettent de retrouver linformation
des carts lindpendance : on doit regarder langle au centre entre point ligne et
point colonne. Trois cas de figures sont possibles :
1) langle est infrieur 90 : par exemple entre gauche et intrt nul, ou droite
et intrt fort. Ceci signifie quil y a attraction entre ces modalits et que lcart
lindpendance est fort (les deux attractions cites sont les plus fortes avec des
carts de 15,4 et 8,3)
2) le cas oppos se prsente quand langle est proche de 180 : par exemple
entre droite et intrt nul, gauche et intrt fort et ni gauche ni droite et intrt
moyen. Ceci signifie quil y a opposition ou rpulsion entre ces modalits et que
lcart lindpendance prend des valeurs ngatives fortes (les cas cits
correspondent aux trois plus bas niveaux dcart : -15,1, -13,8 et -8,6).
3) le cas intermdiaire se situe quand langle est proche de 90 : par exemple
entre gauche et intrt moyen. Ceci signifie quil y a indpendance entre ces
modalits : lcart lindpendance est faible (ici cest la plus faible valeur absolue
des carts de 1,7 : elle est ngative car langle est lgrement suprieur 90)
Ces trois cas de figure dattraction, dindpendance ou dopposition
reprsentent toutes les ventualits possibles et toutes les situations que lon
observe sont intermdiaires entre ces cas types. Quand on a traiter un grand
nombre de modalits, et cela va tre le cas pour dpouiller une enqute, on
sintresse surtout aux attractions, c'est--dire aux proximits angulaires entre
modalits qui dterminent des zones du graphique auxquelles il est parfois possible
de donner un nom qui relve de linterprtation.
Plus un point est proche du centre, et moins ses attractions ou oppositions sont
fortes. Quand un point est strictement au centre, cela veut dire quil en situation
dindpendance avec toutes les autres modalits. Ici le point qui se rapproche le plus
de cette situation est le point centre dont la ligne dcarts lindpendance est la
plus faible de tout le tableau.
Enfin, si lon prend en compte les tableaux dapproximation et de reste
individuellement (ou ce qui revient au mme si on ne regarde que les abscisses des
points ou les ordonnes), on peut donner un nom chaque approximation, appele
aussi facteur. Le tableau dapproximation correspond lopposition politique
traditionnelle : gauche areligieuse contre droite favorable (1er facteur), tandis que le
tableau du reste est spcifique de la position ni gauche ni droite et de son refus
lintrt moyen (2e facteur).

14
En rsum, lanalyse des correspondances dun tableau crois consiste
dcomposer les carts lindpendance de ce tableau en plusieurs tableaux connus
par leurs coefficients marginaux qui sont appels traditionnellement les vecteurs
propres de chaque tableau.
Sur le graphique associ ces vecteurs propres, les intituls des lignes ou
colonnes, par leurs positions angulaires rciproques permettent de retrouver les
carts lindpendance des donnes.
Le nombre total de tableaux ncessaires est gal au plus petit nombre de lignes
et colonnes, ici trois lignes : le premier tableau, numrot zro correspond
lindpendance, le tableau suivant est le premier facteur, le suivant le deuxime.
Quand le nombre de facteurs ncessaire est plus grand que deux, les facteurs
suivants, plus faibles sont soit ngligs, soit interprts sparment.

II Contributions des modalits, des tableaux.


A la dcomposition des carts lindpendance se juxtapose une
dcomposition des contributions au khi-deux de chaque case. Cette contribution,
donne traditionnellement par la formule :
(observ thorique) / thorique, peut tre lue aussi comme cart / thorique ou
encore comme le produit de lcart par le rapport cart / thorique. Cette dernire
manire de voir nous signale que la contribution du khi-deux est homogne lunit
de compte (lindividu dans une enqute), et que lcart observ est pondr par un
rapport qui va dans le sens de laugmentation quand lcart (en valeur absolu) est
plus grand que le thorique; et de la diminution dans le cas contraire.
Dans le cas ici trait, toutes les valeurs absolues des carts sont infrieures au
thorique et donc tous les rapports sont infrieurs l'unit et rducteurs. Nous allons
procder ci-dessous la dcomposition additive du khi-deux global initial. Les
contributions de chaque case sont sommes en ligne, en colonne et sur le total :

Position Intrt vis--vis de la religion


politique Fort Moyen Nul Total
Droite 4,3 1,4 10,3 16,0
Centre 0,3 0,4 1,6 2,2
Gauche 4,5 0,0 4,1 8,6
Ni G ni D 0,3 0,8 0,4 1,5
Total 9,5 2,6 16,3 28,4
Tableau 6 : khi-deux du tableau initial

Le principe de la dcomposition est de calculer la contribution au khi-deux de


chaque case dans le tableau dapproximation et de reste. Nous avons donc les deux
tableaux de khi-deux suivants :

15
Position Intrt vis--vis de la religion
politique Fort Moyen Nul Total
Droite 5,1 1,0 9,8 15,9
Centre 0,7 0,1 1,3 2,0
Gauche 2,6 0,5 5,0 8,0
Ni G ni D 0,0 0,0 0,1 0,1
Total 8,4 1,6 16,1 26,1
Tableau 7 : khi-deux du tableau d'approximation

Position Intrt vis--vis de la religion


politique Fort Moyen Nul Total
Droite 0,0 0,0 0,0 0,1
Centre 0,1 0,1 0,0 0,2
Gauche 0,3 0,3 0,0 0,6
Ni G ni D 0,6 0,6 0,1 1,4
Total 1,0 1,1 0,2 2,3
Tableau 8 : khi-deux du tableau du reste

On vrifie facilement que si cette fois la dcomposition ne se fait pas de


manire additive au niveau des cases, elle se fait au niveau des totaux de lignes, de
colonne et du total gnral. Pour le total gnral de 28,4 il se rpartit en 26,1 pour
lapproximation + 2,3 pour le reste. Cette rpartition est trs ingalitaire et peut se
mesurer par un pourcentage, dit traditionnellement dexplication qui est de 26,1 /
28,4 = 0,919 soit 91,9% pour le premier facteur et 8,1% pour le deuxime, ce qui
justifie le vocabulaire employ dapproximation pour le premier facteur (puisque 9 sur
10 de linformation repre par le khi-deux sy trouve) et de reste pour le 2e,
ventuellement ngligeable.
On se sert des totaux de khi-deux de chaque facteur pour valuer la
contribution de chaque ligne ou colonne dans un facteur. Par exemple, pour le
premier on voit que la plus forte contribution des lignes est celle de la droite qui
reprsente 15,9 sur un total de 26,1 soit 60,9%. Dans les programmes habituels ces
contributions sont donnes en millimes et non en pourcent (ici 609 pour mille).
Quand on a beaucoup de modalits, on voit immdiatement celles qui ont le plus
contribu la fabrication dun facteur, ce qui permettra de linterprter avec scurit.
Le khi-deux de chaque tableau, qui lui est propre est appel aussi valeur propre
du facteur : cette valeur propre est exprime par un driv du khi-deux, le khi-deux
divis par leffectif total (ou phi-deux). Il est pour le premier facteur de 26,1 / 512 =
0,051.

16
III Procdure de codage en tableau de Burt
Dans le cas prcdent, nous avions une question en colonne (l'intrt vis--vis
de la religion) et une question en ligne (l'opinion politique), or au prcdent chapitre,
nous avions repr une vingtaine de questions. Pour pouvoir traiter plus de deux
questions en mme temps, on prend comme tableau traiter, non le tableau crois
ordinaire, mais un tableau spcial, appel tableau de Burt10, qui consiste faire un
tableau entirement symtrique pour les lignes et les colonnes et o, par exemple en
ligne, se trouvent toutes les modalits de toutes les questions retenues. En croisant
avec les mmes modalits en colonne, on juxtapose les tris croiss prcdents et un
tableau diagonal o se trouvent les effectifs de chaque modalit. Lexemple
prcdent mis en tableau de Burt permettra den comprendre le principe.

Droi Cent Gauc NiNi Fort Moy Nul Tot.


Droit 72 24 41 7 144
Cent 56 14 30 12 112
Gauc 191 28 89 74 382
NiNi 193 46 83 64 386
Fort 24 14 28 46 112 224
Moy 41 30 89 83 243 486
Nul 7 12 74 64 157 314
Tot. 144 112 382 386 224 486 314 2048
Tableau 9 : tableau de Burt

Le tableau initial (politique en ligne, intrt en colonne) se trouve en haut


droite. En bas gauche, cest le mme tableau mais ce qui tait en ligne se trouve
en colonne et rciproquement. Les deux tableaux diagonaux nont deffectif que sur
la diagonale et cet effectif est le total marginal du tableau dorigine.
Avec une telle disposition, on peut mettre maintenant autant de questions que
lon veut. Ce tableau de Burt peut sinterprter, pour une modalit donne comme
leffectif correspondant la population ayant en mme temps les deux modalits. Par
exemple pour la premire modalit en ligne et toutes les autres en colonne sont
"droite" et "droite", les 72 de droite, sont "droite" et "centre", videmment personne
(blanc correspondant zro), puis sont de droite et dintrt fort 24, etc. Le total de
marge correspond ici, o il y a deux questions, 2 fois leffectif de marge (n fois sil y
a n questions). Le total gnral correspond 2 x 2 = 4 fois l'effectif de l'enqute car
leffectif total se trouve dans chacun des 4 tableaux (n pour n questions).
On vrifiera que dans un tableau de Burt, lcart lindpendance dune case
correspond strictement lcart lindpendance du tableau dorigine, ce qui fait que
la dcomposition factorielle est analogue avec toutefois des diffrences au niveau de
la dcomposition du khi-deux car il y a beaucoup de khi-deux artificiel dans le

10
En hommage au psychologue Cyril Burt (1883-1971)

17
tableau de Burt. En effet, comme le tableau dorigine est dupliqu, son khi-deux lest
aussi et le khi-deux li aux tableaux diagonaux est compltement artificiel.
Les rsultats sont prsents dans Trideux (dune manire assez classique) de
la faon suivante :
Facteur 1 Valeur propre = 0.375746
Pourcentage du total = 29.4
Facteur 2 Valeur propre = 0.284394
Pourcentage du total = 22.3
On voit dj que le codage en tableau de Burt fait baisser normment les
pourcentages dexplication de chaque facteur (qui taient de 92 et 8%). En effet, du
fait du khi-deux artificiel, davantage que 2 facteurs sont ncessaires pour rendre
compte de lintgralit des donnes (5 ici mais seuls les 2 premiers ne sont pas
artificiels). Il ne faut donc pas utiliser ces pourcentages pour interprter lanalyse :
lindicateur pertinent devient maintenant la valeur propre elle-mme en utilisant la
rgle empirique suivante :
- quand la valeur propre est suprieure 0,1 (ce qui est le cas ici pour les deux
facteurs utiles), cela indique une forte liaison entre les questions utilises ;
- quand la valeur propre est infrieure 0,1 mais suprieure 0,01, on est dans
le cas standard, habituel ;
- enfin quand la valeur propre est infrieure 0,01, la liaison entre les questions
est faible.
Quon se trouve souvent dans le cas standard vient du fait que les questions
que lon met dans une analyse nindiquent ni de trop fortes liaisons (parce quon les
connaitraient dj) ni de trop faibles (car on ne veut pas croiser des ralits trop
htrognes).
Coordonnees factorielles (F= ) et contributions pour le
facteur (CPF)
Modalites en colonne
*---*------*----*------*----*
ACT. F=1 CPF F=2 CPF
*---*------*----*------*----*
V931 870 309 265 38 Nul
V932 -219 30 -528 232 Moyen
V933 -743 161 773 230 Fort
V951 -1275 304 -256 16 Droite
V952 -518 39 -490 46 Centre
V953 557 154 -447 131 Gauche
V954 75 3 680 307 NiGniD
*---*------*----*------*----*
* * *1000* *1000*
*---*------*----*------*----*
Pour la liste des questions (on nindique que les colonnes mais les lignes
seraient strictement identiques), on a pour chaque facteur (F=), les coordonnes
factorielles (ou vecteurs propres) et la contribution en millimes. Les vecteurs
propres donnent un graphique trs proche du prcdent o la croise des axes est
marque par un angle droit et o la position de chaque point correspond la
premire lettre de son intitul :

18
Figure 2 : plan factoriel du tableau de Burt, facteur 1 horizontal, facteur 2
vertical.
IV Modalits supplmentaires
Dans une enqute, certaines questions sont de nature diffrente des questions
spcifiques de lenqute : ce sont celles qui sont employes dans toutes les
enqutes comme le sexe, lge, le niveau dtude, la catgorie socioprofessionnelle
ou ces variables spcifiques que sont lopinion politique ou religieuse. Ces variables
sont souvent appeles explicatives, terme datant dune poque o lon croyait
expliquer la superstructure par linfrastructure. Si lon ne prtend plus expliquer par
ces variables, on pense toujours que ces variables vont au moins clairer la
situation, illustrer par leur prsence un aspect important de la ralit ; on leur donne
donc aussi le nom de variables illustratives.
Pour les rendre oprantes, on met ces modalits en variables supplmentaires
dans lenqute. Pour comprendre ce qu'est une variable supplmentaire, dans le
tableau de Burt prcdent o lon a deux variables de type politique et religieux, si on
veut savoir o se positionnent les personnes ayant mis leurs enfants dans une cole
nouvelle compares celles qui ont choisi un collge de bonne rputation, la
stratgie de dpouillement consiste ne pas mettre strictement ensemble ces trois
questions mais respecter la diffrence de nature du choix dcole en mettant cette
question en variable supplmentaire11.
Mettre une question en supplmentaire ne modifie en rien lanalyse des autres
variables : cest une fois lanalyse faite que lon effectue des calculs supplmentaires
pour mettre dans le graphique chaque modalit au plus prs dune modalit ordinaire
(dite active par opposition supplmentaire) qui serait identique la modalit
supplmentaire.
En ajoutant la question de lcole en variable supplmentaire, on na rien
chang aux rsultats indiqus plus haut. On a simplement les lignes suivantes
ajoutes : la contribution qui est indique est hypothtique car cest celle quaurait
une modalit active identique.
*---*------*----*------*----*
SUP. F=1 CPF F=2 CPF
*---*------*----*------*----*
17A1 187 9 124 5 EcoleNouv
17A2 -44 2 -29 1 CollReput
*---*------*----*------*----*

11
Quand il y a beaucoup de questions, ce sont bien les modalits illustratives qui sont mises en lments
supplmentaires.

19
Les contributions des deux modalits sont faibles, elles seront proches du
centre. Toutefois on voit que les parents dcole nouvelle sont dans la direction du
ple dintrt nul et donc en faible conjonction avec lui, tandis que les parents ayant
choisi un collge de bonne rputation sont en lgre conjonction avec le ple droite /
intrt moyen.

Figure 3 : type dcole en supplmentaire


Cette technique de llment supplmentaire est utilise toutes les fois quune
modalit est htrogne par rapport aux modalits actives. Cest le cas des donnes
incertaines, difficiles interprter comme les non-rponses une question, cest
aussi le cas des modalits trs faible effectif qui peuvent perturber une analyse.
Plutt que de perdre compltement linformation, on met la modalit en lment
supplmentaire.
V Rsum
Ce qui est visualis par un graphique factoriel, ce sont les carts
lindpendance entre modalits, c'est--dire les attractions entre modalits. Lanalyse
va prsenter une premire approximation de lensemble des carts par un premier
axe ou premier facteur. Les carts restants vont tre approxims par un deuxime
facteur et ainsi de suite.
Pour chaque facteur, les contributions des diffrentes modalits sont plus ou
moins fortes : on se servira des plus fortes pour comprendre ce qui a t pris en
compte par un facteur. Quand le nombre de modalits est grand, cette slection est
indispensable pour ne porter sur le graphe que les modalits les plus contributives.
Les facteurs sont faits avec les variables actives : comme les modalits par
proximit de conjonction dessineront des types de rpondants, les variables actives
seront les questions qui sont spcifiques lenqute (opinions ou comportements).
Une fois la typologie faite, on illustrera ces types en ajoutant des modalits
supplmentaires qui seront les questions standards de toute enqute (sexe, ge,
etc.).
On notera quon ne fera pas linverse qui consisterait faire une typologie des
variables de statut en actives sur laquelle on projetterait en supplmentaires les
modalits de lenqute. Avec une telle procdure, et si lenqute tait bien
reprsentative de la population globale, on devrait toujours avoir la mme typologie
de statut social, puisque indpendante de lenqute. On ne fait pas cela car ce sont
des typologies de rpondants spcifiques aux enqutes que lon veut obtenir.
Cependant, comme on le verra plus loin, il pourra tre utile de faire une telle analyse
pour choisir les questions explicatives prendre en compte dans une analyse "toutes
choses gales par ailleurs".

20
Chapitre 3 : rechercher des types de rpondants avec lanalyse des
correspondances

Disposant maintenant de loutil quest lanalyse des correspondances, nous


allons prciser les rgles qui permettent de lutiliser efficacement. Attention, il sagit
dun processus cumulatif qui suppose un certain nombre dessais, de modifications
dans le choix des questions, de recodages, de mises en supplmentaires. La
technique, comme dailleurs toute technique statistique applique des donnes
relles, suppose une exprience, des rgles de lart que nous allons essayer de
communiquer travers lexemple que nous allons suivre. Avant darriver un rsultat
final simple, convaincant, facile exposer, il faut passer par des tapes o la mise
au point relve plus des rgles de la bonne cuisine que de linterprtation des lois
statistiques.
Rappelons o nous en sommes : par la technique de la variable dintrt (ici le
type dcole), nous avons slectionn une vingtaine de questions rassemblant prs
de 200 modalits de rponses, pour le moment toutes actives.
I Premire analyse : la queue de comte
Cette premire analyse porte prcisment sur 192 modalits, toute active. Les
premires valeurs propres sont standards puisque comprises entre 0,01 et 0,1 (les
pourcentages dexplication, qui dpendent pour leur plus grande part du nombre de
modalits, ne signifient rien : le plus fort ici nest que de 4%).
Examinons avant toute chose le premier plan factoriel (premier facteur
horizontal, deuxime facteur vertical). Le rsultat est tout fait dcevant puisque
seuls une douzaine de modalits apparaissent, les 180 autres tant superposes au
centre.

Figure 4 : la comte et ses queues


Quand sur un graphique comme celui-ci, les points sont superposs, il est
inutile dditer le mme graphique avec les noms longs qui donnent du sens aux
numros de modalits. Cependant, pour pouvoir ne serait-ce que lire les numros
des modalits, il faut dsintriquer manuellement les points sur le graphique (en
gnral en se servant de la souris). Ces lgres modifications de position nont
aucune consquence sur linterprtation. Cest ce qui est fait dans la figure 5 : on
saperoit que ces modalits sont de deux catgories :
- les non-rponses : ce sont toutes les modalits qui se terminent par zro

21
- les modalits faible effectif (de 1 individu 12)
Comme il sagit de modalits qui sont incertaines quant leur interprtation,
elles vont tre mises en modalits supplmentaires. Dans le logiciel Trideux, les non-
rponses sont par dfaut mises en lments supplmentaires.

Figure 5 : graphique de la fig.4 rendu plus lisible

Attention, la mme dmarche, de mettre en supplmentaires les lments


isols, doit tre faite plusieurs fois avant de faire la fission de la comte. Quand
on y arrive, la rpartition est meilleure mais on en encore trop de points au centre.
Pour rendre le graphique lisible, il faut nafficher que les points les plus contributifs,
en commenant par mettre le seuil 1, puis 2, puis 5, 10, 20 : arriv ce seuil o le
graphique devient lisible, on peut redescendre progressivement jusqu 15, ce qui
donne la premire analyse de la figure 3 o une trentaine de points sont reprsents.

Figure 6 : premire analyse, contribution minimum de 15 pour mille


Comme des proximits (angle au centre faible) indiquent des attractions entre
modalits, commenons par le point le plus en haut droite du graphique
(1EducAutonomie) qui indique que la premire priorit ducative donne par la mre
est lautonomie, le fait de rendre responsable lenfant. Cest un aspect qui a t jug

22
trs important dans le choix du collge (AutonomieClgOui++) alors que la proximit
gographique na pas t dterminante (ProxiNon) et que le niveau scolaire ne la
t que moyennement (RussiteClGOui=). Dans ce type, on a limpression de ne pas
reproduire le modle ducatif que lon eu soi-mme (ReproEducPasDu Tout), ce qui
fait que la premire rponse envisage comme type de sanction, (1SanctionAutre)
est que les rponses traditionnelles sont repousses (privation, rprimande, etc.). La
comptition sportive ny est pas favorise.
Les frontires du type ne sont pas nettes : on a indiqu les rponses en
conjonction 45 avec la premire modalit choisie mais une rponse comme le fait
que lenfant soit au courant des opinions politiques de ses parents est partage avec
le type du rpondant de la partie infrieure droite qui est daccord aussi pour dire
que, en ce qui concerne lavenir de lenfant, il faut quil aille son rythme.
Pour le type de rpondant en bas droite, la satisfaction de lenfant lcole
nest pas ncessaire (SatisEnfantNon) et lautonomie na pas fait partie du choix du
collge qui dailleurs na pas t une dcision dlibre mais qui sest faite toute
seule.
Le troisime type, gauche, soppose au deux autres : on y met laccent sur les
valeurs ducatives traditionnelles que lon veut reproduire, le respect, la confiance, la
politesse. En matire davenir, on veut que lenfant aille le plus loin possible et la
comptition (sportive) y est favorise. Cest un choix des parents et le collge a t
lobjet dun choix en fonction de son niveau.
Cette premire analyse montre trois types : ducation mettant laccent sur
lautonomie, ducation mettant laccent sur les valeurs traditionnelles et un troisime
type qui ne semble pas avoir fait de choix spcifique. On peut faire lhypothse
raisonnable que le premier type doit tre li aux coles nouvelles, mais lesquelles
spcifiquement ?
Bien que lon ait dj trait prs de 200 modalits, on voit quil manque
beaucoup de choses pour rpondre aux questions initiales de lenqute, par exemple
le sexe de lenfant, le choix des diffrents collges, le niveau de lenfant, les
caractristiques sociales des parents.

II Analyse finale
Pour arriver lanalyse finale, il va falloir introduire les questions qui vont
permettre de rpondre aux hypothses de dpart qui sont celles de cette enqute. Le
questionnaire utilis devait permettre de tester si le choix d'une cole nouvelle
pouvait tre li soit :
- une stratgie de rattrapage : l'enfant a des difficults dans le systme
scolaire standard et dfaut d'une bonne russite scolaire, il cultive les nouvelles
valeurs de notre poque que sont l'authenticit, la capacit relationnelle,
l'autonomie ;
- une stratgie de reconversion : mme si l'enfant n'a pas de difficults
scolaire, certains parents pensent que ces mmes nouvelles valeurs (autonomie,
capacit relationnelle, authenticit) sont celles qui vont s'imposer dans la vie
prsente et qu'il faut en doter ses enfants.

23
Autre sous-hypothse : est-ce qu'il n'y aurait pas une tendance ce que l'on
insiste davantage pour les garons sur la russite scolaire et pour les filles sur ces
nouvelles valeurs, plus "douces", plus lies traditionnellement l'insistance associe
au modle fminin du relationnel.
Pour rpondre la premire hypothse, il faut introduire des indicateurs de
niveau scolaire, pour la 2e il faut le sexe de lenfant.
Dune manire gnrale, il faut introduire en modalits supplmentaires les
variables de statut social : sexe, ge, etc. ainsi que toute question que lon juge
pertinente : le nombre nest pas un obstacle car on peut sans difficult traiter
plusieurs centaines de modalits.
Pour lanalyse finale, on a donc ajout des variables de statut ou apparentes :
sexe, niveau scolaire de lenfant, opinion politique de la personne interroge. On en
arrive au total de 273 modalits dont 152 supplmentaires. Comme le plan factoriel
est videmment trop charg, on slectionne les modalits en fonction de leur
contribution.
On ne prend pas le mme niveau de contribution pour les modalits actives
(20) et pour les supplmentaires (6). En effet, les modalits supplmentaires, par
construction ne peuvent tre trs en relation avec les actives car elles ne sont pas de
mme nature. Dans toute enqute, les questions dopinion ou de comportement
associes un mme domaine prsentent entre elles des attractions fortes, par
contre avec les variables de statut, les relations existent mais sont moins fortes.
Comme on veut faire apparaitre des supplmentaires pour illustrer lanalyse, on
utilise un niveau moins lev de contribution.
Pour le choix de ces seuils, il faut procder par essais et erreurs : si le seuil est
trop faible, on a trop de points, sil est trop fort, on nen na plus assez. Il faut trouver
un quilibre qui dpend aussi de la place dont on dispose. En cas de difficults, il est
possible de prsenter un plan gnral schmatique comme celui-ci o les ellipses et
leur titre sont le fruit dune interprtation mais qui aident la lecture.

Figure 7 : analyse finale : schma densemble


Commenons par interprter les points situs en proximit de l'axe horizontal
du graphique (qui correspond l'opposition la plus forte). Dans l'ellipse de droite on a
regroup des points qui sont autant de manifestations d'un bon niveau scolaire :

24
Figure 8 : Bon niveau scolaire

III Type : bon niveau scolaire


- "Niveau lve trs bon12" : il s'agit de la question suivante "Comment
percevez-vous votre enfant du point de vue scolaire", et c'est la meilleure perception.
- "Aide des parents non ncessaire" : rponse ngative la question "Le soir,
pour son travail scolaire, vous ou son pre intervenez-vous ?".
- "1re Matire Scolaire NR", A la question de savoir s'il y a des matires
scolaires dans lesquelles l'enfant se montre le meilleur, la mre rpond que non, il
est bon dans toutes les matires (NR signifie Non rponse).
A ces indicateurs d'un bon niveau scolaire sont associs des comportements
comme :
- le fait de ne pas trouver de sujet de dsaccord avec l'enfant quand on
demande d'en lister plusieurs ("Dsaccord aucun") o le fait que le premier "dfaut"
de l'enfant soit le fait d'tre "timide" ce qui n'est pas un dfaut trs marqu (les
"dfauts" et "qualits" n'ont pas t proposs a priori, il s'agit des termes mmes des
rpondants). On voit une atmosphre familiale apaise o le "dfaut" de l'enfant est
cohrent avec le calme qui y rgne.
- l'insistance sur la lecture : lire est la premire activit prfre par l'enfant
("1Lire") et, Nol, il a reu des livres et d'autres cadeaux. D'une certaine faon,
cette insistance sur la lecture appartient la fois l'excellence scolaire (car au
collge l'incitation la lecture est forte) et en mme temps un style cultiv de
loisirs.
Un indicateur de statut est associ ce ple d'excellence scolaire : il s'agit
d'une modalit supplmentaire qui est en attraction avec les modalits qui sont
spcifiques des rpondants de ce secteur. Il s'agit d'enfants de sexe fminin (
gauche de l'ellipse qui n'est qu'un repre visuel pour aider et n'est pas construite par
l'analyse statistique mais par celui qui interprte le graphique). On retrouve l ce
rsultat bien connu que les filles russissent mieux scolairement que les garons13.
Symtriquement au bon niveau scolaire, se trouve sur le ct gauche de l'axe
un ple de difficults scolaires.

12
Sur le graphique et pour gagner de la place, des abrviations ont t employes et cette modalit est marque
"NivElveTrsBon". Dans la suite du texte les modalits sont marques sous leur forme explicite.
13
Plus le point est prs du centre, moins il est li aux points dans la mme direction. Ici par exemple la modalit
"Niveau de l'lve trs bon" reprsente 20% de la population mais elle est plus forte chez les filles (24%) et
symtriquement plus faible chez les garons (15%) : l'attraction n'est pas trs forte mais statistiquement
significative. D'une manire gnrale cf. Christian Baudelot et Roger Establet, Allez les filles ! Seuil, 1998

25
Figure 9: difficults scolaires

IV Type : difficults scolaires


La perception du niveau scolaire est soit "moyen" (en bas de l'ellipse) soit
considr comme "ayant des difficults" (en haut) : ces deux apprciations sont les
plus basses de l'chelle propose qui allait de "trs bon lve" "lve ayant
quelques difficults".
De ce fait la question scolaire devient l'objet d'investissements constants et de
conflits :
- A la question de savoir comment le soir, le pre ou la mre interviennent pour
le travail scolaire de l'enfant, une des rponse de ce ple est que l'on "regarde
chaque soir ce qu'il a faire et ce qu'il a fait" ("Aide : parents surveillent") : c'est la
rponse situe en bas de l'ellipse prcisment du ct du ple de style ducatif
traditionnel (que nous verrons ensuite) alors qu'en haut, la rponse est simplement
qu'on l'aide ("Aide : parents aident") et cette rponse est plus proche du ple de
l'ducation nouvelle.
- le travail scolaire est cit comme la premire occasion de rprimande ou de
punition et galement comme premier sujet de dsaccords entre parents et enfant.
L'enfant n'est d'ailleurs pas satisfait non plus de l'enseignement qu'il reoit de ses
professeurs ("Satisfaction Enfant : Non"). Comme le travail scolaire est le problme,
le collge n'a de ce fait pas t choisi parce qu'on y dveloppe l'autonomie
("Autonomie Collge : Non").
- si une sanction est envisage, l'option choisie est "mon enfant a une de ses
activits favorites qui est supprime provisoirement".
- cette situation entraine une perception du premier dfaut de l'enfant comme
tant "paresseux" (intitul qui regroupe aussi peu courageux, "flemmard", pas
studieux) ou "tourdi" (ou distrait, "tte en l'air", manque d'attention). Par contre, la
premire qualit voque est le fait que l'enfant soit "affectueux", ce qui est
videmment indpendant des problmes scolaires.
Comme indicateur de statut, on trouve, symtriquement au type bon lve, que
les garons sont plus nombreux que les filles tre en difficult scolaire. Il y a
galement un autre statut du pre, celui d'appartenir aux professions de l'information,
des arts et des spectacles ("PreInfoCom") qui est en haut du regroupement, proche
du nouveau style ducatif : ceci signifie que ces parents ont la fois des traits
ducatifs nouveaux et des enfants en difficult scolaire.

26
En conclusion de cette analyse de l'opposition horizontale du graphique, il
apparait que ce qui distingue d'abord les perceptions, c'est le niveau scolaire : les
styles ducatifs que nous allons voir maintenant, dans la mesure o ils s'opposent
dans l'autre dimension du graphique (verticale), nous indiquent que l'on pourra
trouver des styles ducatifs associs soit de bons, soit de mauvais rsultats
scolaires.

V Type : style ducatif ancien


Ce style ducatif, situ en bas du graphique, est qualifi d'ancien par rapport
au style qui revendique la nouveaut, mais il est tout fait classique dans les
catgories sociales tudies.

Figure 10 : style ducatif ancien

- La rponse donne la question sur ce quoi on insiste en priorit dans


l'ducation, est la politesse ("1Educ Politesse"), rponse qui regroupe aussi, le fait de
"savoir bien se tenir", le fait d'tre "bien lev", d'avoir du "savoir vivre".
- En insistant sur cette valeur, les parents ont d'ailleurs le sentiment de donner
" peu prs" l'ducation qu'ils ont reue de leurs propres parents et non "tout fait",
car l'ducation qu'ils donnent n'est pas le mode le plus "traditionnel". Par exemple, le
choix du collge est une dcision commune du pre et de la mre14 ("Choix Pre +
Mre"), cependant, parents et enfants ne vivent pas sur un pied d'galit comme le
montre le fait que les enfants ignorent les positions politiques du parent ("Au courant
opinion politique : non").
- si sanction il doit y avoir, c'est le confinement dans la chambre qui est choisi
("1 Sanction Chambre")
- le sport et la comptition jouent ici un rle important : le sport est la premire
activit prfre de l'enfant et il fait un sport de comptition. D'ailleurs, l'occasion de
rprimande cite est le comportement violent de l'enfant, le fait qu'il se dispute
("Rprimande Dispute"), ce qui n'est pas sans lien avec les activits proposes (qui
sont nombreuses "Nombre d'activits = 3"). Les enfants (en petit nombre), dont le
dfaut est d'tre "bagarreurs", se trouvent dans cette zone.

14
Le standard relationnel du milieu est une forme d'galit dans les prises de dcision du couple, ce qui n'tait
peut tre pas le cas dans la gnration des propres parents des personnes interroges.

27
Comme indicateur de statut, l'opposition entre styles d'ducation se fait plus sur
une base d'affiliation politique : la mre qui rpond s'autopositionne plutt droite.
On retrouve symtriquement le positionnement politique gauche pour le nouveau
style ducatif que nous allons maintenant tudier.

VI Type : nouveau style ducatif


Ce nouveau style ducatif se trouve symtriquement en haut : on y retrouve La
Source au centre et deux autres collges, Decroly un peu gauche et l'Ecole
Alsacienne, plus droite, (c'est--dire participant en mme temps au type "bon
niveau scolaire"). Ce qui caractrise ce type, c'est prcisment le refus de pratiques
que le questionnaire, fait pour toucher tout le monde, prsentait comme "normales"
et qui sont prcisment refuses ici.

Figure 11 : un nouveau style ducatif

Par exemple, le questionnaire demandait de dire " quelle occasion vous


rprimandez ou vous punissez ?". On trouve ici d'abord le refus de rpondre
("1SanctionNR") ou la codification "autre" ("1SanctionAutr") qui indique que le
rpondant n'a pas pris les rponses les plus frquentes comme "recevoir une
explication" ou "tre priv de ses activit favorites" ou "devoir rester dans sa
chambre" : les attitudes les plus classiques sont ici refuses. De mme la question
de la perception du niveau scolaire de l'enfant (allant de trs bon difficults avec
les intermdiaires), ces parents choisissent la rponse "je refuse ce genre de
classement" (cod "NivEleveRefus"). L'intervention des parents dans le travail
scolaire est refuse ("il doit le faire tout seul" cod "Aide Parent Non Fait Seul").
Ces refus sont perus par les parents de ce secteur comme une nouveaut
ducative : par rapport l'ducation qu'eux-mmes ont reu, ils ne pensent pas du
tout reproduire la mme ("ReproEducPasDuTout") : un autre lment de cette
nouveaut est dans les rapports entre parents et enfants o l'on trouve plus de
transparence des parents, dont les opinions politiques (d'ailleurs de gauche) sont
connues des enfants.
Pour mieux comprendre ce nouveau style ducatif, nous allons procder un
agrandissement de cette zone en faisant apparaitre un plus grand nombre de points
qui contribuent moins que les prcdents la fabrication de ce portrait-robot

28
statistique, mais qui permettent d'en mieux prciser la nature15. Dans cet
agrandissement, nous avons souligns les points dj vus dans le graphique gnral
prcdent.
Plusieurs modalits sont issues de la question sur la priorit en matire
d'ducation : de plus cette question tait une "question ouverte", c'est--dire que les
rponses n'taient pas proposes par le questionnaire mais que les mots mmes
des rpondants taient accepts librement. Dans le ple du nouveau style ducatif,
on repre deux thmes principaux :

Figure 12 Nouveau style ducatif (agrandissement)


1) l'autonomie de l'enfant, son veil ; dans la mme catgorie on peut mettre le
fait de dire que l'on n'a pas de priorit ducative, ce qui, d'une manire plus radicale,
laisse entendre que l'enfant doit tre laiss autonome.
2) l'attention aux autres, la tolrance, l'ouverture, le dialogue, la gnrosit.
C'est la prsence simultane de ces deux thmes qui dfinit le style ducatif : il
s'oppose la "confiance mutuelle" du bon niveau scolaire qui peut tre interprte
comme une exigence de transparence sans problme, il s'oppose encore plus
radicalement l'exigence de "franchise" du style traditionnel qui est une injonction
une transparence force. L'opposition est encore plus forte avec l'exigence
d'obissance qui se trouve dans le style traditionnel quand on a de mauvais rsultats
et le dveloppement du sens de l'effort li aux mauvais rsultats16.
En ngatif, c'est--dire en ce qui concerne les occasions de rprimande, soit on
refuse le terme, soit on stigmatise ce qui va contre les valeurs altruistes comme
l'gosme, la vulgarit et la colre (ainsi que le dsordre, signe d'une autonomie en

15
Niveaux de CPF pris 3 pour mille. Il faut bien prciser que c'est ce choix qui fait apparaitre petit petit les
points, en fonction de leur importance dans la cration des types : la mthode est inductive, c'est--dire que ce
n'est pas l'interprte qui fait la slection des points son gr.
16
Modalits non prsentes dans le graphique gnral et qui n'apparaissent que sur le graphique grande chelle
dans sa partie non montre ici.

29
cours). Ceci n'empche pas les occasions de dsaccord, comme en ce qui concerne
les sorties : l'autonomie est une conqute progressive et les parents s'estiment un
droit de surveillance.
Nous somme l au cur de la tension ducative : l'injonction d'autonomie peut
sembler une contradiction17 :
- comment tre autonome et dpendant de sa famille ? Ce qui est dfini par ce
style, c'est une priorit donne dans l'ducation, non une reconnaissance (illusoire)
d'autonomie existante. L'enfant d'ge collge est toujours dpendant et l'ducation
passe par des activits faite avec lui telles qu'on les trouve signales dans le
graphique : de discussion, d'activits culturelles faites l'extrieur ou la maison,
mais aussi par le biais d'activits d'panouissement personnel (couter de la
musique, programmer), plus que par le sport de comptition qui n'est pas apprci.
- comment tre autonome et ouvert aux autres ? Cette double exigence
manifeste que l'autonomie n'est pas vcue comme un isolement mais comme une
phase ncessaire d'intgration dans un groupe dont on accepte les rgles. Etre
autonome et ouvert aux autres, c'est entrer de plein pied dans la tradition
dmocratique o par la discussion, qui suppose des ressources personnelles et une
conviction autonome, on est confront aux autres que l'on respecte.

VII Retour aux hypothses de dpart


Cette enqute avait t faite pour tester plusieurs hypothses dont certaines
sont faciles liminer.
1) le nouveau style des coles nouvelles serait l'amplification de valeurs
fminines : on a vu que s'il y a une opposition de genre, elle concerne la
traditionnelle meilleure russite scolaire des filles, dans le cadre de la premire
opposition que met en avant l'enqute.
2) les coles nouvelles seraient destines rattraper des lves de classe
moyenne suprieure en chec scolaire. Cette hypothse tombe du fait que les deux
axes du graphique sont indpendants (orthogonaux sur le graphique). Il y a une
opposition en terme de niveau scolaire (axe horizontal) et une en terme de style
ducatif (axe vertical). Il y a des familles de chaque style ducatif dans chaque
niveau scolaire. Ce que le graphique nous suggre cependant, c'est que l'Ecole
Alsacienne, situe en haut (nouveau style ducatif) et droite (bon niveau scolaire)
correspond l'alliance de ces deux qualits, La Source est un niveau
d'indpendance.
Une modalit semble cependant manifester que la difficult scolaire, faite
d'inadaptation au systme traditionnel conduit trouver dans l'Ecole nouvelle une
solution. En effet, dans le tout premier graphique, le point le plus en haut gauche
(donc appartenant au mauvais niveau et au nouveau style ducatif) correspond
l'indication de difficults scolaires au primaire en terme d'adaptation au systme
scolaire, ou de manque d'intrt ("DifScolAdaptationScol"). On ne peut donc exclure

17
comme l'injonction d'amour, le "double bind", la clbre double contrainte impossible raliser car il est
contradictoire de demander d'aimer si l'amour est un mouvement libre.

30
que des difficults d'adaptation conduisent des parents vers des coles nouvelles
plus respectueuses des dmarches de chacun18.
3) quant la troisime hypothse qui assimile le choix d'un nouveau style
ducatif une reconversion des valeurs nouvelles d'autonomie, de capacit
relationnelle et d'authenticit, elle est vrifie d'une certaine faon mais ce qui est
mis en avant par le choix des parents, c'est la racine profonde de ces nouvelles
valeurs, que rvle cette tension entre autonomie et ouverture aux autres comme
nous allons le voir maintenant. Les coles nouvelles ne sont pas caractrises par le
fait de mettre l'accent sur l'autonomie et sur les capacits relationnelles, elles sont
caractrises par un nouveau style de positionnement o l'individu, ayant confiance
en lui-mme, a aussi la volont d'entrer en dialogue avec les autres.
Il nous faut cependant revenir un peu en arrire en notant que le premier
clivage apparu dans notre population tudie est relatif la perception du niveau
scolaire de l'enfant avec toutes les pratiques ducatives qui vont avec. C'est
l'opposition majeure dans notre population enqute, comme c'est le souci
fondamental de toute famille ayant un enfant d'ge scolaire. Quel que soit le style
ducatif, il n'est pas possible de s'affranchir de la russite scolaire. Ce qu'apporte
l'enqute, c'est qu' ce souci commun peuvent tre associs des styles ducatifs
diffrents : le style classique des milieux sociaux favoriss (ceux de notre enqute)
fait de pression, de comptition, d'inculcation des valeurs traditionnelles de l'enfant
"bien lev" ; mais aussi ce style d'ducation nouvelle fait de cette tension entre
construction d'une autonomie et souci du groupe.
VIII Education nouvelle et socit
Pour rendre compte de cette tension, il faut examiner la dynamique qui est
l'origine du mouvement de l'Education nouvelle au 20e sicle19. En effet, si les
rformateurs pdagogiques des origines (Montaigne, Port-Royal, Comenius,
Rousseau) ont toujours eu l'ide que la dynamique de l'apprentissage passait par
l'intrt propre de l'enfant (contre l'ide que l'enfant pouvait tre instruit contre son
gr), la spcificit des rformateurs contemporains a t de tenir compte aussi des
avances scientifiques d'une part et de la question politique d'autre part.
Je n'insisterai pas ici sur l'apport de la psychopdagogie, en particulier des
apports de Piaget, qui a t personnellement partie prenante du mouvement de
l'Education nouvelle, mais je voudrais souligner l'aspect politique, au sens large, du
mouvement. Prenons le cas d'Henri Wallon (1879-1962) la fois psychologue et
homme politique, lui aussi partie prenante du mouvement de l'Education nouvelle : il
insiste sur l'tude ncessaire de l'enfant20, la fois d'un point de vue individuel (qui
relve de la psychologie) et d'un point de vue collectif (qui relve de l'tude du milieu
de l'enfant).
Comme on le sait, le rapport Langevin-Wallon, issu d'une commission runie
ds la fin de la guerre et qui rendit son rapport en juin 1947, propose une rforme de
l'enseignement qui, dans un but de dmocratisation propose une unification des

18
Cette modalit est significativement lie des indicateurs de mauvais niveau scolaire d'une part et est prise par
quelques enfants de Decroly, ce qui explique sa position sur le graphique.
19
Annick Raymond, L'ducation morale dans le mouvement de l'Education nouvelle, L'Harmattan, 2002
20
cf. Annick Raymond 2002 : p.140

31
rseaux scolaires et, dans un but d'efficacit pdagogique, reprend des acquis de
l'ducation nouvelle.
Comme le dit dans ce sens l'introduction du rapport : "les tudes primaires,
secondaires, suprieures sont trop souvent en marge du rel. L'cole semble un
milieu clos, impermable aux expriences du monde. Le divorce entre
l'enseignement scolaire et la vie s'accentue par la permanence de nos institutions
scolaires au sein d'une socit en voie d'volution acclre. Ce divorce dpouille
l'enseignement de son caractre ducatif. Une rforme est urgente qui remdiera
cette carence de l'enseignement dans lducation du producteur et du citoyen et lui
permettra de donner tous une formation civique, sociale, humaine".21
Ce rapport restera lettre morte mme si sous la 5e Rpublique, les rformes
utiliseront certaines de ses propositions comme l'orientation, en en dtournant l'objet.
Alors que le projet visait la dmocratisation de l'enseignement, on doit bien se rendre
compte, comme le souligne l'historien Antoine Prost, que "la dmocratisation a
progress jusqu'au dbut des annes soixante dans une structure scolaire pense
par des conservateurs avec une volont proprement ractionnaire de dfense et
illustration des humanits, alors qu'au contraire, les rformes de 1959, 1963 et 1965,
qui voulaient assurer l'galit des chances devant l'cole et la dmocratisation de
l'enseignement ont, dans les faits, organis le recrutement de l'lite scolaire au sein
de l'lite sociale."22. En effet la procdure d'orientation a t dtourne : la formation
professionnelle a t utilise comme une voie d'chec, ce qui en a fait un repoussoir.
Les mthodes actives issues de l'cole nouvelle ont t ignores.
La vise politique est prsente dans le rapport et, dans le paragraphe consacr
l'ducation morale et civique, on trouve une citation de Paul Langevin, autre acteur
du mouvement de l'Education nouvelle : "l'cole fait faire l'enfant l'apprentissage de
la vie sociale et, singulirement, de la vie dmocratique. Ainsi se dgage la notion du
groupe scolaire structure dmocratique auquel l'enfant participe comme futur
citoyen et o peuvent se former en lui, non par les cours et les discours, mais par la
vie et l'exprience, les vertus civiques fondamentales : sens de la responsabilit,
discipline consentie, sacrifice l'intrt gnral, activits concertes et o on utilisera
les diverses expriences de self-government dans la vie scolaire".
Si le systme scolaire dans son ensemble reste loin de cet idal, nous devons
noter qu'il reste au cur des aspirations des parents qui choisissent l'cole nouvelle.
La vie dmocratique ne s'apprend pas comme un concept mais comme une
exprience dans laquelle chaque enfant doit la fois cultiver son autonomie, pour
exister lui-mme et, en mme temps, mettre en uvre l'acceptation des autres, ce
vouloir vivre ensemble qui est selon Renan23 ce qui rend possible la vie d'une
collectivit, d'une nation24. Cette pratique est une valeur, une thique et comme telle

21
Le rapport Langevin-Wallon a t rendu disponible rcemment dans : Claude Allgre et Philippe Meirieu,
Pour l'cole, Mille une nuits, 2004, il est galement disponible sur internet par exemple l'adresse
http://perso.wanadoo.fr/claude.rochet/ecole/docs/langevin.pdf
22
Antoine Prost, L'enseignement s'est-il dmocratis ? Presses universitaires de France, 1992, p.201.
23
Ernest Renan, Qu'est-ce qu'une nation ? Edit par Jol Roman, Presses Pocket, 1992
24
Aujourd'hui, le penseur qui a le mieux thoris cette pratique sociale faite d'autonomie et d'ouverture aux
autres est Habermas qui a montr que la pratique dmocratique consiste accepter le meilleur argument propos
dans la discussion. Cf. entre autres ouvrages, Jrgen Habermas, De l'thique de la discussion, Les ditions du
Cerf, 1992, Champs/Flammarion.

32
doit tre apprise et transmise. L'apprentissage de la vie dmocratique, fait
d'autonomie personnelle et de souci de la collectivit, est ce qui est recherch dans
une Ecole nouvelle, comme l'a montr empiriquement cette enqute.

IX Retour lanalyse locale


Une fois la vue densemble tablie, il est possible de revenir lanalyse locale,
c'est--dire de centrer sont attention sur une modalit particulire en reprant o
cette modalit se situe et avec lesquelles elle est lie.
A titre dexemple, nous centrerons notre analyse locale sur la modalit lve
moyen qui se situe dans le ple des difficults scolaires. A cette fin, on recherche
quelles sont toutes les modalits qui sont significativement en attraction avec le fait
dtre lve moyen : on utilise nouveau le PEM Pourcentage de lcart maximum.
Les rsultats peuvent tre manifests de deux manires : d'abord en utilisant un
morceau du graphe factoriel et en visualisant par un trait la prsence (et si lon veut
lintensit) dune attraction.

Figure 13 : Graphe des attractions de llve moyen


On peut aussi prsenter le profil des PEM qui donne par attraction dcroissante
les autres modalits de lanalyse significativement25 en attraction.

Profil de la modalit V333 NivElveMoyen


N=126
Nom PEM Obs. Test Intitul
V7A5 100 2 * 1Bricoleur
CSP7 100 2 * PInstit
35A9 78 5 *** 1MatScolTechnique
V8AB 62 5 ** 1Dsinvolte
35A8 56 8 *** 1MatScolSport
CSP9 50 5 ** PInterAdmPub
V7AS 34 9 ** 1Sensible
CSPA 34 6 * PInterPriv
V8AR 31 25 *** 1Paresseux

25
On utilise pour les test du khi-deux les repres suivants : 3 toiles, significatif au seuil de 1%, 2
toiles : 5%, une toile : 10%

33
V851 30 8 * 1SanctionArgentPoche
CSPB 29 7 * PTechnicien
17B4 28 10 ** Carnot
V320 26 18 *** SatisEnfantNR
67A3 24 88 ** CadeauxNoelNonLivres
84A1 23 41 *** RprimandeTravScol
V392 22 32 *** DifScolRelationnelles
V8A7 15 14 * 1Brouillon
89A2 13 48 *** DsaccordTravScol
V361 13 32 ** AideParentSurveille
V952 12 19 * PosPolMreCentre
61A1 12 63 * 1JouerSortirAmis

Il y a un certain bruit dans ce genre de profil (mais le bruit est moins gnant
que le silence ) : par exemple les deux profils 100% signifient que les 2
individus dont la premire qualit est dtre bricoleur sont tous des lves moyens.
On retrouve dans le profil les dolances des parents sur le niveau scolaire, le fait de
mettre en avant les matires o lenfant est bon : le technique et le sport, des
parents de classe moyenne au style ducatif traditionnel sanctionnant par le biais de
largent de poche, et o la lecture nest pas privilgie.
On peut ainsi expliquer une modalit par les autres modalits qui lui sont
lies comme on explique un mot du dictionnaire par dautres mots en lien
smantique avec lui. Plus le nombre de modalits pris dans lanalyse sera vaste et
plus le profil sera riche et lexplication intressante.

X Retour la mthode
Il nest possible de montrer comment on dpouille une enqute quen le faisant,
en interprtant un graphique o beaucoup de modalits sont prsentes afin quil soit
assez riche. On a vu aussi que cette interprtation revient aux hypothses de dpart
pour montrer comment elles sont soit rfutes soit modifies. Enfin, les rsultats de
lanalyse ont t replacs dans une problmatique plus vaste qui est celle du
domaine tudi, ici la sociologie de lducation.
Il y a l un effet qui peut tre dangereux : dans la mesure o sont injectes ici
beaucoup de connaissances extrieures lenqute, on peut lgitimement se
demander si les graphiques factoriels nont pas servi de test projectif des opinions de
lanalyste.
Pour lever ce doute, nous allons maintenant procder des vrifications
empiriques propos des quatre types de rpondants qui ont t isols en revenant
aux donnes elles-mmes. Nous tudierons en dtail le type que nous avons le plus
dvelopp, qui est au cur de lenqute, le nouveau style dducation en nous
posant une question simple : quelle est limportance numrique de ce type de
rpondant et comment pouvons nous le dfinir ? A cette fin nous allons montrer
comment il est possible de constituer une nouvelle variable qui dfinirait
lappartenance au type.

34
XI Construire une nouvelle variable dun type
La vrification le plus simple est le comptage : nous allons prendre les
modalits qui sont apparues dans le nouveau style pdagogique et nous allons
compter combien dindividus ont en commun ces modalits. Nous utiliserons donc
les questions suivantes prsentes dans le graphique correspondant (dtaill, non
prsent ici) :
1) plusieurs qualits de lenfant apparaissent ; prenons celles qui sont donnes
en premier : attentionn, autonome, curieux, ouvert, rapide, serviable et la non-
rponse qui refuse ce genre de jugement. Ces qualits se caractrisent par leur
aspect non scolaire et par les qualits humaines douverture et dattention aux
autres. Il va de soi quun tel test est projectif du projet ducatif des parents.
2) inversement, quand on voque un cas ventuel de rprimande, le parent
propose les cas suivants : dsordre, vulgarit, gosme, colre ou encore le refus de
cette ventualit. Cest laspect ngatif du fait de se centre sur soi qui est sanctionn,
non le manque dardeur au travail.
3) la question suivante voque en consquence une sanction possible : ici soit
on refuse de rpondre, soit une autre issue est envisage.
4) les valeurs ducatives proposes ici sont : lautonomie, la confiance, le
respect, la gnrosit, la capacit dveil, la tolrance.
5) quand on demande le niveau scolaire de llve, la rponse est quon refuse
ce genre de classement.
6) le parent, quand on lui demande sil a limpression de reproduire le modle
ducatif quil a reu rpond que ce nest pas le cas du tout.
7) enfin, lenfant est au courant des opinions politiques de ses parents.
On a donc 7 questions dont certaines ont plusieurs modalits dans le style
repr : nous allons simplement compter combien dindividus ont de modalits de ce
type : le maximum est 7 car quand plusieurs modalits dune question sont prsente,
il ne sagit pas de rponses multiples mais de rponses proches et chaque
rpondant ne peut en prendre quune par question.
Nous sommes ainsi en mesure de construire un indicateur simple
dappartenance au style : ceux qui en auront 7 constitueront le type pur et ceux qui
nen nauront aucune seront des opposants stricts.
Voici le comptage du nombre de modalits, de 0 au maximum observ.

Tot. 0 1 2 3 4 5
512 66 182 164 69 16 15
100 12.9 35.5 32.0 13.5 3.1 2.9

En examinant cette distribution, la premire raction peut tre la dception :


aucun individu natteint le maximum, ni mme 6 modalits et ils sont peu nombreux
en avoir 4 ou 5. Les deux tiers de la population ont une ou deux modalits du type, ni
refus strict, ni adhsion notable.

35
Comme ce phnomne est permanent, quelque soit lenqute, il vaut mieux
comprendre la situation de la faon suivante : ce que nous propose lanalyse des
correspondances dans les regroupement que lon observe ne sont pas des types
ltat pur, mais des types ltat approch dont la prsence simultane de modalits
forme un tout logique intelligible. Cest ce que Weber a appel un type-idal :
cest ce qui a fait la fois la sduction de ce type danalyse et sa difficult quand on
a pris pour des types rels ce qui ntait que type-idal26.
Lexprience montre quune bonne approximation du type est donne quand on
regroupe les individus qui ont au moins la moiti des cas observs, c'est--dire ici,
puisque 5 est le maximum, ceux qui en ont 3, 4 ou 5, c'est--dire les 100 individus
qui reprsentent 20% de la population.
Cette population ne se confond pas avec les enfants dont les parents ont choisi
une cole nouvelle : si lon croise le type approch du nouveau style ducatif avec le
type dcole, on a les rsultats suivants :
Nouveau style ducatif
Non Oui Total
Ecole 65 33 98
nouvelle 66,3 33,7 100
Collge 347 67 414
autre 83,8 16,2 100
Total 412 100 512
80,5 19,5 100
Tableau 10 : Ecole et style ducatif
Il y a bien attraction entre les parents dEcole nouvelle et le nouveau style
ducatif puisque ce style reprsente 20% de la population et que, dans la population
dEcole nouvelle, le pourcentage est suprieur (34%). Sur le graphique, les coles
nouvelles sont bien proches du nouveau style ducatif mais cest bien une attraction
qui est indique, non une exclusivit. Le nouveau style ducatif se retrouve aussi
chez des parents qui nont pas fait le choix de lEcole nouvelle.
La nouvelle variable qui a t cre partir dun type-idal (et que lon peut
appeler pour cette raison variable idale-typique) permet de rsumer linformation, de
la synthtiser, et va nous permettre maintenant daller plus loin en tentant, sur cette
variable, dappliquer des techniques danalyse toutes choses gales par ailleurs
pour pouvoir discerner dune manire fine ce qui peut rendre compte de cette
attitude.
Avant dtudier ces techniques dont la plus utilise est la rgression logistique,
nous allons rester encore un chapitre avec lanalyse des correspondances pour en
regarder quelques figures classiques.

26
Cf. Chapitre suivant pour plus de prcisions sur ce point.

36
Chapitre 4 : les figures de lanalyse des correspondances

I La forme en parabole : effet Guttman


Une configuration trs classique fait que le nuage des modalits se prsente,
dans le premier plan factoriel (axes 1 et 2) sous la forme d'une parabole

Figure 14 Parabole des modalits


Cette forme en parabole est appele "Effet Guttman" du nom du sociologue
Louis Guttman (1916-1987) connu pour ses recherches mthodologiques, en
particulier sur les chelles de rponses. Ce genre de configuration se produit quand
prcisment il y a des liens multiples entre les rponses. Sur le mme exemple, qui
sera explicit ensuite, on projette le graphe des PEM entre modalits et l'on voit
qu'elles sont lies deux deux par proximit. Pour rendre compte de ces fortes
liaisons, l'analyse des correspondances construit un premier axe d'opposition entre
trs en accord et trs opposs ce qui fait le premier axe et un deuxime axe qui,
artificiellement, oppose les positions extrmes aux positions moyennes. Il n'y a pas
lieu de s'extasier sur cette configuration artificielle qui signale simplement le
phnomne d'une forte liaison entre les diverses questions de l'enqute qui est
galement repre par la force des premires valeurs propres (ici gale 0,4 pour le
premier facteur, c'est--dire largement au-dessus du seuil empirique de 0,1 que l'on
a dj donn comme valeur repre d'une forte liaison).

Figure 15 Parabole et PEM entre modalits

37
Figure 16 Croyances religieuses
La figure 16 est issue d'une enqute ralise en 1986 sur les rapports entre les
franais et le catholicisme27. On voit que le ct droit de la parabole correspond au
ple des catholiques convaincus (l'existence de Dieu est certaine, le baptme des
enfants et leur instruction religieuse sont trs importants, l'interrog se dit croyant
convaincu, il croit en la trinit, en la rsurrection du Christ, au Ciel, au Purgatoire et
l'Enfer). Inversement le ple gauche correspond l'incroyance, l'exclusion de Dieu,
au rejet de l'importance du baptme et du catchisme. L'aspect plus intressant de
cet effet Guttman se situe dans le bas de la parabole, dans le passage de la
croyance ferme la croyance incertaine puis au scepticisme. Par exemple on voit
que le croyant par tradition, s'il considre que Dieu est probable, se rfugie dans la
non-rponse pour le dogme traditionnel (Enfer, Purgatoire, Ciel, Trinit) mais juge
encore assez importante la formation religieuse des enfants. D'une manire
symtrique, le sceptique, s'il dit non aux mmes dogmes, se rfugie dans la non-
rponse pour la formation religieuse des enfants. Il n'y a que l'incroyant affirm qui la
rejette comme pas importante du tout. L'intrt de cette chelle de croyance
(Guttmanienne) est l'clairage qu'elle permet d'apporter sur la manire dont a t
comprise la question d'autodfinition de la croyance o l'on a demand si l'intress
se dfinissant comme : "un croyant convaincu, un croyant par tradition, un croyant
incertain, un sceptique, un incroyant". A priori, entre "incertain" et "sceptique", l'cart
de sens est faible et l'on pourrait avancer qu'il y a quivalence entre les deux termes.
Au vu du graphique, avec le point Croyant incertain le plus en bas, intermdiaire
entre la tradition et le scepticisme, on voit bien que les rpondants se sont appuys
sur la gradation qui leur tait propose. Il ont bien vu qu'il s'agissait dj d'une
chelle en 5 points du plus croyant au moins croyant o ils pouvaient se positionner
d'une manire fine. Ceci explique la cohrence des rponses.
On voit sur cet exemple ce que signifie de parler de questions lies entre elles :
cela veut dire qu'ici toutes les modalits de rponses de type croyant convaincu sont
prises peu prs par les mmes individus. Des questions lies entre elles impliquent
des rpondants typiques : on rencontre frquemment ce phnomne quand on met

27
Guy Michelat, Julien Potel, Jacques Sutter, Jacques Maitre, Les franais sont-ils encore catholiques ?
Paris, ditions du Cerf, 1991

38
dans une mme analyse des questions qui se prsentent de la mme faon dans
leur rponses comme "tout fait d'accord", "assez d'accord", "plutt pas d'accord" et
"pas d'accord du tout". La routine de la rponse l'emporte et le questionneur, qui n'a
pas trop cherch approfondir son problme, recueille, et c'est justice, une rponse
strotype de l'enqut.

II Effets des faibles effectifs


Nous avons dj repr une figure frquente de l'analyse des
correspondances, celle qui correspond un faible effectif : il s'agit de la "comte et
de sa queue" (chapitre 3 figure 4) o le noyau central correspond un bloc agglutin
de questions et la queue de la comte une ou plusieurs modalits faible effectif.
Ce problme est plus gnral car plusieurs points faible effectifs peuvent entrainer
la cration d'un plan factoriel qui est tout fait interprtable mais qui peut tre un
pige28. On utilise maintenant des donnes issues de l'enqute sur les pratiques
culturelles des franais de 198929 dans laquelle on trouve un ensemble de questions
portant sur les sorties suivantes effectues ou non dans l'anne prcdente : les
sorties sont classes par ordre d'importance dcroissante ; la population est celle
des 4722 adultes de l'enqute ; ce qui est pris en compte est le fait d'avoir effectu la
sortie indique dans les 12 derniers mois.
Effectif %
Cinma 2106 44,6
Bal 1131 24,0
Discothque ou boite 1104 23,4
Match 1014 21,5
Thtre 621 13,2
Concert musique classique 457 9,7
Concert de rock 427 9,0
Cirque 378 8,0
Spectacle de danse 294 6,2
Concert de jazz 281 6,0
Opra 156 3,3

On a donc 11 activits (et les 11 non-activits aux effectifs complmentaires


mises en supplmentaires). On clairera la comprhension du graphique en mettant
en variables supplmentaires le sexe, l'ge et le niveau de diplme du rpondant.
(figure 17)
On a sur la gauche du graphique un regroupement de sorties forte charge
culturelle : opra, musique classique, spectacle de danse, thtre, qui sont
pratiques par un public diplm de 2e ou 3e cycle universitaire (ou grandes coles).

28
Philippe Cibois, "Les piges de l'analyse des correspondances", Histoire & Mesure, 12 (3/4), 1997, pp.
299-320.
29
Olivier Donnat et Denis Cogneau, 1990, Les pratiques culturelles des franais 1973-1989, La
dcouverte / La documentation franaise.

39
On distingue droite une culture de niveau de diplme peu lev associant
sortie au bal et au match, une culture correspondant des ges croissants
n'excluant pas toute sortie (cirque comme accompagnateur d'enfants), une culture
jeune de boite et de rock, avec le jazz qui sert d'intermdiaire avec les sorties
"distinctives". En effet, si le facteur vertical est lis l'ge (des plus jeunes aux plus
gs en allant du haut en bas), l'axe horizontal correspond l'opposition de
"distinction" au sens de Pierre Bourdieu30, c'est--dire des pratiques dont le
prestige culturel entraine la raret et la distinction.

Figure 17 Sorties effectues l'anne prcdente


Cependant cette raret a un effet pervers : en effet si l'on procde au comptage
des sorties multiples on voit dans le tableau ci-dessous que ceux qui ont fait 2 types
de sorties ne reprsentent que 6% de l'ensemble et que pour 3 types de sorties et
plus, on arrive moins de 4% .
Effectif %
5 sorties 12 0,3
4 sorties 51 1,1
3 sorties 114 2,4
2 sorties 283 6,0
1 sortie 637 13,5
0 sortie 3625 76,8
-------------------------------------------------------------
Total 4722 100

Cet effet de distinction peut se prsenter du fait de quelques conjonctions entre


modalits rares : pour s'en prserver, quelques comptages sous forme de tris-croiss
permettent de reprer l'importance numrique de ces co-occurrences. Le cas
chant, la mise en lments supplmentaires de ces modalits trop rares doit tre
faite.

30
Pierre Bourdieu, La distinction, Paris, Ed. de Minuit, 1979.

40
III Des types idaux
On a dj voqu le problme plus tt (page 72) en montrant qu'un type idal
manifest par une analyse des correspondances ne devait pas tre considr
comme un type rel. Revenons sur cette question partir d'un exemple trait
antrieurement31: il s'agit d'une enqute sur les ouvriers franais faite la suite des
vnements de 196832. En ne prenant en compte que les affiliations politiques et
syndicales repres par la dclaration d'appartenance et le vote pour un parti
politique et un syndicat on voit sur la figure 18 une opposition entre :
-un ple CGT-PC gauche sur le graphique : appartient et vote CGT, se sent
proche du Parti Communiste et a vot J.Duclos, candidat du PCF au premier tour
des lections prsidentielles de 1969, toutes modalits ayant une contribution
suprieure 150 pour mille alors que la moyenne (1000 divis par 32 modalits) est
de 31 pour mille.
- un ple gauche non communiste en haut : CFDT, partis de gauche et
candidats de gauche.
- en bas droite, un ple de droite : UNR, Pompidou, parti et candidat gaullistes
de l'poque.

Figure 18 Affiliations de l'ouvrier franais 1970


Le paradoxe est que si l'on compte combien d'individu sur un total de 1116 ont
les 4 modalits de type PC-CGT (alors que chaque modalit du type reprsente de
200 300 personnes), on n'aboutit qu' 81 individus, soit 7,3%

31
Philippe Cibois, L'analyse des donnes en sociologie, Paris, PUF, 1984 : cet ouvrage n'est plus dit car
il ne correspond plus l'tat des techniques actuelles. Je pense en avoir gard l'essentiel dans le prsent ouvrage.
32
Grard Adam, Frdric Bon, Jean Capdevielle, Ren Mouriaux, L'ouvrier franais en 1970, Pris,
Presses de la FNSP, 1970.

41
Avec les mmes critres (4 modalits du type) on classe 9 individus en gauche
non communiste, ce qui explique pourquoi ces faibles effectifs entrainent un fort
loignement au centre, et 41 individus droite. On classe donc avec ces types 131
individus sur 1116 soit 11,7% du total.
Au vu de ces chiffres on comprend bien en quoi l'analyse des corespondances
est un procd qui produit des types-idaux et non des types numriquement
importants. Pour avoir des effectifs suffisants, il faut prendre le principe dj voqu,
qui consiste prendre pour un type approch, l'appartenance au moins la moiti du
nombre d'lments constitutifs du type, ici 2. Avec ce critre et en prenant des
prcautions pour ne pas faire de doubles comptes, on peut classer environ 70% de
la population.
Bernard Lahire, en reprenant ces rsultats33, rappelle que ceci explique
pourquoi Pierre Bourdieu utilisait beaucoup l'analyse des correspondances car elle
visualisait des types-idaux qui correspondaient sa pense en termes de champs
et il critique ce qu'il appelle l'usage paresseux de la mthode idaltypique. En effet il
montre que, si on fait un comptage soigneux des types de rpondants, on s'aperoit
que les dissonnances culturelles (c'est le sous-titre de son livre) sont nombreuses et
que tel qui va l'opra peut tout aussi bien suivre avec passion le Tour de France,
ou pire, aux yeux d'une culture lgitime intgriste.
Si l'on a bien repr que l'analyse des correspondances propose des types-
idaux et non des types statistiquement bien attests, on pourra se servir de cette
mthode sans courir le risque de projeter sur la ralit sociale les propres
strotypes de cette socit, en particulier par le biais de ses pratiques distinctives.
Pour ce faire il suffit de compter34 en construisant ce que j'appelle des variables
idal-typiques, c'est--dire des indicateurs qui comptent combien chaque individu
de modalits du type.

33
Bernard Lahire, La culture des individus, Paris, La dcouverte, 2004, p.132-136.
34
"Compter ses hommes" tait la devise de l'adjudant de compagnie rappelait plaisamment Georges
Guilbaud : cela reste la devise du sociologue ( condition de compter tout autant les individus de sexe fminin
que les personnes de sexe masculin).

42
Chapitre 5 : les techniques danalyse
toutes choses gales par ailleurs
Ces techniques, comme lanalyse des correspondances sont des
approximations des donnes mais les rgularisations quelles effectuent rendent les
donnes beaucoup plus facile interprter, ce qui est intressant si lon dispose
dindicateurs qui nous permettent de nous rendre compte de la validit des rsultats.
Parler de techniques toutes choses gales par ailleurs fait appel lide que
si un phnomne social est du plusieurs causes, il peut tre intressant de voir
leffet propre de chacune des causes, indpendamment des autres.
Pour reprendre un exemple trait par ailleurs35, si le fait davoir un fort niveau
dtude encourage la lecture, et si lon sait que les femmes lisent plus que les
hommes : comme les deux aspects vont ensemble, on souhaite avoir une mthode
qui neutralise leffet de sexe pour isoler leffet de niveau dtude (et inversement qui
neutralise leffet de niveau dtude pour avoir leffet de sexe).

I Analyse tabulaire multivarie


On dispose dune mthode simple et ancienne pour traiter de genre de question
dans des tableaux croiss, cest ce quon appelle lanalyse multivarie dont la base
est dabord de disposer dune rpartition de la population en ligne qui croise tous les
cas de figure possible : dans l'exemple sur la lecture, 2 pour le sexe et 2 pour le
niveau dtude, ce qui fait 4 cas de figure que l'on va croiser avec la variable
expliquer. Nous allons traiter ici un exemple analogue pour chercher savoir
comment est adopt le nouveau style ducatif, prcisment en tenant compte du
sexe de lenfant et du niveau dtude du pre36. On a les 4 lignes suivantes :
Nouveau style ducatif
Oui Non Total
Masc. 18 117 135
NivInf 13,33 86,67 100
Fminin 28 115 143
NivInf 19,58 80,42 100
Masc. 23 86 109
NivSup 21,10 78,90 100
Fminin 31 94 125
NivSup 24,80 75,20 100
Total 100 412 512
19,53 80,47 100
Tableau 11 : analyse multivarie

35
Philippe Cibois, "Modle linaire contre modle logistique en rgression sur donnes qualitatives",
Bulletin de mthodologie sociologique, n64, 1999, p.5-24.
36
Recod en suprieur pour ceux qui ont un niveau Bac+5 et grandes coles et infrieur pour les autres
(essentiellement bac+3 ou 4).

43
Le plus bas niveau de choix du nouveau style ducatif se trouve dans la
premire ligne : pour des garons de la part dun pre de niveau dtude infrieur. La
proportion est de 13,33%.
Nous allons neutraliser successivement leffet du sexe et du niveau dtude.
Commenons par le niveau dtude o deux situations sont possibles pour voir leffet
du sexe, dans le cas du niveau infrieur (deux premires lignes) ou du niveau
suprieur (deux dernires lignes).
1) effet du sexe : entre les deux premires lignes, toutes deux de niveau
infrieur, la seule diffrence est que, en passant du sexe masculin au sexe fminin,
la proportion de nouveau style ducatif passe de 13,33% 19,58% soit une
augmentation de 19,58 13,33 = 6,25 points.
Refaisons le mme calcul pour le niveau suprieur (les deux dernires lignes) :
la diffrence est cette fois de 24,80 21,10 = 3,70. On constate donc quil y a dans
les deux cas un effet fminin qui fait monter la proportion de nouveau style : lide
dapproximation sera introduite ici en prenant la moyenne des deux effets : leffet
fminin est de (6,25 + 3,70)/2= 5,0 points de pourcentage.
2) effet du niveau dtude : nous rutilisons les mmes lignes du tableau mais
de faon diffrente. Pour le sexe masculin (1re et 3e ligne), leffet de niveau
suprieur fait que lon passe de 13,33% 21,10% soit une augmentation de 7,77.
Pour les sexe fminin (2e et 4e ligne) laugmentation est de 24,80 19,58 =
5,22. Les deux effets vont dans le mme sens et leffet moyen est de 6,5
En utilisant ces effets moyens, il devient possible de prsenter les donnes
dune manire spcifique lanalyse toutes choses gales par ailleurs : par
rapport la situation masculin et niveau infrieur, de 13,3, leffet fminin ajoute +5,0
et indpendamment, leffet niveau suprieur ajoute +6,5. On rsume linformation en
donnant la situation do lon est parti comme rfrence et lon donne sparment les
deux effets.
Situation de rfrence : masculin niveau inf. : 13,3
Effet fminin +5,0
Effet niveau suprieur +6,5
Les deux effets vont dans le mme sens : quand on a un enfant de sexe
fminin, la propension choisir le nouveau style dducation augmente de 5% toutes
choses gales par ailleurs, c'est--dire quelque soit le niveau dtude du pre. De
mme le niveau suprieur favorise une augmentation de 6,5%. Le choix du point de
dpart est sans importance. Si on avait pris comme situation de rfrence le sexe
fminin, leffet masculin aurait simplement t invers, il aurait fait baisser de 5%, de
mme pour le niveau dtude. Dune manire pratique, il faut choisir comme
rfrence ce qui est le plus clair et le plus intelligible. Parler deffet fminin est clair
car on sait quil sagit dun effet sur les tudes qui a dj t repr37.
Cette manire simplifie de prsenter les donnes (situation de rfrence +
effets spars) permet de reconstruire une approximation des donnes, dont on
vrifiera, dans le cas prsent, quon ne comment pas trop derreur en prenant
lapproximation plutt que la ralit qui, dans ce cas simple, est entirement connue.

37
Christian Baudelot et Roger Establet, Allez les filles ! Seuil, 1998

44
Lerreur, malgr les simplifications apportes par lutilisation de la moyenne simple,
n'atteint pas 2%.
Prsence du nouveau style
ducatif
Modle Obs. Err.
Masc.
Rfrence 13,3 13,3 0
NivInf
Fminin Ref.+effet 13,3+5,0
19,6 -1,3
NivInf Fminin =18,3
Masc. Ref.+effet 13,3+ 6,5
21,1 -1,3
NivSup Nivsup =19,8
Fminin Ref.+Fmi 13,3+5,0
24,8 0
NivSup +NivSup +6,5=24,8
Tableau 12 : comparaison modle et observation
Dans la suite on utilisera une moyenne pondre, c'est--dire que chaque
lment de la moyenne vaudra au prorata de leffectif du groupe. Par exemple leffet
fminin qui tait calcul simplement en prenant la moyenne ordinaire (6,25+3,70)/2=
5,0 sera calcul en pondrant le premier sous-effet de 6,25 par 278 (effectif des deux
premires lignes do est tire la diffrence et qui correspond leffectif total du
niveau infrieur) et de mme 3,70 sera pondr par leffectif du niveau suprieur). Le
total gnral est de 512. Le calcul de moyenne pondre est le suivant :
(6,25 x 278/512) + (3,70 x 234/512) = 5,1 : ici la diffrence est peu sensible car
les deux groupes sont quilibrs. Jappelle cette manire de faire lanalyse tabulaire
car tout est issu de calculs lintrieur de tableaux croiss38. Comme on va le voir,
ses rsultats sont toujours trs proches de la manire de faire la plus utilise, la
rgression logistique sur des modalits de rponses.
Il faut parler de la rgression logistique pour comprendre sa logique mais,
comme ses rsultats sont trs semblables ceux de lanalyse tabulaire, je ne
chercherai pas dans un ouvrage dinitiation la prsenter comme telle : il vaut mieux
interprter les rsultats dans une logique danalyse tabulaire. Ce qui suit en montre
la logique pour qui a dj une ide de la rgression en gnral.
II La rgression multiple
Lide de la rgression multiple (linaire aussi bien que logistique) est davoir
une variable expliquer (y de y=ax+b de lquation ordinaire dune droite) et
plusieurs variables explicatives (x1, x2, xn pour une rgression multiple de la forme
y = a1x1 + a2x2 + + anxn + b) o les x sont la prsence (note 1) ou labsence
(note 0) dune modalit explicative (dans lexemple prcdent, le fait dtre de sexe
fminin ou de niveau suprieur) et o les a sont des coefficients numriques qui vont
tre calculs. Le coefficient b est appel lordonne lorigine (en anglais intercept).

38
Philippe Cibois, "Modle linaire contre modle logistique en rgression sur donnes qualitatives",
Bulletin de mthodologie sociologique, 1999, n64, p.5-24.

45
Le nombre de coefficients a et de modalits x dans le cas de lanalyse
prcdente est de deux comme on la vu. En effet, dans le cas dune question deux
modalits, dfinir leffet fminin, cest rendre compte de la question en entier car la
deuxime modalit a servi de repre, de rfrence. Quand nous aurons une question
trois modalits (ou davantage), une seule servira de rfrence et les autres seront
toutes un effet spcifique. Si lon veut utiliser une variable refltant une orientation
politique en droite / centre / gauche, il faudra par exemple choisir le centre comme
rfrence et lon aura un effet gauche et un effet droite. On prend souvent une
modalit intermdiaire comme rfrence (par exemple pour les tranches dge) mais
ce nest pas une obligation : le but du choix est de rendre linterprtation plus aise. Il
faut prendre une situation de rfrence pour chaque question mais on a le choix.
Prendre une modalit comme rfrence, cest ne pas lutiliser dans les donnes
car on utilise toutes les autres modalits de la mme question qui suffisent donc
linformation. Pour reprendre le codage dune affiliation politique en trois modalits et
quon prenne le centre comme rfrence, si un individu nest ni de gauche ni de
droite, cest quil est du centre, mme si cette modalit nest pas indique,
linformation quelle comporte est porte par les deux autres.
Les donnes qui sont traites sont un tableau o en ligne se trouvent tous les
individus de lenqute et o chaque colonne correspond une modalit (qui n'est pas
la rfrence). Chaque modalit est code en prsence / absence, c'est--dire en 0 /
1. Pour lexemple prcdent, les trois cas possibles sont cods de la manire
suivante :
Individus Gauche Droite
de
1 0
gauche
de droite 0 1
du
0 0
centre
Tableau 13 : exemple de codage
Si on veut garder la possibilit de non-rponse, il faut crer une modalit
supplmentaire et on aurait alors le codage suivant (en conservant le centre comme
rfrence)
Non-
Gauche Droite
Individus rponse
de
1 0 0
gauche
de droite 0 1 0
du
0 0 0
centre
non-rp. 0 0 1
Tableau 14 : ajout de la modalit de non-rponse
Comme on le verra, la multiplication du nombre de modalits a des effets plutt
ngatifs sur la fiabilit des rsultats et il vaut mieux donc recoder les non-rponses.

46
Pour la question expliquer, et quelque soit le nombre de modalits, seule est
utilise la modalit qui est prcisment expliquer.
Quand un individu ne prend que les modalits qui sont toutes de rfrences,
pour lui, tous les x sont nuls. Le coefficient b correspond alors la situation de
rfrence et y = b.
Pour mieux comprendre prenons le cas de la rgression linaire appliqu aux
trois variables prcdentes : la variable expliquer (Y) est le Nouveau style ducatif,
les variables explicatives sont leffet fminin (X1) et leffet niveau suprieur
dducation (X2). La manire linaire dcrire lquation de rgression multiple Y =
a1X1 + a2X2 + b devient :
NouvStyle = a1Fminin + a2NivSup + b
En rgression linaire, les coefficients ont les valeurs suivantes, (entre
parenthse, les valeurs correspondantes de lanalyse tabulaire avec pondration)
a1 = 5,2 (5,1) effet fminin
a2 = 6,6 (6,4) effet niveau suprieur
b = 13,8 (13,3) situation de la rfrence (masc, inf)
Finalement lquation de rgression scrit :
NS (:NouvStyle) = 5,2 Fminin+6,6 NivSup + 13,8
Selon quon donne la valeur zro ou un chaque modalit, selon quelle est
prsente ou absente, le modle linaire conduit ici 4 situations :
Si Fm=1 et NivSup=1 NS=5,2+6,6 +13,8= 25,6%
Si Fm=1 et NivSup=0 NS=5,2 +13,8= 19,0%
Si Fm=0 et NivSup=1 NS= 6,6 +13,8= 20,4%
Si Fm=0 et NivSup=0 NS= 13,8 = 13,8%
On voit que l aussi, les paramtres de la rgression linaire sont proches de
ceux de lanalyse tabulaire et de lobservation. Dans les rsultats de la rgression
linaire, les paramtres ne sont pas prsents en pourcentage comme ici, mais en
proportion, ce qui nest pas difficile transformer.
En rgression logistique, ce nest plus la simple proportion p qui est estime
mais le rapport
p / (1-p) appel en anglais odds, que l'on peut traduire par chances (on itilisera
toujours le mot risques si le contexte le ncessite : on parle des chances d'avoir un
examen et du risque d'tre malade)
III Chances et rapport des chances
En anglais, odd, sans s, dsigne "la petite chose qui s'ajoute" : soit au nombre
pair (even) et c'est alors le nombre impair, soit un nombre quelconque : odd
dsigne alors ce qui est en plus du nombre rond (odd change dsigne la monnaie
faite partir d'un billet), d'o par extension, ce qui est dpareill ou non usuel.
Passant de l'adjectif au nom au pluriel, odds passe de l'ide d'imparit la
dsignation de l'ingalit, des avantages, des chances. L'usage le plus connu du mot
est celui utilis par les turfistes pour parler des chances d'un cheval, de sa cote :
quand on dit que tel cheval est cot 3 contre 1, on signifie que sa probabilit de

47
gagner est 3 fois plus grande que sa probabilit de perdre et donc par consquence
que si l'on parie sur lui (et qu'il gagne) on obtiendra 3 fois la somme parie alors que
s'il pert, on perdra la mise. Les odds, les chances, mettent en rapport une situation
dissymtrique : au numrateur on a la probabilit de la russite, et, plus largement
de la "bonne situation" et au dnominateur, la probabilit de l'chec, de la mauvais
issue. Evidemment, la relation entre la probabilit de la russite et celle de l'chec
est la complmentarit l'unit. Si la probabilit pour un cheval d'arriver gagnant est
de 0,75, celle de son chec est de
( 1 0,75 ) = 0,25 et sa cote est de p / ( 1 p) soit 0,75 / 0,25 c'est dire 3
contre 1.
Une difficult de vocabulaire vient du fait que l'on parle aussi de chances pour
dsigner simplement la probabilit : ce qui lve l'ambigit est le fait que les chances
au sens de cote sont toujours suivies de la mention de contre.
Ceci s'applique aussi dans le cas des cotes infrieures 1 (car des chances
suprieures l'unit ne peuvent tre confondues avec des probabilits toujours
comprises entre 0 et 1). Par exemple si nous reprenons la premire ligne du tableau
11 qui croise le choix d'un nouveau style ducatif avec la situation de l'lve, on a :
Nouveau style ducatif
Oui Non Total
Masc. 18 117 135
NivInf 13,33 86,67 100
Tableau 15
Les chances de recevoir un nouveau style ducatif sont le rapport de la
probabilit de l'avoir
( 18 / 135 ) = 0,1333 rapport son complment, la probabilit de ne pas l'avoir
( 117 / 135 ) = 0,8667 = ( 1 0,1333 ). Ces chances sont de 0,13333 / 0,8667 =
0,154 contre 1. Chances qui peuvent tre calcules plus simplement en faisant le
rapport des effectifs : 18 / 117 = 0,154.
Plutt que le rapport 0,154 / 1 qui ne parle pas l'imagination, on le multipliera
par 10 (ou par 100) et l'on dira que les chances de recevoir un nouveau style
d'ducation pour ces garons de faible niveau est de 1,54 contre 10 (de ne pas le
recevoir) ou de 15,4 contre 100. Evidemment si l'on considrait les risques plutt que
les chances, ils seraient de l'inverse soit 117 / 18 = 6,5 de ne pas recevoir un
nouveau style ducatif contre 1 (de le recevoir).

48
Le tableau suivant nous donne le calcul pour les quatre situations :
Chances du nouveau style ducatif
Effectif Effectif Chances
Situation
oui non = Oui/Non
Masc.
18 117 0,1538
NivInf
Fminin
28 115 0,2435
NivInf
Masc.
23 86 0,2674
NivSup
Fminin
31 94 0,3298
NivSup
Tableau 16
Examinons les chances pour les deux situations extrmes : pour les garons de
niveau infrieur, les chances de recevoir un nouveau style ducatif sont de 15,38
chances contre 100 de ne pas en recevoir un tandis que pour les filles de niveau
suprieur elles sont de 32,98 contre 100, soit le double. Ceci nous introduit au
rapport des chances (en anglais odds ratio do l'abrviation OR souvent utilise
aussi en franais).
Si l'on prend comme rfrence, c'est--dire comme dnominateur du rapport, la
situation masculine, le rapport des chances est le suivant :
OR : Chances FemiNivSup / Chances MascNivInf
0,3298 / 0,1538 = 2,1 : les chances fminines (de niv. sup) sont le double des
chances masculines (de niv. inf.).
Le rapport des chances (OR = Odds Ratio) est toujours un nombre positif tantt
infrieur 1 tantt suprieur, il servira de multiplicateur pour modifier les chances de
la rfrence.
IV Equation de la rgression logistique
L'quation de la rgression logistique dcrit une situation gnrale gauche du
signe gal sous la forme des chances de l'obtenir (variable expliquer, quivalent du
y d'une rgression linaire). Il est frquent d'crire ces chances sous la forme p / (1
p) car quand on aura les chances d'une situation particulire, on pourra en dduire la
probabilit p.
A droite du signe gal on a les chances de la situation de rfrence multiplies
par un ensemble de multiplicateurs qui dpendent de toutes les situations. Ces
multiplicateurs sont les Odds Ratio.
p / ( 1 p ) = chances de la rfrence x produit de multiplicateurs dpendants
des situation. Ici les chances de la rfrence sont estimes 0,1659.
Attention, cette valeur ne correspond pas strictement l'observation 0,1538
(donne par l'analyse tabulaire) car la rgression logistique est un modle estim
partir de l'ensemble des donnes.

49
Dans le cas prsent, il y a deux OR multiplicateurs qui modifient ces chances
de la rfrence : un relatif au sexe fminin (valeur estime = 1,39) et un relatif au
niveau suprieur (valeur estime = 1,51). L'quation de rgression logistique s'crit
donc :
p/(1p) = 0,1659 x 1,39 (si fmi) x 1,51 (si NivSup)
Cette quation permet d'examiner tous les cas de figures :
1) Fminin et Niveau suprieur : les chances de la rfrence (0,1659) sont
multiplies par le produit des deux multiplicateur 1,39 x 1,51 = 2,09 : on retrouve le
fait que les chances observes soient multiplies par deux.
p / ( 1 p ) = 0,1659 x 1,39 x 1,51 = 0,348 d'o l'on tire p = 0,348 ( 1 p) soit p
= 0,348 0,348p et donc p + 0,348p = 0,348 et p (1 + 0,348) = 0,348 et finalement p
= 0,348 / 1,348. Concrtement quand on a des chances Ch, pour retrouver la
proportion correspondante p, on prend p = Ch / ( 1 + Ch) formule appele dans la
suite "p issue des chances". On a ici p = 0,348 / 1,348 = 0,258 soit 25,8%
2) Masculin et niveau infrieur : c'est la situation de rfrence, il n'y a pas de
coefficient multiplicateur, les chances 0,1659 ne sont pas modifies et la proportion
estime est de p = 0,1659 / 1,1659 = 0,142 soit 14,2%.
3) Fminin seul : c'est l tout l'intrt de la mthode qui consiste voir l'effet
d'une modalit seule, indpendamment des autres. Dans ce cas, les chances de la
rfrence sont multiplies par le seul coefficient multiplicateur 1,39 qui correspond au
sexe fminin.
p / ( 1 p ) = 0,1659 x 1,39 = 0,231
d'o p = 0,231 / 1,231 = 0,187 soit 18,7% c'est--dire 4,5 points de pourcentage
de plus que pour la situation de rfrence (18,7 14,2). On dit que l'effet marginal en
pourcentage est de 4,5 points (ou, d'une manire discutable mais courante de 4,5%)
4) Niveau suprieur seul :
p / ( 1 p ) = 0,1659 x 1,51 = 0,251
d'o p = 0,251 / 1,251 = 0,200 soit 20,0%. Le gain de pourcentage est de 20,0
14,2 = 5,8%. L'effet niveau suprieur est plus important que l'effet fminin.
Plusieurs remarques sont faire :
1) les rsultats de la rgression logistique sont du mme ordre que ceux de
l'analyse tabulaire donne plus haut : c'est toujours le cas. Ils sont galement de
mme ordre que ceux de la rgression linaire.
2) si l'on compare la situation de rfrence, les effets simples et la situation o
ses effets vont ensemble on a les 4 cas tudis plus haut :
- masculin niv.inf. (rfrence) 14,2%
- fminin seul : 18,7% soit un effet de 4,5%
- niveau sup. seul : 20,0% soit un effet de 5,8%
- fminin et niv.sup. : 25,8 soit un effet de 11,6% qui n'est pas gal la somme
des deux effets isols car 4,5 + 5,8 = 10,3. Ce phnomne est gnral : si l'on veut
calculer l'effet conjoint il faut multiplier entre eux les OR puis appliquer ce coefficient
aux chances de la rfrence plutt que d'ajouter algbriquement les effets marginaux

50
en pourcentage. Cependant, il faut discuter ce principe car les prcisions sont
illusoires : ce que nous donne la rgression logistique est un modle qui comme tout
modle est simplificateur de l'observation. Vouloir isoler l'effet pur comme tant une
ralit existante, alors que c'est une modlisation simplificatrice, risque de
transformer une dmarche exploratoire en cration artificielle qui semble plus exacte
que l'observation : c'est une dmarche risque dont je souligne le danger.
3) les formules multiplicatrices que l'on rencontre souvent sont du type suivant
p/(1-p) = OR1x1 x OR2x2 x ChancesRef
o ici OR1 et OR2 sont les OR de "fminin" et de "niveau suprieur" qui servent
de coefficient multiplicateur.
Les exposants X1 et X2 correspondent au codage des donnes en prsence /
absence, c'est--dire en 0 /1 tudi plus haut. Pour l'OR = 1,39 correspondant
fminin, 1,391 = 1,39 correspond au fait qu'on traite la prsence code 1 de la
modalit fminin et 1,390 = 1 correspond au fait que l'on traite l'absence code 0 de
la modalit fminin. Le multiplicateur 1 est neutre et sans effet sur le reste. D'une
manire plus image, on peut crire.
p/(1-p) = 1,39Fninin x 1,51NivSup x ChancesRef
4) pour des raisons diverses, thoriques et historiques, une transformation
logarithmique est souvent faite de la formule multiplicative. Cette transformation
remplace le produit des OR et des chances de la rfrence par une somme o les
exposants deviennent des multiplications. Dans le cas prsent on a :
log(p/(1-p))=
Fminin x log(1,39)
+ NivSup x log(1,51)
+ log(ChancesRef)
o "Fminin" ou "NivSup" comme prcdemment ne prennent que les valeurs 1
(prsence) ou 0 (absence). D'une manire gnrale on note ces indicateurs de
prsence/absence par x1, x2 etc., les rsultats numriques des logarithmes (naturels)
des OR par des coefficients a1, a2 et le log des chances de la rfrence par un
coefficient b. On retrouve ainsi le symbolisme de la rgression linaire multiple :
log (p/(1-p) = a1x1 + a2x2 + b soit ici
log (p/(1-p) = 0,329 x1 + 0,409 x2 1,7964
Ce qui ne simplifie pas la gestion pratique des rsultats vient du fait que les
programmes usuels donnent soit les coefficients a (log des OR) et b (log des
chances de la rfrence), soit les OR et les chances de la rfrence, soit l'valuation
en pourcentage de la rfrence et les effets en pourcentage associs un OR.
Plutt que de donner des formules directes qui permettent de passer des coefficients
a et b aux autres rsultats, la manire la plus simple est de se ramener aux OR.
Pour passer des coefficients a aux OR, il suffit de prendre la fonction inverse du
logarithme naturel, c'est--dire la fonction exponentielle.
Par exemple pour la modalit "fminin" : les programmes donnent un coefficient
a = 0,329. Pour retrouver l'OR on prend la fonction exponentielle (inverse du
logarithme naturel ln).

51
Exp (0,329) = 1,39 (inversement ln (1,39) = 0,329)
De mme pour passer du coefficient b aux chances de la rfrence, il suffit de
prendre l'exponentielle de b car exp( 1,7964) = 0,1659

V Utilisation de la rgression logistique


Aprs cette utilisation sur un exemple simplifi, utilisons la mthode en
introduisant davantage de modalits, toujours pour expliquer le nouveau style
d'ducation.
Il faut cependant tre prudent et ne pas introduire un trop grand nombre de
modalits : comme le montre l'analyse tabulaire, introduire une nouvelle question (
plusieurs modalits), c'est faire un tri de profondeur supplmentaire, donc mietter
les donnes et rendre les rsultats instables (et non significatifs). On peut, pour faire
ce choix des modalits introduire, faire une analyse des correspondances
pralable partir d'une nouvelle variable d'intrt, ici le niveau ducatif, et introduire
toute les variables explicatives pensables : religion, politique, niveau scolaire des
grands-parents, etc.
A partir d'une analyse de cette sorte, on va retenir les indicateurs suivants :
- le sexe de l'enfant,
- le fait qu'il soit scolairement en retard ou non,
- l'opinion politique du rpondant (qui est la mre), que l'on regroupera en
quatre modalits : droite, gauche, cologistes et le regroupement de ceux qui
refusent de se positionner ou qui se qualifient au centre (dans la suite "ni gauche ni
droite"),
- un indicateur de pratique religieuse : on qualifie un rpondant de li la
religion s'il a un des caractres suivants : pratique religieuse rgulire de la mre,
enseignement religieux donn l'enfant, communion solennelle faite par l'enfant.
La variable expliquer est toujours le fait d'avoir choisi un nouveau style
ducatif.
Pour chaque question, il faut examiner l'effet d'une des modalits et donc en
prendre une comme rfrence. Pour le sexe on prendra "masculin" comme rfrence
pour voir s'il y a un effet "fminin" : comme il n'y a que deux modalits, prendre
l'option inverse correspondrait inverser simplement le signe de l'effet, ce qui n'a
pas beaucoup d'importance. Pour le retard, on prendra le fait de ne pas y tre
comme rfrence (donc l'heure ou en avance). Pour la politique, le fait de n'avoir
pas d'opinion marque (centre ou refus), pour la religion, le fait de ne pas en avoir.
Les rsultats sont donns directement par les programmes mais le dtail est
important pour comprendre les rsultats :
1) valuation de la situation de rfrence : le fait d'tre masculin, l'heure, ni
gauche ni droite, sans religion. Le modle de la rgression logistique donne un
paramtre qui indique 1) le logarithme des chances de la rfrence = -1,3987 qui
permet d'obtenir 2) les chances de la rfrence :
exp (-1,3987) = 0,2469 et donc 3) par la formule p issue des chances vue plus haut p
= Ch / ( 1 + Ch) la proportion estime = 0,2469 / 1,2469 = 0,198 soit 19,8%

52
2) pour chacune des modalits ayant un effet (autre que la rfrence), on a, par
exemple pour le cas de la religion, le logarithme du rapport des chances (Odds Ratio
ou OR) = -0,5118 : comme il est ngatif, son exponentielle sera infrieure 1 :
exp (-0,5118) = 0,60. Quand donc la religion est prsente, les chances de la
rfrence sont multiplies par 0,60 soit 0,60 x 0,2469 = 0,1481 et la proportion dans
cette situation est gal 0,1481 / 1,1481 = 0,1290 soit 12,9%. On voit qu'on a baiss
de 6,9 points de pourcentage. On note cet "effet marginal" en ngatif soit -6,9.
D'une manire analogue, les diffrents effets marginaux sont les suivants :
Religion -6,9
Droite -9,7
Gauche 0,0
Ecologiste 8,3
Fminin 4,6
En retard 18,1
Dans les programmes usuels, ces rsultats sont jugs significatifs ou non en
utilisant un indicateur qui suit une distribution du Khi-deux. Ici tous les effets sont
significatifs sauf celui de la gauche.
Les programmes usuels donnent plus ou moins de dtails, mais une version
complte peut donner les coefficients logarithmiques, les OR, les effets marginaux,
leur seuil de signification : dans le tableau 6 ci-dessous, trois toiles correspondent
un seuil de 1%, deux 5%, une 10% et ns veut dire non-significatif.
Si seuls les coefficients sont indiqus, il faut se souvenir que l'exponentielle
d'un coefficient ngatif correspond un OR infrieur un qui correspond un effet
marginal ngatif. L'influence est ngative et symtriquement elle est positive quand
le coefficient est positif. De mme un OR plus grand que un correspond un effet
marginal positif (et rciproquement s'il est infrieur un).

53
Modalit expliquer : nouveau style ducatif
Coeff. Chances Pourc.
Sit.rf. -1,40 0,2469 19,8
Effet
Odds-ratio T e s t
marg.
Relig.
Oui -0,51 0,60 -6,9 ***
Non ref.
Pol.
Droite -0,79 0,45 -9,7 **
Non
ref.
marqu
Gauche 0,003 1,00 0,0 ns
Ecolog. 0,46 1,59 8,3 *
Sexe
Masc ref.
Fmi 0,27 1,31 4,6 *
Retard
Oui 0,90 2,47 18,1 **
Non ref.

Tableau 17 : modle complet de rgression logistique

L'interprtation que l'on peut faire est qu'il y a des caractristiques qui sont plus
ou moins importantes dans le choix d'un nouveau style ducatif et que ces
caractristiques peuvent agir indpendamment les unes des autres. En ce qui
concerne l'enfant, le fait qu'il soit en retard agit puissamment (+18%), beaucoup plus
que le fait qu'il soit de sexe fminin (+5%) : on retrouve des rsultats dj tudis.
Par contre, les opinions touchant les parents sont galement prendre en compte :
si l'option de gauche parait neutre, l'option cologiste, c'est--dire une certaine non-
conformit au modle des classes moyennes suprieures agit dans le sens d'un
choix ducatif non-conformiste (+8%). Inversement, le choix de droite (-10%) ou le
choix religieux (-7%) manifestent bien ce refus d'un choix ducatif non traditionnel.
Le choix d'un style ducatif nouveau fait de confiance en l'enfant, de respect de son
dveloppement s'impose plus quand il est en difficult mais peut tre aussi choisi au
nom d'options politiques et sociales. La rgression logistique manifeste que ces
choix sont faits "toutes choses gales par ailleurs" c'est--dire d'une manire
indpendante.

54
VI Variations
On peut prsenter les mmes rsultats sous forme d'une formule, soit additive
en utilisant les coefficients logarithmiques, soit multiplicative en utilisant les odds-
ratios. A gauche du signe gal on a la variable expliquer, les chances de la
situation gnrale dans le cas multiplicatif, son logarithme dans le cas additif.
1) manire de faire multiplicative : les chances du cas gnral sont gales aux
chances de la rfrence multiplie par les rapport des chances (OR) des diffrentes
modalits autres que de rfrence. Dans l'exemple du tableau 6 on a :
p/(1-p) = 0,60ReligOui x 0,45Droite x 1,0Gauche x 1,59Ecolog x 1,31Fmi x 2,47RetardOui x
0,2469
Quand une modalit est prise (codage logique = 1), son rapport de chance est
pris, si elle n'est pas prise (codage logique = 0), le multiplicateur vaut 1 donc est
neutre. Cette formule permet de cumuler plusieurs situations : tudions par exemple
le cas d'une mre cologiste (OR = 1,59) dont l'enfant est en retard (OR=2,47). Le
produit des rapports appliqu aux chances de la rfrence est gal (calcul avec 4
dcimales):
1,5858 x 2,4682 x 0,2469 = 0,9664 d'o l'on tire par p issue des chances :
p = 0,9664 / 1,9664 = 0,491 soit 49,1%. L'cart la situation de rfrence est
de 49,1 19,8 = +29,3. On remarquera que cet cart est diffrent de la somme des
deux effets marginaux correspondants 8,3 + 18,1 = 26,4 ce rsultat est gnral et
entraine la consigne "qu'on n'a pas le droit d'additionner algbriquement les effets
marginaux", ce qui est exact mais qui ne doit pas laisser penser que les rsultats
calculs avec le passage aux OR sont contradictoires avec la dite somme. De toute
faon, comme dj dit, les rsultats obtenus sont les rsultats de l'estimation d'un
modle, non d'une observation (que peut donner le dtail d'une analyse tabulaire).
2) manire de faire additive : le logarithme (naturel) des chances du cas gnral
sont gales au logarithme des chances de la rfrence additionn des logarithmes
des OR des modalits autres que la rfrence. Dans l'exemple du tableau 6 on a :
ln(p/(1-p)) (quantit appele aussi logit)
ln(p/(1-p)) = -0,51ReligOui -0,79Droite +0,003Gauche +0,46Ecolog +0,27Fmi
+0,90RetardOui 1,40
Quand une modalit est prise (codage logique = 1), son coefficient
logarithmique est pris, si elle n'est pas prise (codage logique = 0), le coefficient
logarithmique vaut 0 donc est neutre. Si nous reprenons l'exemple prcdent
(Ecologiste et retard) et en prenant les valeurs exactes la 4e dcimale, ln(p/(1-p) =
0,4611 + 0,9035 1,3987 = -0,0341
l'exponentiel du membre de gauche nous donne les chances p/(1-p), exp(-
0,0341) =0,9665. On retrouve l'arrondi prs le coefficient multiplicateur prcdent
qui conduit donc au mme rsultat.
Cette gymnastique de calculs permet de s'assurer de la bonne comprhension
des rsultats mais la lecture rapide qui est faite des rsultats porte soit sur le signe
des coefficients logarithmiques, soit sur la position par rapport l'unit des OR, soit
sur le signe des effets marginaux, tout en vrifiant qu'ils soient significatifs.

55
Annexe au chapitre 2 : Algorithme

Le lecteur qui souhaiterait ouvrir la "boite noire" qui tait voque dans la
prface de cet ouvrage, trouvera ici des lments de rponse la question de savoir
comment fait l'analyse factorielle pour trouver un couple des vecteurs, propres des
donnes, et qui permettent d'en construire une approximation.
Ce que nous cherchons c'est, partir d'un tableau quelconque, de trouver un
jeu de coefficients pour des lignes et des colonnes qui permettent, par multiplication
terme terme, de trouver un tableau connu par ses marges. Pour montrer comment
peut se faire cette recherche, nous allons utiliser un tableau trois lignes (marques
A, B et C) et deux colonnes (I et II) : il s'agit d'un exemple choisi pour sa simplicit,
mais qui ne correspond aucune donne prcise.
I II
A 0 1
B 1 2
C 3 3
Recherche de coefficients lignes et colonnes
Examinons les colonnes du tableau : dans les deux cas, le premier lment est
infrieur au deuxime, lui-mme infrieur au troisime. La suite de coefficients
colonnes que nous recherchons, et dsormais nous appellerons ces suites de
nombres des vecteurs, ce vecteur colonne donc, qui doit tre un rsum des deux
colonnes, doit avoir leur structure et doit donc ressembler quelque chose comme
(1, 2, 4) ou (1, 5, 10) mais certainement pas (10, 5, 1).
L'algorithme que nous allons utiliser (et qui est plus simple que celui de
l'analyse des correspondances que nous verrons ensuite) suppose une valeur de
dpart, mme imprcise, qui sera amliore dans la suite.
Nous prendrons donc comme point de dpart amliorer le vecteur colonne (1,
2, 4). Ici la suite des oprations consiste multiplier scalairement le vecteur colonne
chacune des deux colonnes. Cette multiplication scalaire nous est familire mais
dans le registre de l'opration "facture", qui consiste, pour chacun des lments
achets, multiplier chacun par son prix individuel et additionner le tout. Le rsultat
de la multiplication des deux vecteurs n'est pas un vecteur mais un rsultat sur
l'chelle numrique (scala est l'chelle en italien).
Faisons l'opration en appelant le vecteur initial du nom de F0 et le rsultat final
en ligne du nom de F1:
I II F0
A 0 1 1
B 1 2 2
C 3 3 4
F1 14 17
Le premier lment de F1 s'obtient en multipliant scalairement la colonne I et
F0, le dtail du calcul est le suivant

56
I F0
0 x 1 = 0
1 x 2 = 2
3 x 4 = 12
Total= 14
En faisant de mme pour la colonne II, on obtient le nouveau vecteur F1,
constitu partir des deux rsultats. On constate que ce vecteur respecte la
structure des trois lignes o le premier lment est infrieur ou la limite gal au
deuxime. Sans prtendre justifier l'algorithme, on voit qu'il intgre progressivement
la structure des donnes du tableau. Pour continuer, il faut rpter la multiplication
scalaire du vecteur F1 mais cette fois avec chacune des lignes du tableau.
I II F0 F2
A 0 1 1 17
B 1 2 2 48
C 3 3 4 93
F1 14 17
Pour la ligne C le dtail du calcul est le suivant :
C F1
3 x 14 = 42
3 x 17 = 51
Total= 93
La structure de F2 est comparable celle de F0, notre point de dpart arbitraire
(mais choisi avec vraisemblance), en arrondissant on peut dire que F2 a pour
structure (20, 50, 90), soit, en divisant chaque lment par 20, ce qui ne modifie pas
la structure (1 2,5 4,5) assez proche du point de dpart une multiplication par 20
prs. Pour pouvoir voir le phnomne avec plus de prcision, examinons la structure
en proportion de chacun des vecteurs. Par exemple pour F2, le premier lment 17
reprsente 17 / 158 = 0,108 soit 10,8%.
I II F0 PropF0 F2 PropF2
A 0 1 1 0,143 17 0,108
B 1 2 2 0,286 48 0,304
C 3 3 4 0,571 93 0,589
Total 7 1,000 158 1,000
F1 14 17 31
PropF1 0,452 0,548 1,000
On voit que de F0 F2, la proportion du premier lment baiss, ceux des autres a
augment. Continuons les itrations de lalgorithme, cest dire reprenons les tapes
prcdentes en prenant la valeur de F2 la place de celle de F0. Nous multiplions

57
scalairement chacune des colonnes du tableau par F2 et nous obtenons F3 puis partir de
F3 multipli par chacune des lignes nous obtenons F4.
I II F0 PropF0 F2 PropF2 F4 PropF4
A 0 1 1 0,143 17 0,108 392 0,107
B 1 2 2 0,286 48 0,304 1111 0,304
C 3 3 4 0,571 93 0,589 2157 0,589
Total 7 1,000 158 1,000 3660 1,000
F1 14 17 31
PropF1 0,452 0,548 1,000
F3 327 392 719
PropF3 0,455 0,545 1,000
F5 7582 9085 16667
PropF5 0,455 0,545 1,000 Stop
En comparant les proportions de F2 et F4, on constate que, pour une prcision
de trois chiffres significatifs, les proportions sont gales sauf pour le premier lment
qui passe de 10,8% 10,7%. On voit ce quon appelle la convergence de
lalgorithme qui se stabilise pour une prcision donne. Il suffit de faire une itration
supplmentaire et passer de F4 F5 pour retrouver strictement les proportions de
F3. Lalgorithme est termin. Nous nous sommes affranchis de la valeur arbitraire du
point de dpart, les vecteurs sont maintenant propres aux donnes. Pour sen rendre
compte il suffit de changer F0 et de prendre par exemple la valeur la plus neutre
possible (1, 1, 1).
I II F0 PropF0 F2 PropF2 F4 PropF4 F6 PropF6
A 0 1 1 0,333 6 0,115 128 0,107 2958 0,107
B 1 2 1 0,333 16 0,308 362 0,304 8384 0,304
C 3 3 1 0,333 30 0,577 702 0,589 16278 0,589
Total 3 1,000 52 1,000 1192 1,000 27620 1,000
F1 4 6 10 Stop
PropF1 0,400 0,600 1,000
F3 106 128 234
PropF3 0,453 0,547 1,000
F5 2468 2958 5426
PropF5 0,455 0,545 1,000
Prendre un vecteur initial quelconque a modifi tous les effectifs mais non les
proportions, on voit seulement quil a fallu une itration supplmentaire (PropF6 =
PropF4) pour arriver la convergence de lalgorithme. De mme, si on prend un
point de dpart (qui peut tout aussi bien tre pris en ligne), compltement erron
comme (10, 5, 1), on constate que la convergence nest pas assure litration 6.

58
Prendre un mauvais point de dpart a pour effet simplement daugmenter le nombre
ditration. Dans une programmation en machine, on prend toujours le point de
dpart le plus neutre possible, soit (1, 1, 1)
Nous avons donc maintenant un couple de coefficients lignes et colonnes, des
vecteurs propres aux donnes, qui expriment le mieux possible la structure du
tableau, condition quils soient pris ensemble, par multiplication.
Reconstitution du tableau dapproximation
La reconstitution se fait donc par multiplication terme terme des coefficients
marginaux lignes et colonnes. Il faut prendre les vecteurs propres (donc aprs
convergence de lalgorithme), c'est--dire ltape 5 pour le vecteur en ligne et
ltape 6 pour le vecteur en colonne. Se pose simplement le problme de savoir quel
vecteur propre choisir, celui en effectifs ou celui en proportions ? Comme ils sont
proportionnels, ils expriment tous la mme structure et il en existe donc une infinit
de semblables. Pour rendre plus clair les oprations (mais on sort du cadre d'une
analyse standard), il sagit de faire lapproximation dun tableau dorigine dont la
somme des lments est gale 10 (cf. le tableau ci-dessous o les marges du
tableau et sont total sont calculs).

Tableau d'origine Approximation


I II Total I II F6 I II F6
A 0 1 1 A 0,049 0,058 0,107 A 0,49 0,58 0,107
B 1 2 3 B 0,138 0,166 0,304 B 1,38 1,66 0,304
C 3 3 6 C 0,268 0,321 0,589 C 2,68 3,21 0,589
Total 4 6 10 F5 0,455 0,545 1 F5 0,455 0,545 10
Proportion Multipli par 10
On calcule dabord lapproximation en proportion par multiplication terme
terme (par exemple pour la premire case A-I 0,107 x 0,455 = 0,049), puis, pour
rendre la comparaison possible, on multiplie le rsultat obtenu par 10. On voit alors
que cette premire case est approxime par 0,49. On voit que lapproximation est
plutt "bonne". Pour la dernire ligne, pour la premire colonne, il manque 3 2,68 =
0,32 et pour la deuxime, il y a 0, 21 en trop. Examinons toutes les erreurs en
tendant le calcul par soustraction l'ensemble : on obtient le tableau du reste, ce
qu'il faut ajouter l'approximation pour retrouver le tableau d'origine.
Tableau d'origine = Approximation + Reste
I II I II I II
A 0 1 A 0,49 0,58 A -0,49 0,42
B 1 2 B 1,38 1,66 B -0,38 0,34
C 3 3 C 2,68 3,21 C 0,32 -0,21
On voit sur cet exemple que l'approximation a beaucoup plus d'importance que
le reste : la plus petite valeur qu'on y rencontre, 0,49 est la plus grande (en valeur
absolue) du reste. L'algorithme utilis nous a permis de dcomposer un tableau en
deux tableaux dont le premier est une bonne approximation du tableau d'origine.

59
Mais il y a plusieurs types d'algorithmes : celui qui est le plus utilis aujourd'hui
est l'algorithme de l'analyse des correspondances qui, pour ne pas que les colonnes
ou les lignes les plus importantes en effectif imposent le choix de l'lment
prpondrant du facteur, introduit une pondration par les marges. A chaque pas de
l'algorithme, quand un vecteur est obtenu, il est pondr par les marges, c'est dire
divis par elles. Reprenons l'exemple prcdent en utilisant le point de dpart le plus
neutre possible, c'est dire (1, 1, 1).

I II Total F0 F2NonPond F2Pond


A 0 1 1 1 1 1
B 1 2 3 1 3 1
C 3 3 6 1 6 1
Total 4 6
F1NonPond 4 6
F1Pond 1 1
Comme on l'a vu plus haut, le rsultat obtenu pour F1 est (4, 6). Il est encore ici
non pondr, le pondrer, c'est le diviser par les marges et trouver comme vecteur
F1 pondr la valeur (1, 1). Le processus se rpte dans l'autre sens et en
multipliant le vecteur F1 pondr par le tableau on obtient un vecteur F2 non
pondr gal la marge en colonne. En pondrant on retrouve le vecteur F0 de
dpart et l'algorithme se termine ici puisque la convergence est immdiate.
Pour la reconstitution, on se sert des vecteurs non pondrs (identiques aux
marges) et le produit des marges est ( la division par le total prs) identique
l'effectif thorique correspondant l'indpendance.
Tableau d'origine Approximation
I II Total I II F2NP I II
A 0 1 1 A 4 6 1 A 0,40 0,60
B 1 2 3 B 12 18 3 B 1,20 1,80
C 3 3 6 C 24 36 6 C 2,40 3,60
Total 4 6 10 F1NP 4 6
Divis
par 10

Dans ce cas particulier, la premire approximation correspond l'indpendance


est le reste constitue les carts l'indpendance.

60
Tableau d'origine = Indpendance + Ecart l'indpendance
I II I II I II
A 0 1 A 0,40 0,60 A -0,40 0,40
B 1 2 B 1,20 1,80 B -0,20 0,20
C 3 3 C 2,40 3,60 C 0,60 -0,60
Cette particularit est un des atouts de l'analyse des correspondances : la
premire approximation du tableau est l'indpendance ce qui veut dire que
l'information pertinente se trouve dans le tableau des carts l'indpendance.
En rsum, nous avons vu qu'un tableau quelconque pouvait par le biais d'un
algorithme tre dcompos en une srie de plusieurs tableaux : le premier,
reconstitu par multiplication terme terme des coefficients obtenus aprs
convergence de l'algorithme, est une bonne approximation du tableau d'origine.
Nous allons tudier maintenant la mthode la plus couramment utilise en analyse
factorielle, l'analyse des correspondances.
L'algorithme de l'analyse des correspondances
Pour montrer son fonctionnement, nous l'appliquons des donnes relles dj
vues, le tableau 1, intrt vis--vis de la religion en fonction de la proximit politique.
Comme en analyse des correspondances la premire approximation est le tableau
correspondant l'indpendance (tableau 2 plus haut), ce qui reste du tableau initial
aprs soustraction de cette premire approximation est le tableau des carts
l'indpendance (tableau 3). Pour la suite des calculs il est mis en proportion : les
marges, qui vont servir de pondration dans la suite, sont galement en proportion et
le total gnral est de 1.
Ecarts Intrt pour la religion
Fort Moyen Nul Total
Droite 0,0161 0,0133 -0,0294 0,1406
Centre 0,0034 0,0067 -0,0101 0,1094
Gauche -0,0269 -0,0032 0,0301 0,3730
NiGniD 0,0074 -0,0168 0,0094 0,3770
Total 0,2188 0,4746 0,3066 1
Tableau des carts l'indpendance en proportion
Dans l'extrait de tableur ci-dessous, on prsente les deux premires itrations
de l'algorithme o 4 oprations sont utilises :
1) le produit scalaire : par exemple entre le point de dpart V0 (point de dpart
arbitraire fait d'units avec cependant des signes plus et moins alatoires, pour
acclrer la convergence) et chacune des colonnes du tableau. Par exemple -0,0391
est gal -1 x 0,0161 + -1 x 0,034 + 1 x -0,0269 + 1 x 0,007439.

39
Les rsultats affichs le sont une certaine prcision mais les calculs sont faits avec la prcision
maximum

61
Fort Moyen Nul Pond V0 V2CNP V2CPnd CarPnd V2RNP V2RPnd

Droite 0,0161 0,0133 -0,0294 0,1406 -1 -0,07 -0,470 0,03 -0,29 -2,10
Centre 0,0034 0,0067 -0,0101 0,1094 -1 -0,02 -0,197 0,00 -0,10 -0,88
Gauche -0,0269 -0,0032 0,0301 0,3730 1 0,07 0,196 0,01 0,33 0,88
NiGniD 0,0074 -0,0168 0,0094 0,3770 1 0,01 0,038 0,00 0,06 0,17

Pond 0,2188 0,4746 0,3066 Somme 0,05


V1CNP -0,0391 -0,0400 0,0791 Norme 0,2243
V1CPnd -0,1786 -0,0844 0,2580 Somme Norme
CarPnd 0,0070 0,0034 0,0204 0,0308 0,1754
V1RNP -0,22 -0,23 0,45 Itration 1
V1RPnd -1,02 -0,48 1,47

Fort Moyen Nul Pond V2RPnd V4CNP V4CPnd CarPnd V4RNP V4RPnd

Droite 0,0161 0,0133 -0,0294 0,1406 -2,10 -0,07 -0,470 0,03 -0,29 -2,08
Centre 0,0034 0,0067 -0,0101 0,1094 -0,88 -0,02 -0,191 0,00 -0,09 -0,85
Gauche -0,0269 -0,0032 0,0301 0,3730 0,88 0,08 0,205 0,02 0,34 0,91
NiGniD 0,0074 -0,0168 0,0094 0,3770 0,17 0,01 0,029 0,00 0,05 0,13

Pond 0,2188 0,4746 0,3066 Somme 0,05


V3CNP -0,06 -0,04 0,10 Norme 0,2260
V3CPnd -0,270 -0,083 0,322 Somme Norme
CarPnd 0,02 0,00 0,03 0,0510 0,2258
V3RNP -0,26 -0,18 0,44 Itration 2
V3RPnd -1,20 -0,37 1,42

Analyse des correspondances, 1er facteur, Itrations 1 et 2


Le rsultat de chaque produit scalaire est not par la premire ligne du vecteur
V1 qui est "calibr" (c'est dire qui a subit une augmentation de son importance) et
qui n'est pas encore pondr par les marges (notation : C pour calibr; Np pour non
pondr et dans la suite Pnd pour pondr). Tous les rsultats successifs des
produits scalaires sont calibrs et non pondrs CNP.
2) la deuxime opration est la pondration qui permet de relativiser
l'importance des lignes ou colonnes trop importantes. Chaque lment d'un vecteur
calibr est divis par l'lment marginal correspondant (not Pond dans le tableau).
Le vecteur rsultant est not Pnd pour pondr : en ligne il est sous le prcdent non
pondr, en colonne droite. Par exemple le premier lment de V1CPnd -0,1786
est gal -0,0391 / 0,2188.
3) la troisime opration est ncessaire pour rduire le vecteur, c'est--dire le
rendre de "longueur" unitaire. A cette fin on calcule le carr de chaque lment non
pondr et on le divise par la pondration : cela revient faire le produit d'un lment
non pondr par un lment pondr. Un ligne (ou une colonne) prsente ces carrs
pondrs : elle est note CarPnd. Sa somme est donne ainsi que sa racine carre
appele norme. Quand l'algorithme converg, cette somme est la valeur propre du
facteur. Par exemple le premier lment 0,0070 est gal -0,0391 / 0,2188. La
somme des trois lments est gale 0,308 et la norme 0,1754 en est la racine
carre.
4) muni de cette norme on va rduire les vecteurs calibrs, c'est--dire diviser
chaque lment par la norme. On a ainsi une version rduite note R des vecteurs

62
non pondrs et pondrs. Par exemple le premier lment -0,22 de V1Rnp = -
0,0391 / 0,1754 et le premier lment -1,02 de V1RPnd = -0,1786 / 0,1754.
Quand on a pondr V1, calcul sa norme et qu'on l'a norm, on recommence
le produit scalaire mais cette fois entre les lignes du tableau et le vecteur rduit
pondr V1RPnd : on obtient le vecteur 2, en colonne cette fois, V2CNP dont par
exemple le premier lment -0,07 est gal 0,0161 x -1,02 + 0,0133 x -0,48 + -
0,0294 x 1,47. On le pondre, on calcule sa norme, on le rduit et le vecteur V2RPnd
sert maintenant de vecteur initial pour la 2e itration. On peut effectuer simplement
les itrations suivantes avec un tableur en dupliquant la premire itration et en
remplaant les valeurs de V0 par celle de V2RPnd.
On rpte les oprations jusqu' fixit des valeurs (ici pas tout fait obtenue
entre V2 et V4, par contre V6, non indiqu ici, redonne les mmes valeurs que V4).
Les valeurs donnes par les programmes sont les vecteurs calibrs pondrs (ici en
gras).
Ce sont les vecteurs non pondrs qui multiplis termes termes et diviss par
leur norme commune redonnent l'approximation40. Par exemple la premire case du
tableau (Droite, fort intrt) 0,018 est gale -0,470 x 0,1406 x -0,274 x 0,2188 /
0,2260
Fort Moyen Nul Pond V6CPnd
Droite 0,018 0,011 -0,029 0,1406 -0,470
Centre 0,006 0,004 -0,009 0,1094 -0,191
Gauche -0,020 -0,013 0,033 0,3730 0,205
NiGniD -0,003 -0,002 0,005 0,3770 0,028
Pond 0,2188 0,4746 0,3066 Norme
V5CPnd -0,274 -0,081 0,321 0,2260
Reconstitution des carts : premier facteur.
Si l'on veut retrouver ce tableau en effectif tel qu'il est prsent plus haut au
tableau 4, il suffit de multiplier chaque case par l'effectif total 512 pour passer des
proportions aux effectifs (aux arrondis prs). 41
En tant cette reconstitution des carts l'indpendance initiaux on trouve un
nouveau reste sur lequel on ritre le processus pour avoir le 2e facteur (ici le
dernier).

40
Cependant comme les programmes usuels donnent la version pondre de ces vecteurs, on
utilise ici cette version et on dpondre en multipliant par la pondration
41
Les coefficients marginaux du tableau 4 sont une simplification des calculs : chaque lment est gal au
vecteur calibr non pondr divis par la racine carre de la norme et multipli par la racine carre de l'effectif.
Par exemple l'lment "droite" du coefficient -3,147 est gal -0,066 (affich -0,07) lment correspondant de
V4CNP, divis par la racine carre de la norme 0,2258 soit 0,4752 multipli par la racine carre de l'effectif total
512 soit 22,63. Du fait de la multiplication terme terme, on retrouve la formule gnrale donne ici.

63
Annexe au chapitre 5 : algorithme du maximum de vraisemblance

Ici encore nous proposons pour le lecteur qui veut ouvrir la "boite noire" de
l'algorithme qui permet de calculer les lments d'une rgression logistique une
prsentation qui lui permettra d'en comprendre la logique. L'algorithme utilis est dit
du maximum de vraisemblance. Pour en comprendre la logique nous commencerons
par un apologue.

Chicago
Nous sommes Chicago dans un salon de jeu o l'on parie sur la sortie d'un
six aux ds. Au bout de 83 coups, le six est sorti 19 fois. Est-ce suspect aux yeux de
la police des jeux ? Pour en avoir le cur net, les inspecteurs Neyman et Pearson
appliquent le test du khi-deux avec une proportion thorique de 1/6e pour le six et de
5/6e pour les autres cas. Cela donne un khi-deux un degr de libert de 2,3
infrieur au seuil critique 10% qui est de 2,7. Donc pas de d pip, pas d'infraction.
Pourtant le commissaire Fisher se pose une question : est-ce que les donnes que
nous avons sous les yeux ne nous conduisent pas supposer une proportion de
sortie du six diffrente de 1/6e et plus vraisemblable? Pour cela il propose d'utiliser la
mthode mise au point par son homonyme statisticien42.
Dans le cas prsent, le d est peut-tre truqu et la proportion de 1/5e ne serait-
elle pas plus vraisemblable que celle de 1/6e ? Pour rpondre cette question on
compare les probabilits de la situation observe selon les deux hypothses.
La probabilit de 19 sorties d'un six au jeu de d qui aurait une probabilit
inconnue sur 83 tirages est de k 19 (1 - )83-19 o k est le nombre de manires
diffrentes d'avoir 19 vnements six dans 83 tirages soit le nombre 83! / 19! (83-
19)! (c'est dire le nombre de pascal (1983).)
1) hypothse 1/6e note H6 .La probabilit de l'ventualit observe dans cette
hypothse est de k (1/6)19 (1 - 1/6)83-19 = k 1.4045 10-20
2) hypothse 1/5e note H5. La probabilit de l'ventualit observe dans cette
hypothse est de k (1/5)19 (1 - 1/5)83-19 = k 3.2910 10-20
Le rapport des probabilits de H5 par rapport H6 est :
k 3.2910 10-20 / k 1.4045 10-20 soit 2.3 et l'on dit donc que H5 est plus de deux fois
vraisemblable que H6 puisque les rapports des probabilits sont dans ce rapport. On
prfrera donc H5 H6 mais une autre hypothse sera peut-tre encore plus
vraisemblable. Notons bien qu' l'inverse de ce qui se fait classiquement o l'on teste
des donnes par rapport une hypothse, ici on fait varier les hypothses pour un
jeu de donnes fixe.
Le rapport des probabilits prises deux deux est appel rapport de
vraisemblance. Par convention on prend comme dnominateur le cas le plus
vraisemblable qui a pour paramtre exact et pour probabilit k exact19 (1 - exact)83-19.
La probabilit individuelle du cas observ est fonction de qui est le paramtre
recherch et gale k 19 (1 - )83-19. Pour trouver la valeur de qui maximise le

42
Fisher, R. A. Contributions to Mathematical Statistics. New York Wiley, 1950

64
rapport la valeur 1 qui sera obtenue quand =exact on a maximiser le rapport
suivant :
k 19 (1 - )83-19 / k exact19 (1 - exact)83-19
ce rapport se simplifie par k et comme exact est fix (bien qu'inconnu), le
rapport peut s'crire :
(1 / (exact19 (1 - exact)83-19 ))x (19 (1 - )83-19 )
Le premier terme est constant et pour maximiser le rapport, il suffit de
maximiser le deuxime terme : 19 (1 - )83-19. Cette quantit est appele
vraisemblance et en gnral nomme L (comme likelihood, vraisemblance)
L = 19 (1 - )83-19

On notera que ce produit est gal au produit de tous les coups jous : les 19 de
probabilit et les (83-19) de probabilit (1-). Ces vnements tant indpendants,
la probabilit de l'ensemble est gal au produit des probabilit individuelles
[19 fois] (1-) (1-) (1-) [83-19] fois. Cette situation est gnrale, la vraisemblance
est toujours le produit des probabilits de chacun des cas observs.
Pour deux raisons allant dans le mme sens on ne cherche pas maximiser
cette expression mais son logarithme naturel qui rend maximum au mme moment
:
1) parce que le calcul est plus simple : log(L) = 19 log() + (83-19) log (1- ) qui
est une expression simple maximiser. Cette premire raison est traditionnelle mais
perd de sa valeur avec l'informatique.
2) log (L), expression appele la log-vraisemblance a d'autres proprits
intressantes en rapport avec ce qu'on appelle information ou entropie. A un facteur
-2 prs, la log-vraisemblance est proche du khi-deux.
On peut maximiser directement log(L). Si un essai fait augmenter log(L), nous
sommes automatiquement dans la bonne direction, si nous montons puis que la
tendance s'inverse c'est que nous sommes passs par le maximum. Cette proprit
est vraie mme quand plusieurs paramtres sont explorer (sauf minimum local, il
faut donc prendre au dpart des valeurs proches du rsultat final).
Soit plusieurs valeurs de (croissantes par pas de 0,05) et ce qu'elles donnent
pour log (L) :
log(L)
0,10 -50,5
0,15 -46,4
0,20 -44,9
0,25 -44,8
0,30 -45,7
0,35 -47,5
0,40 -50,1
On voit que le maximum se situe pour des valeurs de comprises entre 0,20 et
0,30 (cf figure 19)

65
Il suffit de refaire l'exprience prcdente en prenant un incrment plus petit
(pas de 0,01 pour )et une prcision plus grande pour le rsultat:
log(L)
0,20 -44,86
0,21 -44,74
0,22 -44,67
0,23 -44,65
0,24 -44,68
0,25 -44,75 (inutile de continuer)
Le maximum correspond des valeurs situes entre 0,22 et 0,24 (figure 20).

Recommenons le processus (pas de 0,005):


log(L)
0,220 -44,670
0,225 -44,655
0,230 -44,651
0,235 -44,660
0,240 -44,679
Le maximum correspond des valeurs situes entre 0,225 et 0,235 (figure 21)

66
Prenons 0,23 comme valeur a deux dcimales : l'algorithme du maximum de
vraisemblance nous a permis de trouver la valeur la plus vraisemblable.
Evidemment, pour ce cas il existe une mthode plus simple, la moyenne, puisque
cette valeur est simplement gale 19/83 mais l'algorithme est utilisable quand ce
calcul direct n'est pas possible ce qui arrive quand on a plusieurs paramtres
estimer et que leur liaison n'est pas linaire. C'est ce que nous allons faire
maintenant avec la recherche des paramtres d'une rgression logistique.
Application
Reprenons les donnes du dbut de ce chapitre o l'on veut expliquer le choix
du niveau style ducatif en fonction du sexe et du niveau d'tude (donnes du
tableau 11).
Le calcul est fait de la manire suivante : on a ici trois paramtres trouver,
celui de l'effet fminin (le sexe masculin est de rfrence), l'effet du niveau suprieur
(le niveau infrieur est de rfrence) et la situation de rfrence (masculin, niveau
infrieur). Pour initier l'algorithme, on part des valeurs donnes par l'analyse tabulaire
dont on a constat qu'elles taient toujours proches de celles donnes par la
rgression logistique. Ces valeurs sont les suivantes :
Situation de rfrence masc., inf. (observe) : 13,3%
Effet fminin : 5,1%
Effet Niveau Suprieur d'tudes : 6,4%
Puisque nous passons en rgression logistique, il faut passer aux chances
(pour la rfrences) et aux rapports de chances (Odds Ratios) pour les deux effets.
Chances de la rfrence : la proportion est p = 0,133 et les chances sont p / (1-
p) = 0,1534
Pour les deux effets, il s'agit du rapport des chances de la situation avec effet
fminin, aux chances de la rfrence prcdemment calcule.
La proportion dans le cas fminin est gal la rfrence 0,133 + l'effet fminin
0,051 = 0,184. Les chances correspondantes sont 0,184 / (1 0,184) = 0,2255
L'OR correspondant = 0,2255 / 0,1534 = 1,4700
Le mme calcul pour l'OR de niveau suprieur donne 1,5991.
L'algorithme consiste calculer la vraisemblance correspondante aux donnes
puis faire varier un par un les paramtres : si la vraisemblance augmente, il faut

67
continuer faire varier les paramtres, si elle ne bouge plus car arrive son
maximum, les paramtres sont maintenant les bons.
Comme le tableau des donnes (tableau 11) a huit cases, nous n'avons que 8
situations lmentaires, chacune devant tre rpte autant de fois que l'effectif de
la case correspondante. Nous allons utiliser cette fin un tableur :
ChRef OR OR
0,15 1,47 1,60
Nouv Niveau Produits
Fmi Effectif Prop. Ln (Prop) Log x Eff
Style Sup ChxOR
1 1 1 31 0,3528 0,261 -1,3440 -41,665
1 1 0 28 0,2205 0,181 -1,7111 -47,911
1 0 1 23 0,2400 0,194 -1,6422 -37,771
1 0 0 18 0,1500 0,130 -2,0369 -36,664
0 1 1 94 0,739 -0,3022 -28,405
0 1 0 115 0,819 -0,1993 -22,915
0 0 1 86 0,806 -0,2151 -18,500
0 0 0 117 0,870 -0,1398 -16,352
Total 512 LogVrais= -250,183
Tableau 18 algorithme : tape initiale
En tte on trouve les 3 paramtres avec des valeurs arrondies. Ce sont les
chances de la rfrence et les OR des deux effets fminin et niveau sup.
Chaque ligne correspond une ligne du tableau des donnes : la premire
ligne correspond la case d'effectif 31 : fminin, niveau suprieur ayant choisi le
nouveau style ducatif (les 1 et les 0 correspondent au choix ou au non-choix).
La colonne "produit" correspond au produit des chances de la rfrence avec
les effets prsents. Pour la premire ligne 0,15 x 1,47 x 1,60 = 0,3528.
A partir de la formule "p issue des chances" on tire la proportion estime =
0,3528 / 1,3528 = 0,2608.
On fait de mme pour les 4 premires lignes qui correspondent au choix du
nouveau style. Pour les 4 lignes suivantes o ce choix n'est pas fait, la proportion est
le complment 1 de la ligne correspondante.
Fminin Niveau sup. Nouveau style p = 0,2608
Fminin Niveau sup. Ancien style p = 1- 0,2606 = 0,7392
Comme la vraisemblance est le produit de toutes les proportions (31 fois la
premire x 28 fois la seconde etc.), la log-vraisemblance est calcule plus facilement
en prenant le logarithme naturel de chaque proportion et en le multipliant par
l'effectif. La somme de toutes les lignes donne la log-vraisemblance globale. Elle est
ngative ce qui veut dire qu'une croissance fera diminuer la valeur absolue.
Avec les paramtres initiaux, la log-vraisemblance est gale -250,183.

68
Nous allons faire varier les paramtres initiaux et examiner si la log-
vraisemblance monte ou diminue. Si elle monte on continue si elle baisse on revient
en arrire.
La situation est comparable celle d'un randonneur qui monterait sur un dme
volcanique rgulier dans le brouillard. Tant qu'il monte, il est dans la bonne direction,
s'il descend, c'est qu'il est sur un flan et il doit changer de direction (quivalent de
changer de paramtre). Quand dans toutes les directions, il ne monte plus, c'est qu'il
est au sommet.
Nous allons faire de mme (mais le droulement complet de l'algorithme doit
tre programm). Commenons par faire voluer le paramtre du niveau suprieur :
OR NivSup Log-Vraisemblance
Dbut 1,60 -250,183
-0,01 1,59 -250,185 Dcroissance Stop
+0,01 1,61 -250,182 Croissance
+0,01 1,62 -250,182 Palier : Stop. Changement de paramtre
Chances rfrence
Dbut 0,150 -250,182
-0,001 0,149 -250,200 Dcroissance Stop
+0,001 0,151 -250,168 Croissance
+0,001 0,152 -250,158 Croissance
+0,001 0,153 -250,151 Croissance
+0,001 0,154 -250,147 Croissance
+0,001 0,155 -250,147 Palier : Stop
Changement de paramtre
OR Fminin Log-Vraisemblance
Dbut 1,47 -250,147
-0,01 1,46 -250,140 Croissance
-0,01 1,45 -250,135 Croissance
-0,01 1,44 -250,131 Croissance
-0,01 1,43 -250,131 Palier : Stop
Bien que les trois paramtres aient t pris en compte, l'algorithme n'est pas
termin car il faut reprendre le premier paramtre avec les valeurs des autres jusqu'
fixit des 3, puis augmenter la prcision en prenant des incrments plus faibles.
A la fin on a la situation suivante qui correspond ce que donnent les
programmes.

69
ChRef OR OR
0,166 1,389 1,506
Nouv Niveau Produits
Fmi Effectif Prop. Ln (Prop) Log x Eff
Style Sup ChxOR
1 1 1 31 0,347244 0,258 -1,3558 -42,029
1 1 0 28 0,230574 0,187 -1,6747 -46,891
1 0 1 23 0,249996 0,200 -1,6095 -37,017
1 0 0 18 0,166000 0,142 -1,9493 -35,088
0 1 1 94 0,742 -0,2981 -28,018
0 1 0 115 0,813 -0,2075 -23,860
0 0 1 86 0,800 -0,2231 -19,190
0 0 0 117 0,858 -0,1536 -17,969
Total 512 LogVrais=-250,062
Tableau 19 algorithme : tat final
A partir des valeurs de ces paramtres, on peut retrouver par les formules vues
les proportions et les effets.
L'originalit de cet algorithme du maximum de vraisemblance rside dans le fait
que les estimations ne sont pas faites directement partir des donnes mais en
trouvant les valeurs les plus compatibles avec les donnes : l'algorithme fait
intervenir les donnes chaque tape.

70
Chapitre 6 : comment faire ?

Le but d'un ouvrage comme celui-ci est d'inciter l'action, dpouiller des
enqutes dj faites43. Je voudrais pour conclure rsumer la suite des oprations
pour l'analyse des correspondances et donner quelques indications complmentaires
pour l'analyse "toutes choses gales par ailleurs"

I Etapes prparatoires
La premire tape est le rassemblement de la documentation ncessaire sur
l'enqute traite : questionnaire de base, documents donnant les raisons de la
rlisation de l'enqute, hypothses poses ce moment, publications dj faites sur
les donnes s'il s'agit d'une analyse secondaire. Par contre, il est trop tt pour lire la
littrature sur la question traite elle-mme : cette tape ne sera fructueuse qu'aprs
de premiers contacts avec l'enqute.
Les donnes de l'enqute ayant t dupliques, on utilisera un logiciel qui ne
modifie jamais les donnes de base mais qui cre des fichiers auxiliaires aprs
chaque modification. On constituera alors un tri plat de toutes les variables de
l'enqute (comptage de chacune des modalits de toutes les questions de l'enqute)
et l'on reportera sur un questionnaire l'effectif de chaque rponse afin de voir
comment chaque question a t reue. On ouvrira un journal de l'enqute pour y
porter les rsultats qui vont maintenant tre obtenus.
Une premire familiarisation avec l'enqute se fera en croisant un nombre
limits de questions correspondant des hypothses pralables ou des questions
simples que l'on peut se poser en utilisant des modalits explicatives classiques
(sexe, ge, niveau d'tude, catgorie sociale, politique, religion). Cette premire
tape permettra d'envisager le recodage de certaines modalits trop disperses : la
gestion des recodages faits doit en priorit figurer dans le journal de bord de
l'enqute. En cas d'hsitation, il faut prvoir deux recodages d'une mme question :
un encore assez dtaill et un autre plus nergique. Pour une modalit juge
stratgique, une analyse des correspondances de plusieurs questions permet de
faire le choix des regroupements. En gnral le recodage se fait par proximits
juges partir de l'intitul lui-mme et, en cas d'hsitation, par un tri crois qui
permet de voir comment se sont opres les associations de modalits.
On prparera avec soin les questions qui sont au cur de l'enqute, les
variables d'intrt, qui vont servir de base pour l'tape suivante.

II Analyse globale
Par le biais d'une variable d'intrt, on dterminera les questions qui serviront
pour l'analyse globale de l'enqute. Cette liste est donne en prenant les questions

43
On trouvera des exemples d'application des prsentes mthodes dans les deux articles suivants : Philippe
Cibois, "La bonne volont scolaire. Expliquer la carrire scolaire d'lves issus de l'immigration" in Philippe
Blanchard et Thomas Ribmont (Dir.), Mthodes et outils des sciences sociales. Innovation et renouvellement,
Paris, L'Harmattan, 2002, coll. "Cahiers politiques", p.111-126 ; et Philippe Cibois, "Technique d'analyse des
donnes d'enqute. Exemple avec l'insmination artificielle et anonymat du donneur, ou comment clairer un
dbat de socit", RSI Recherche en Soins Infirmiers, n85, juin 2006, p.22-35.

71
les plus lies globalement (PEM global) la variable d'intrt. On prendra
suffisamment de questions pour que le total des modalits de ces questions
atteignent environ 200 modalits. Dans le logiciel, il sera alors temps de donner un
nom aux questions, mais aussi aux modalits retenues, mais l'opration pourra se
faire en plusieurs tapes en prenant d'abord les questions les plus lies la variable
d'intrt.
Si le premier plan factoriel obtenu une allure de "comte", on mettra en
supplmentaires les quelques points qui ont cr le ou les premiers facteurs. En
quelques oprations on arrivera procder la "fission" du cur de la comte et
arriver ainsi un premier plan factoriel o les points sont suffisamment rpartis.
Comme 200 points ne sont pas simultanment lisibles (en particulier quand les
points proches n'ont pas encore t dsintriqus) et afin de s'assurer de la
contribution suffisante des points affichs, on diminuera progressivement le niveau
de contribution des points affichs par doublements approximatifs successifs (1 pour
mille, puis 2, puis 5, 10, 20, 50, etc.). On se souviendra que la contribution moyenne
est obtenue en divisant 1000, la base du calcul, par le nombre de modalits actives.
Avec 200 modalits, la moyenne 5 est vite atteinte. Pour les supplmentaires qui par
dfinition sont moins contributives que les actives (puisque issue d'autres
dimensions), le seuil peut tre diffrent et est souvent plus faible que pour les
actives.
En modifiant la variable d'intrt on pourra, si l'on dispose du temps ncessaire,
explorer de faon analogue plusieurs dimensions de l'enqute : c'est ce moment
que l'examen de la littrature sur le sujet deviendra fructueuse car elle permettra de
confronter les rsultats de l'enqute avec ce qui tait su auparavant sur le domaine
de recherche.
C'est galement ce moment que la rdaction du commentaire sur les plans
factoriels obtenus sera utile : ils peuvent tre mis dans le journal en vue d'une
rexploitation ultrieure. Ne pas rdiger au moment de l'analyse conduit bien souvent
devoir recommencer le travail fait, ou perdre beaucoup de rsultats. Inversement,
l'examen ultrieur des commentaires faits chaud permet souvent de se rendre
compte qu'une analyse est trop entre dans le dtail et qu'il faudra finalement n'en
retenir que les aspects les plus importants. En tout tat de cause, le principe (mais il
est difficile suivre) est de toujours rdiger au moment o l'on fait des analyses.

III Retour aux donnes


Comme l'analyse des correspondances propose des types idaux, ce qui est sa
qualit, il faut, pour viter que cette qualit ne se transforme en pige, retourner aux
donnes par le biais de comptages de nouvelles variables cres partir des types-
idaux (variables idaltypiques) ou en explorant sur le plan factoriel, les graphes de
liens de PEM local associs une modalit prcise.
La cration de variables idaltypiques permet de se faire une ide statistique du
type : on prendra souvent comme faisant partie du type les individus qui ont au
moins la moiti des modalits constitutives du type idal.
Pour l'examen des graphes de PEM, on acceptera les graphes de faible
intensit (PEM <10%) et l'on se souviendra que les PEM les plus levs (PEM

72
>50%) sont souvent rvlateurs d'une redondance, de l'appartenance des deux
modalits un mme univers.

IV Les variables explicatives


Ayant dtermin des types suffisamment importants du point de vue de leurs
effectifs, on pourra les mettre en relation de plusieurs faons avec des modalits
explicatives.
Une premire manire consiste mettre en supplmentaires de l'analyse
globale les modalits explicatives. Une manire complmentaire est ensuite de
regarder les liens entre modalits explicatives, en les mettant en actives, et projeter
en supplmentaires, les variables idaltypiques obtenues dans l'tape antrieure.
Ceci permettra de prparer les analyses ultrieures "toutes choses gales par
ailleurs".
Ces analyses sont actuellement privilgies dans les publications car leur
prsentation peut tre brve, elles semblent faciles comprendre et ayant un fort
pouvoir explicatif.
Il est exact que la prsentation d'une analyse des correspondances suppose,
pour tre convenablement comprise, un espace rdactionnel suffisant. On peut faire
l'hypothse que l'analyse des correspondances joue, pour une analyse donne, le
rle d'un chafaudage qui a permis de construire une dmarche d'exploration et qu'il
peut tre dmont aprs usage. De ce fait les seuls rsultats prsents sont les
types de rpondants bien attests, vrifis par des comptages et qui sont ensuite
"expliqus" par une rgression logistique.

V Les rgressions multiples


Le problme se complique du fait qu'il existe plusieurs types de rgressions
multiples : j'en ai prsent deux : l'analyse tabulaire, simple dans son principe et qui
donne des rsultats proches de la rgression logistique, la mthode la plus utilise
mais non la plus simple. J'ai fait allusion la rgression linaire sur les mmes
donnes qui donne aussi des rsultats trs proches et il existe enfin des variantes de
la rgression logistique qui permettent par exemple d'liminer la ncessit d'une
modalit de rfrence44.
Dans une premire tape de rgressions multiples, l'analyse tabulaire prsente
beaucoup d'intrt : comme ce n'est pas un modle mais une observation des
donnes dans toute leur complexit, elle permet de se rendre compte de plusieurs
phnomnes :
1) elle permet de vrifier si les donnes sont suffisantes pour prendre en
compte en mme temps beaucoup de questions. Par exemple dans l'analyse
prsente page 106 et suivantes, les donnes de base sont donnes la page
suivante : il s'agit d'un ordre lexicographique o chaque ligne est un prcroisement
d'une modalit de sexe, d'engagement religieux, d'ge scolaire, de proximit

44
Henri Leridon et Laurent Toulemon, Dmographie. Approche statistique et dynamique des
populaitions, Paris, Economica, 1997, p. 252. Exemple d'utilisation dans le numro 415 (septembre 2005) de
Population & Socits.

73
politique. Chaque ligne a un effectif et correspond un pourcentage de choix de la
variable expliquer, ici le style nouveau d'ducation. Il s'agit en sorte d'un tableau
crois deux colonnes o par exemple pour la premire ligne, les 26 individus de
sexe masculin, de mre pratiquante, d'enfant l'heure scolairement, de mre de
droite se rpartissent en 7,7% de nouveau style ducatif (et 100 7,7 = 92,3 qui ne
choisissent pas ce style). On voit que le fait que l'on fasse intervenir 4 questions 2
modalits (sexe, religion et ge scolaire) et 4 pour la politique, miette dj
beaucoup les donnes. En fait toutes les donnes ne sont pas prsentes, il manque
16 individus car sur les 32 lignes possibles (2 x 2 x 2 x 4), seuls 22 sont complets,
c'est--dire ayant un effectif non nul pour le style nouveau et son complment, ce qui
permet de calculer un pourcentage diffrent de zro ou de 100 (qui seraient trs
incertains). On constate dj que les effectifs de chaque ligne sont faibles et que la
situation de rfrence (toutes les modalits marques du R correspondant la
rfrence) ne regroupe que 32 individus.
Sexe Rel AgeS Pol Eff. %
01 Masc R Rel Al'h R Droi 26 7.7
02 Masc R Rel Al'h R NiNi R 34 11.8
03 Masc R Rel Al'h R Gauc 25 8.0
04 Masc R Rel Al'h R Ecol 8 12.5
05 Masc R NRel R EnRe Gauc 4 50.0
06 Masc R NRel R EnRe Ecol 2 50.0
07 Masc R NRel R Al'h R Droi 10 10.0
08 Masc R NRel R Al'h R NiNi R 32 25.0
09 Masc R NRel R Al'h R Gauc 63 15.9
10 Masc R NRel R Al'h R Ecol 28 35.7
11 Fmi Rel EnRe Droi 3 33.3
12 Fmi Rel EnRe Gauc 9 33.3
13 Fmi Rel EnRe Ecol 5 20.0
14 Fmi Rel Al'h R Droi 19 5.3
15 Fmi Rel Al'h R NiNi R 41 19.5
16 Fmi Rel Al'h R Gauc 21 19.0
17 Fmi Rel Al'h R Ecol 17 29.4
18 Fmi NRel R EnRe NiNi R 2 50.0
19 Fmi NRel R Al'h R Droi 10 10.0
20 Fmi NRel R Al'h R NiNi R 48 18.8
21 Fmi NRel R Al'h R Gauc 67 28.4
22 Fmi NRel R Al'h R Ecol 22 27.3

Population concerne= 496 soit 96.9% de l'effectif total

On peut videmment construire un modle de rgression logistique avec


davantage de questions et de modalits et il pourra donner des rsultats significatifs
mais les donnes de base nous manifestent que ce serait bien risqu car les
observations des situations correspondraient peu de lignes compltes.
Ce que permet d'observer aussi l'analyse tabulaire, c'est la prsence ou non
d'interactions qui vont l'encontre du postulat du modle "toutes choses gales par
ailleurs".

74
Prenons par exemple le cas de l'effet "gauche" dont la rgression logistique
nous dit qu'il est nul et non significatif. L'analyse tabulaire nous en propose la lecture
suivante :
Effet Gauch 4 sous-effets (s-e)
Sous-population
s-e Eff Tot
A Masc Rel Al'h -3.8 59 331
B Masc NRel Al'h -9.1 95 331
C Fmi Rel Al'h -0.5 62 331
D Fmi NRel Al'h 9.6 115 331
moyenne pondre des sous-effets = 0.0
Ecart type pondr en pourcentage = 7.7
*** attention
l'cart-type est plus grand que la valeur absolue de la
moyenne
l'effet moyen est peu fiable du fait des interactions
En analyse tabulaire, la moyenne des sous-effets est effectivement nulle mais
ce rsultat vient de rsultats divergents avec des sous effets tantt positifs (ligne D),
tantt ngatifs (lignes A, B et C). Ces sous-effets se dduisent des donnes de base
de la manire suivante : l'effet A oppose l'orientation politique gauche par rapport
la rfrence (ni gauche ni droite) pour la sous-population "masculin, participation
religieuse, l'heure scolairement". Ceci correspond aux lignes 1 4 des donnes de
base pour chacune des options politiques l'intrieur desquelles l'opposition entre
"gauche" et "ni gauche ni droite" correspond la diffrence entre les lignes 3 et 2.
Pour la gauche de ligne 3, la proportion de nouveau style est de 8,0 % ; pour
l'orientation ni gauche ni droite de la ligne 2, cette mme proportion est de 11,8%, le
sous-effet pour les lignes 2 et 3 est de 8,0 11,8 = - 3,8.
On voit que dans la population "fminin, sans religion l'heure" (lignes 20 et
21), l'effet D est lui positif : l'effet de gauche est positif ou ngatif selon le contexte
mais non nul. Nous sommes en prsence d'interactions.
On constatera aussi que seulement 4 effets sont calculs sur les 8 possibles
car le fait d'tre en retard scolairement est trop peu reprsent dans les donnes de
base (cf. les lignes 5 et 12 de faible effectif et qui n'ont pas de situation de rfrence
observable).
En conclusion c'est donc au vu de l'analyse tabulaire que l'on choisira un
modle de rgression logistique qui puisse conduire, par des effectifs suffisants des
donnes de base, des rsultats fiables.
VI Annexe
On trouvera ci-dessous le dtail complet des calculs de l'analyse tabulaire pour
l'effet gauche avec le dtail des tableaux croiss correspondants (Nouv. dsigne le
nouveau style ducatif, reste l'ancien).

75
Effet Gauch 4 sous-effets (s-e)
Sous-population
s-e Eff Tot
Masc Rel Al'h -3.8 59 331
Nouv Reste Tot Nouv Reste
NiNi 4 30 34 11.8 88.2 100
Gauc 2 23 25 8.0 92.0 100
Tot 6 53 59 10.2 89.8 100
Sous-population
s-e Eff Tot
Masc NRel Al'h -9.1 95 331
Nouv Reste Tot Nouv Reste
NiNi 8 24 32 25.0 75.0 100
Gauc 10 53 63 15.9 84.1 100
Tot 18 77 95 18.9 81.1 100
Sous-population
s-e Eff Tot
Fmi Rel Al'h -0.5 62 331
Nouv Reste Tot Nouv Reste
NiNi 8 33 41 19.5 80.5 100
Gauc 4 17 21 19.0 81.0 100
Tot 12 50 62 19.4 80.6 100
Sous-population
s-e Eff Tot
Fmi NRel Al'h 9.6 115 331
Nouv Reste Tot Nouv Reste
NiNi 9 39 48 18.8 81.2 100
Gauc 19 48 67 28.4 71.6 100
Tot 28 87 115 24.3 75.7 100
moyenne pondre des sous-effets = 0.0

76
Bibliographie
Benzcri, Jean-Paul, et al.; L'analyse des donnes, Paris, Dunod, 1973, vol.1 :
La Taxinomie, vol. 2 : Correspondances. Constitue la rfrence pour l'analyse des
correspondances mais se situe, pour la partie thorique un niveau lev de
comptences mathmatiques.
Cibois, Philippe, "Le PEM, pourcentage de l'cart maximum : un indice de
liaison entre modalits d'un tableau de contingence", Bulletin de mthodologie
sociologique, 1993, n40, p.43-63.
Cibois, Philippe, "Les piges de l'analyse des correspondances", Histoire &
Mesure, 12 (3/4), 1997, pp. 299-320.
Cibois, Philippe, "Modle linaire contre modle logistique en rgression sur
donnes qualitatives", Bulletin de mthodologie sociologique, n64, 1999, p.5-24.
Prsentation de l'analyse tabulaire.
Escofier, Brigitte, Pags, Jrme, Analyses factorielle simples et multiples,
Paris, Dunod, 1988. Prsentation gomtrique mais relativement accessible.
Lebaron, Frdric, L'enqute quantitative en sciences sociales, Paris, Dunod,
2006. Recueil et analyse des donnes sont expliqus dans le cadre de l'analyse
gomtrique des donnes. Des tudes de cas permettent de voir comment la
dmarche est mise en uvre.
Menard, Scott, Applied Logistic Regression Analysis, Thousand Oaks CA, Sage
University Paper series on Quantitiative Applications in the Social Sciences 106,
1995. Beaucoup des prsentations de mthodes de cette collection, partent
d'exemples et sont souvent plus comprhensibles que celles de certains auteurs de
langue franaise (qui parlent surtout le langage mathmatique). Cette prsentation,
associe celle de Pampel dans la mme collection permet de comprendre la
rgression logistique.
Pampel, Fred C., Logistic Regression. A primer, Thousand Oaks CA, Sage
University Paper series on Quantitiative Applications in the Social Sciences 132,
2000
Rouanet, Henry, Le Roux, Brigitte, Analyse des donnes multidimensionnelles,
Paris, Dunod, 1993. Prsentation de l'analyse factorielle et des mthodes drives
dans une approche "gomtrico-formelle".

Logiciel
On trouvera l'accs libre et gratuit au logiciel Trideux partir du site de l'auteur
(utiliser un moteur de recherche partir de "prnom + nom")

77
Table des matires

Introduction
Chapitre 1 : reprer les questions pertinentes
I Premire tape : les pralables - II Slectionner les questions pertinentes
Chapitre 2. Lanalyse factorielle des correspondances
I Dcomposition des carts l'indpendance - II Contributions des modalits,
des tableaux. - III Procdure de codage en tableau de Burt - IV Modalits
supplmentaires - V Rsum - Annexe
Chapitre 3 : rechercher des types de rpondants avec lanalyse des
correspondances
I Premire analyse : la queue de comte - II Analyse finale - III Type : bon
niveau scolaire - IV Type : difficults scolaires - V Type : style ducatif ancien - VI
Type : nouveau style ducatif - VII Retour aux hypothses de dpart - VIII Education
nouvelle et socit - IX Retour lanalyse locale - X Retour la mthode - XI
Construire une nouvelle variable dun type
Chapitre 4 : les figures de lanalyse des correspondances
I Parabole de l'effet Guttman - II Effets des faibles effectifs - III Des types
idaux -
Chapitre 5 : les techniques danalyse toutes choses gales par ailleurs
I Analyse tabulaire multivarie - II La rgression multiple III Chances et
rapport des chances - IV Equation de la rgression logistique - V Utilisation de la
rgression logistique - VI Variations - Annexe
Chapitre 6 : comment faire ?
I Etapes prparatoires - II Analyse globale - III Retour aux donnes - IV Les
variables explicatives - V Les rgressions multiples - VI Annexe.
Bibliographie

78

Vous aimerez peut-être aussi