Académique Documents
Professionnel Documents
Culture Documents
Philippe Cibois
Professeur mrite de sociologie.
Universit de Versailles St-Quentin en Yvelines
Introduction
La procdure d'enqute est utilise quand, dans un domaine donn, on se
trouve confront une situation d'incertitude quant aux causes d'un tat de chose.
De ce fait on est amen poser des questions, souvent des personnes, pour
inventorier leurs opinions, leurs pratiques, leur situation, leur pass. De ce vaste
coup de filet sans hypothse pralable, on espre tirer des explications sur les
phnomnes en cause.
Cette procdure d'enqute est souvent couteuse en temps et en moyens
mobiliss mais le rsultat est souvent dcevant car ceux qui font des enqutes ne
disposent pas en gnral de mthodes pour les explorer en profondeur et se
contentent donc de rsultats superficiels. Des mthodes efficaces existent
cependant, certaines datant des annes soixante comme l'analyse factorielle des
correspondances, d'autres plus rcentes comme la rgression logistique.
Le but du prsent ouvrage est de donner au crateur d'enqute les moyens de
comprendre les mthodes qui lui permettront, en utilisant les logiciels disponibles, de
raliser lui-mme un dpouillement d'enqute efficace.
La stratgie utilise pour mettre en uvre les mthodes d'analyse est de
respecter la situation d'incertitude de dpart et de ne pas imposer une mthode qui
force les rsultats dans un sens ou un autre mais qui laisse merger d'ventuelles
surprises. A cette fin le processus d'analyse sera caractris par l'utilisation du
concept de variable d'intrt : tout enqute est faite quand on est face un
phnomne dont on veut rendre compte et cette focalisation dtermine une ou
plusieurs "variables d'intrt" dont on veut rendre compte. On proposera donc une
premire mthode qui consiste reprer quelles sont les questions de l'enqute qui
sont le plus lies cette variable d'intrt. On utilisera cette fin le PEM,
Pourcentage de l'Ecart Maximum qui permet de faire ce travail. Comme cette
mthode est trs simple au point de vue thorique elle permettra de comprendre les
notions d'indpendance dans un tableau et d'cart l'indpendance, qui sont
indispensables pour la bonne intelligence des mthodes suivantes.
Une fois repres les variables qui sont lies au phnomne tudi, on utilisera
une mthode, l'analyse des correspondances, qui permettra de faire une analyse
globale du phnomne, c'est--dire qui positionnera les diffrentes modalits de la
variable d'intrt dans un univers de modalits suffisamment riche pour que des
hypothses de travail puissent en tre issues, mais suffisamment limit pour que
l'analyse ne soit pas submerge par trop de donnes.
Une fois cette vue d'ensemble tablie, l'analyse se focalisera sur des points
prcis qui demandent une investigation complmentaire car l'analyse prcdente,
comme une carte qui englobe un vaste territoire, est peu prcise et trop incertaine.
De l'analyse globale, on passe l'analyse locale, et de l'hypothse de travail sa
vrification.
1
Dans ce but un utilisera galement la rgression logistique sur donnes
d'enqutes qui permet d'estimer l'effet d'une variable sur une autre "toutes choses
gales par ailleurs", c'est--dire par exemple en neutralisant l'effet de l'ge quand on
tudie l'effet de l'origine sociale.
On montrera enfin qu'il est possible de retrouver dans la population observe
des types de rpondants en classant les individus en fonction des rsultats
prcdents. Ce retour aux donnes est une prcaution qui permet de vrifier la
rsistance des rsultats et d'viter que les types-idaux obtenus ne s'ancrent pas
assez dans la ralit.
Pour chaque mthode, on partira d'exemples simples pour faire comprendre les
concepts utiliss, sans en donner les justifications mathmatiques qui n'ont pas leur
place dans un ouvrage introductif. Ensuite un exemple en vraie grandeur suivi tout
au long du livre permettra de juger des capacits de la dmarche.
1
Dominique Vinck, Sociologie des sciences, Paris, A. Colin, 1995
2
Chapitre 1 : reprer les questions pertinentes
On suppose donc une enqute dj existante, soit issue d'une recherche, soit
en vue de l'analyse secondaire d'une enqute disponible et rendue accessible aux
chercheurs. On suppose que les donnes de cette enqute sont utilisables par le
biais soit d'un logiciel international comme SAS ou SPSS, soit d'un logiciel libre
comme Trideux, dvelopp par l'auteur et dont les exemples de ce livre sont issus.
Les mthodes de dpouillement prsentes ici sont indpendantes des logiciels : les
aspects pratiques en dpendent videmment et il faudra s'y reporter pour plus de
dtails.
On suppose donc que l'on a un fichier d'individus dont le nombre est variable,
qui peut aller de quelques dizaines plusieurs centaines de milliers : il peut sembler
paradoxal d'envisager un dpouillement d'enqute avec moins de cent individus mais
regarder attentivement le contenu d'un fichier est un objectif valable mme si la
possibilit d'tendre les rsultats obtenus une population de rfrence est faible.
Quand on fait une enqute, quelque soit le nombre d'individus, on veut lgitimement
avoir une description de la population enqute : si l'effectif en est faible, on ne
pourra que constater l'tat de la population ; si l'effectif est important on pourra
gnraliser les rsultats la population dont l'enqute est issue, sous rserve que
l'chantillon a t prlev de manire raisonne, par exemple par la mthode des
quotas ou en slectionnant des populations spcifiques. Il faut bien distinguer la
description des donnes d'une part, des rsultats qui peuvent tre gnraliss
l'ensemble de la population tudie d'autre part. Pour pouvoir gnraliser on utilisera
des tests statistiques, essentiellement celui du khi-deux que l'on supposera connu :
on se souviendra que le khi-deux tant sensible aux effectifs, ds qu'une population
d'enquts devient importante, il devient rare que le khi-deux d'un tableau crois ne
soit pas significatif.
Dans la suite, on utilisera comme exemple des donnes assez classiques en
terme d'effectif, c'est--dire de plusieurs centaines d'individus. Il ne faut cependant
pas avoir peur des faibles effectifs car on peut faire une bonne description d'une
centaine d'individus. Mme si on ne peut gnraliser les rsultats obtenus la
population de rfrence d'une manire certaine, si la cohrence des rsultats est
grande, leur valeur probatoire apparaitra aux lecteurs qui les considreront comme
des pistes poursuivre, des tendances intressantes explorer par d'autres
enqutes.
Quand, dans une recherche de type ethnologique, on dispose de peu
d'informateurs, on leur demande d'tre de bonne qualit et personne ne se formalise
de leur faible effectif. Quand dans une recherche historique on nous prsente le cas
particulier d'un petit gentilhomme du Cotentin qui a tenu tout au long de son
existence un journal, les gnralisations qui sont faites partir de ce cas unique
n'ont de valeur que dans la mesure o l'on s'assure que notre homme est
reprsentatif de son corps social2. C'est d'ailleurs ce qui permet la micro-histoire de
porter tous ses fruits et c'est une attitude analogue qui doit conduire celui qui a peu
de donnes les utiliser au mieux, en tirer toutes les informations, tre
suffisamment motiv pour aller le plus loin possible (sans tomber dans l'acharnement
2
Madeleine Foisil, Le sire de Gouberville, un gentilhomme normand au XVIe sicle, Flammarion, 2001
3
de celui qui veut obtenir une certaine orientation des rsultats, mais le dbutant est
plutt trop modeste dans ses prtentions).
A l'inverse, celui qui a beaucoup d'individus et qui leur a pos beaucoup de
questions risque d'tre noy par la masse d'informations dont il dispose
potentiellement. Dans ce cas galement, une bonne description des donnes
s'impose : les mthodes descriptives sont les mmes dans les deux cas, ce n'est
affaire que de degrs, de nombre de questions que l'on peut prendre en compte
dans une mme analyse.
On suppose donc que l'on a une population d'individus laquelle on a pos un
certain nombre de questions. Ces questions seront de deux catgories : des
questions d'opinion ou relatives aux pratiques de l'individu dans le domaine enqut,
ou pouvant l'clairer ; des questions indpendantes de l'enqute mais relatives la
connaissance de l'enqut en gnral telles que l'ge, le sexe, la catgorie
socioprofessionnelle, le plus haut diplme obtenu, ou d'autres encore comme le
revenu, l'affiliation politique (ou religieuse) qui relvent de l'opinion ou de la
description mais qui ont en commun de ne pas tre spcifiques d'une enqute
donne.
On supposera dans la suite que toutes ces questions seront utilises sous
formes de catgories, de modalits : la question "sexe" a deux modalits de rponse
; masculin ou fminin. La variable ge qui a pu tre recueillie en codant l'ge en clair
doit tre recode en tranches d'ges : le recueil des donnes doit se faire, non pas
au niveau le plus fin possible (pour l'ge, la date de naissance prcise avec le jour et
le mois) mais au niveau le plus fin pertinent : pour des adultes ce sera l'anne, pour
des enfants du primaire, ce peut tre le trimestre, pour des plus jeunes, le mois ou
une dure moindre. Il faut que ce qui soit recueilli soit pertinent pour la finalit de
l'enqute tant entendu que l'on pourra toujours facilement recoder les donnes
d'une manire logicielle : par exemple, il est bon de recueillir les donnes en mettant
des catgories d'accord ou de dsaccord qui respectent les nuances d'une opinion
(tout fait d'accord, peu prs d'accord, etc.). Dans le courant du dpouillement, il
sera souvent utile d'effacer ces nuances, de perdre de l'information pour en gagner
par ailleurs par confrontation de nombreuses autres modalits.
Si on doit viter de proposer la non-rponse un enqut, on doit l'enregistrer :
on proposera dans la suite des mthodes qui permettent de tirer de l'information de
ce type de modalit par comparaison avec les rponses que l'enqut a donn aux
autres questions. On ne doit pas liminer les non rpondants : ils peuvent tre
porteurs d'une attitude qu'il faut ventuellement prendre en compte.
4
qui c'est "normal" d'tre homme alors qu'une femme n'oublie jamais sa condition
fminine).
La premire opration faire est de confectionner un instrument de travail que
l'on imprimera immdiatement et qui est la distribution des rponses toutes les
questions, appel souvent "tri plat" des rponses, par opposition "tri crois" qui
fait intervenir plusieurs questions en mme temps. Les rsultats peuvent tre de
cette forme :
3
Sachant que 0,1% de la population correspond une demi individu, une prcision plus grande serait
illusoire. On arrondi au plus prs et l'on garde toujours un chiffre aprs la virgule, quelque soit la prcision, afin
de bien distinguer typographiquement les effectifs observs, qui sont toujours des entiers, de ce qui relve d'un
calcul comme les pourcentages.
4
autre recodage possible : " l'heure" contre "en retard".
5
seulement 8% tre en retard. Ces chiffres manifestent une russite qui ne se
retrouve pas dans l'ensemble de la population des collges et qui manifeste que
notre chantillon est spcifique : il l'est par construction car son but est de comparer
les motivations de parents d'lves scolariss soit dans des "coles nouvelles", soit
dans des collges recrutement social quivalent et tant perus comme de "bons
tablissements". Les "coles nouvelles" sont des coles publiques (Decroly) ou
prives non confessionnelles (La Source Meudon, l'Ecole Alsacienne) qui se
caractrisent par une pdagogie diffrente mise au point par des rformateurs
comme Decroly ou Cousinet qui ont cherch mieux partir des intrts des enfants
et mettre au point des techniques pdagogiques spcifiques (qui se sont d'ailleurs
rpandues ensuite, ce qui fait qu'on peut se demander ce qu'il en reste aujourd'hui :
c'est une des rponses attendue de cette enqute).
Comme cette enqute va opposer deux types d'lves : ceux qui sont en cole
nouvelle et ceux qui sont dans des collges recrutement social analogue et de bon
niveau, une variable d'intrt privilgie va tre prcisment cette question deux
modalits "Ecole Nouvelle", "Collge de bonne rputation" : la distribution de cette
question n'est pas pertinente en soi dans la mesure o, par construction, chaque
enquteur devait interroger quatre lves de collge bonne rputation et un d'cole
nouvelle. Ce n'est qu'en la croisant avec d'autres questions que l'on verra l'effet de
cette variable5.
Un premier tableau crois va nous permettre de voir de premiers rsultats et de
mettre au point un outil qui nous servira dans la suite : un indicateur de la force de
liaison entre modalits (ou entre questions). Nous effectuons donc le tri crois entre
le sexe et la variable d'intrt, le type de collge.
5
"Les stratgies ducatives des classes moyennes et suprieures salaries", enqute dirige par Franois
de Singly et Philippe Cibois dans le cadre du Deug de sociologie de l'Universit de Paris V en 1991-1992
6
Dans le tableau ci-dessous, on trouve 4 nombres dans chaque case (et leur
somme en marge) :
- l'effectif (N=) : pour la case "Fminin en Ecole nouvelle, il est de 60 individus ;
- le pourcentage en ligne (%Ligne) : sur 268 lves de sexe fminin, les 60 en
cole nouvelle reprsentent 22,4% du total (soit plus que 19,1%, le pourcentage
toutes lignes confondues, ce qui indique une attraction)
- la contribution au khi-deux qui est gale l'effectif en cart l'indpendance
au carr divis par l'effectif thorique.
Ici l'effectif thorique (produit des marges par le total) est de 98 x 268 / 512 =
51,30. L'cart l'indpendance est de (observ thorique) 60 51,30 = 8,70. La
contribution au khi-deux est de 8,70 / 51,30 = 1,5
- le PEM, Pourcentage de l'Ecart Maximum (%Attrac). On a not que pour cette
case, l'cart l'indpendance est 8,70 individus. Si la liaison entre sexe fminin et
cole nouvelle tait son maximum, les 268 filles ne pourraient pas tre l'cole
nouvelle (dont l'effectif n'est que de 98 individus) mais les 98 lves de l'cole
nouvelle pourraient tre de sexe fminin. Donc 98 est le maximum de la case et
l'cart l'indpendance dans le cas de ce maximum serait de (maximum thorique)
98 51,30 = 46,70
Comparons l'cart observ 8,70 l'cart dans le cas du maximum 46,70 ce qui
nous donne une proportion de 8,70 / 46,70 = 0,186 ou 18,6% en pourcentage. Cette
valeur est suivie d'une toile sur le tableau pour signaler qu'elle est issue d'un
tableau crois significatif6.
+-----------+---------+----------+--------+
|N= %Ligne| Ecole | Collge |Total |
|Khi2%Attrac|Nouvelle |BonneRp |en ligne|
+-----------+---------+----------+--------+
|Masc | 38 15.6| 206 84.4| 244 100|
| |1.6 -18.6* 0.4 18.6* 2.0 47.7|
+-----------+---------+---------+---------+
|Fmi | 60 22.4| 208 77.6| 268 100|
| |1.5 18.6* 0.3-18.6* 1.8 52.3|
+-----------+---------+---------+---------+
| Total | 98 19.1| 414 80.9| 512 100|
|en colonne |3.1 | 0.7 | 3.8 100|
+-----------+---------+---------+---------+
Dans un tableau 2 x 2, tous les PEM sont symtriques, c'est--dire de mme
valeur absolue et de signes opposs, c'est--dire correspondant non une attraction,
mais une rpulsion dans le cas d'un PEM ngatif. Le PEM global est pris en faisant
la somme des carts positifs observs l'indpendance par rapport la somme des
carts positifs dans le cas de la liaison maximum : on vrifie facilement qu'il est aussi
gal 18,6%. Ce rsultat est gnral : dans le cas d'un tableau 2 x 2, le PEM global
et le PEM local (positif) sont identiques. Le calcul du PEM peut tre tendu des
tableaux plus grands ayant un ordre sur les marges (que l'on peut toujours tablir par
une mthode d'analyse factorielle).
6
Philippe Cibois, "Le PEM, pourcentage de l'cart maximum : un indice de liaison entre modalits d'un
tableau de contingence", Bulletin de mthodologie sociologique, 1993, n40, p.43-63.
7
Empiriquement, des cas de PEM trs levs (suprieurs 50%) manifestent
une liaison tellement forte qu'ils sont l'indice d'une redondance des indicateurs : par
exemple, dans toute enqute, on vrifie que le PEM entre le fait d'tre la retraite et
d'tre dans une tranche d'ge suprieur 60 ans est toujours trs lev.
Inversement, quand la liaison est infrieure 10%, elle peut tre l'effet du hasard et
c'est pour cette raison qu'on associe toujours au PEM le test du khi-deux. On
constate empiriquement que les PEM intressants se situent entre 10 et 50%.
Quand on dpouille une enqute, il faut immdiatement intgrer tout rsultat
obtenu, en tant bien conscient qu'il pourra tre remis en cause dans la suite. Par
exemple ici, on doit immdiatement prendre acte de la liaison entre sexe fminin et
coles nouvelles : c'tait d'ailleurs l'une des hypothses qui taient proposes au
moment de la construction de l'enqute de vrifier si les coles nouvelles, en mettant
l'accent sur les aspects relationnels, n'taient pas en train de moderniser la dfinition
traditionnelle du rle fminin.
Quand on commence dpouiller une enqute, il faut progressivement
s'approprier les donnes, en faire l'exprience et c'est une bonne pratique de
commencer par explorer quelques hypothses simplement par le biais de tris
croiss. Par exemple, une autre hypothse de dpart qu'il est facile de vrifier tait
que les coles nouvelles taient privilgies par des parents de classe moyenne ou
suprieure dont les enfants avaient des difficults scolaires. Nous allons utiliser
cette fin, l'ge scolaire, variable que nous avons construite et qui est un indicateur
"objectif" des difficults du parcours scolaire.
On a le tableau crois suivant :
+-----------+---------+---------+---------+
|N= %Ligne| Ecole | Collge | Total |
|Khi2%Attrac|Nouvelle |BonneRp | en ligne|
+-----------+---------+---------+---------+
|En avance | 16 17.4| 76 82.6| 92 100|
| | 0.1 -9.1| 0.0 9.1| 0.2 18.0|
+-----------+---------+---------+---------+
|A l'heure | 67 17.7| 312 82.3| 379 100|
| | 0.4 -7.6| 0.1 7.6| 0.5 74.0|
+-----------+---------+---------+---------+
|En retard | 15 36.6| 26 63.4| 41 100|
| | 6.5 21.6* 1.5-21.6* 8.1 8.0|
+-----------+---------+---------+---------
| Total | 98 19.1| 414 80.9| 512 100|
|en colonne | 7.1 | 1.7 | 8.8 100|
+-----------+---------+---------+---------+
On voit que les contributions au khi-deux qui rendent le tableau significatif sont
associes prcisment au fait d'tre en retard scolaire, qu'il y a une attraction (PEM
de 21,6% significatif) entre ce retard scolaire et l'cole nouvelle. On voit donc que
8
l'hypothse qui avait t faite est d'une certaine manire confirme, mais la
condition de bien voir que les lves en retard sont trs minoritaires, y compris dans
l'cole nouvelle (83 des 98 soit 85% des lves d'cole nouvelle sont l'heure ou en
avance).
A partir de ce deuxime tri crois, on voit que chaque tableau crois apporte
une information utile, mais ponctuelle, il manque la fois la vue d'ensemble et la
prise en compte des nombreuses autres questions de l'enqute. Nous allons
maintenant mettre au point une procdure qui permette une dcouverte
systmatique des lments intressants de l'ensemble des tris croiss possibles.
7
Cibois 1993
9
- les raisons du choix du collge lui-mme : sil tait proche ou non ; si lon y
cultivait lautonomie ou la russite scolaire et par qui le choix a t fait (un parent, les
deux, lenfant a-t-il t associ ce choix ?)
- comment est envisag la scolarit de lenfant : est-ce que lenfant est satisfait
de lenseignement quil reoit ? Pour le futur, faut-il le pousser ou le laisser suivre
son rythme ? Si lon a prvu le lyce o il irait. Jusquo pense-t-on quil ira
(universit ou grandes coles ?).
- un certain nombre de questions concernent le style ducatif des parents : ce
que lon souhaite obtenir comme rsultat (respect des autres, savoir-vivre, sens des
responsabilits, etc.) ; quel type de sanction on envisage ventuellement (privation,
rprimande) ; si les parents ont le sentiment ou non de reproduire le style
dducation quils ont reu eux-mmes ; si lenfant connait les opinions politiques de
ses parents.
- questions portant sur les activits de lenfant : ses activits prfres, sil
pratique la comptition sportive, ses jeux prfrs, ce quil a reu Nol
- il y a peu de questions relatives aux parents sinon la catgorie
socioprofessionnelle de la mre et ses loisirs favoris.
Cette vingtaine de questions, qui comportent peu prs 200 modalits de
rponses (soit une dizaine de modalits par question en moyenne) nest quun point
de dpart pour commence se faire une opinion sur le contenu de lenqute.
Cette procdure qui consiste passer par la variable dintrt pour slectionner
les questions lavantage daider commencer la recherche avec un nombre
suffisant de modalits de 200, qui est un bon point de dpart. Ce nest quun point de
dpart quil faudra affiner dans la suite. Pour le traiter, nous allons utiliser lanalyse
factorielle des correspondances.
10
Chapitre 2. Lanalyse factorielle des correspondances
I Dcomposition des carts l'indpendance
Avant de montrer comment utiliser cette technique, il faut en comprendre quels
sont les concepts fondamentaux. A cette fin nous partirons du tableau suivant qui,
issu toujours de la mme enqute, croise lintrt vis--vis de la religion de la
personne interroge (la mre de lenfant) avec sa position politique. Dans la
catgorie marque ni gauche ni droite , on a regroup les rponses faisant
rfrence au mouvement cologique ou qui refusent de se positionner sur une
chelle gauche/droite.
Intrt vis--vis de la
Position religion
politique Fort Moyen Nul Total
Droite 24 41 7 72
Centre 14 30 12 56
Gauche 28 89 74 191
Ni G ni D 46 83 64 193
Total 112 243 157 512
Tableau 1 : effectif observ
Faire lanalyse des correspondances de ce tableau conduit construire un
graphique o chaque point reprsente un intitul de ligne ou de colonne. Un point
ligne sera proche dun point colonne quand on pourra reprer une attraction entre
cette ligne et cette colonne, attraction repre par un fort cart lindpendance.
La situation dindpendance dans un tableau se dfinit de la faon suivante : en
moyenne dans ce tableau, la proportion de fort intrt est de 112 / 512 = 0,219 soit
21,9%. Si cette proportion sappliquait au 72 personnes de droite, leffectif quil y
aurait serait de 0,219 x 72 = 15,8 personnes. Cet effectif correspondrait au cas fictif
o il y aurait indpendance entre les lignes et les colonnes puisquil est calcul
simplement par produit des marges divis par le total.
Pour lensemble du tableau les rsultats sont les suivants.
11
Comme il sagit dun cas fictif, on lappelle tableau des effectifs thoriques sous
lhypothse dindpendance.
Les observation sont soit au-dessus de lindpendance comme pour la
premire case Droite et fort intrt o lon a un cart lindpendance de
24 15,75 = 8,25 personnes en cart positif. Par contre on a un cart ngatif entre la
gauche et le fort intrt :
28 41,8 = -13,8 o le dficit manifeste une rpulsion. Quand on est de gauche, on
est moins que la moyenne avoir un fort intrt pour la religion.
Le tableau gnral est le suivant :
Position Intrt vis--vis de la religion
politique Fort Moyen Nul Total
Droite 8,3 6,8 -15,1 72
Centre 1,8 3,4 -5,2 56
Gauche -13,8 -1,7 15,4 191
Ni G ni D 3,8 -8,6 4,8 193
Total 112 243 157 512
Tableau 3 : carts lindpendance
On voit quil y attraction entre la droite (et dans une mesure plus faible le
centre) avec lintrt fort ou moyen ; une attraction entre la gauche et une absence
dintrt. Pour ceux qui refusent le positionnement politique traditionnel, ils se
retrouvent dans les extrmes et fuient lintrt moyen.
Ces rsultats sont tout fait classiques en sociologie8 : en France lopposition
gauche / droite se superpose souvent lopposition vis--vis de la religion
(catholique souvent). Quant la position moyenne, elle reflte souvent un
attachement traditionnel en voie de se distendre : ceux qui ne se situent pas dans
lopposition politique classique font leur choix soit pour soit contre le domaine
religieux.
Chaque cart lindpendance est le rsultat de lopration effectif observ
effectif thorique. On peut tendre cette opration au tableau en disant que ce qui
est vrai au niveau de chaque case lest aussi au niveau du tableau dans son
ensemble. Le tableau observ est ainsi dcompos en une somme de deux
tableaux : thorique + carts lindpendance. En reprenant les intituls des
tableaux on a:
T observ = T thorique + T carts
Cest cette dcomposition qui va tre poursuivie par lanalyse des
correspondances o le tableau des carts va tre dabord approxim par un tableau
le plus proche de lui mais o, comme dans le tableau dindpendance, chaque case
sera connue par ses marges.
8
Ren Rmond, Les droites en France, Paris, Aubier, 1982 ; Jean-Franois Sirinelli (dir.), Les droites
franaises, Gallimard, 1995 ; Guy Michelat et Michel Simon, Classe religion et comportement politique, Paris,
Presses de la FNSP et ed. sociales, 1977 ; Jean-Marie Donegani, La libert de choisir, Paris, Presses de la FNSP,
1993.
12
Voici lapproximation du tableau des carts avec les coefficients marginaux qui
permettent de le construire9 : les valeurs des cases du tableau sont trs proches du
tableau 3 des carts. Pour sen convaincre il suffit de faire la diffrence terme
terme dans un tableau du reste.
9
Voir l'annexe pour les dtails complmentaires.
13
Figure 1 : Facteur approximation en abscisse, reste en ordonne
Les rgles de lecture pour ce plan factoriel permettent de retrouver linformation
des carts lindpendance : on doit regarder langle au centre entre point ligne et
point colonne. Trois cas de figures sont possibles :
1) langle est infrieur 90 : par exemple entre gauche et intrt nul, ou droite
et intrt fort. Ceci signifie quil y a attraction entre ces modalits et que lcart
lindpendance est fort (les deux attractions cites sont les plus fortes avec des
carts de 15,4 et 8,3)
2) le cas oppos se prsente quand langle est proche de 180 : par exemple
entre droite et intrt nul, gauche et intrt fort et ni gauche ni droite et intrt
moyen. Ceci signifie quil y a opposition ou rpulsion entre ces modalits et que
lcart lindpendance prend des valeurs ngatives fortes (les cas cits
correspondent aux trois plus bas niveaux dcart : -15,1, -13,8 et -8,6).
3) le cas intermdiaire se situe quand langle est proche de 90 : par exemple
entre gauche et intrt moyen. Ceci signifie quil y a indpendance entre ces
modalits : lcart lindpendance est faible (ici cest la plus faible valeur absolue
des carts de 1,7 : elle est ngative car langle est lgrement suprieur 90)
Ces trois cas de figure dattraction, dindpendance ou dopposition
reprsentent toutes les ventualits possibles et toutes les situations que lon
observe sont intermdiaires entre ces cas types. Quand on a traiter un grand
nombre de modalits, et cela va tre le cas pour dpouiller une enqute, on
sintresse surtout aux attractions, c'est--dire aux proximits angulaires entre
modalits qui dterminent des zones du graphique auxquelles il est parfois possible
de donner un nom qui relve de linterprtation.
Plus un point est proche du centre, et moins ses attractions ou oppositions sont
fortes. Quand un point est strictement au centre, cela veut dire quil en situation
dindpendance avec toutes les autres modalits. Ici le point qui se rapproche le plus
de cette situation est le point centre dont la ligne dcarts lindpendance est la
plus faible de tout le tableau.
Enfin, si lon prend en compte les tableaux dapproximation et de reste
individuellement (ou ce qui revient au mme si on ne regarde que les abscisses des
points ou les ordonnes), on peut donner un nom chaque approximation, appele
aussi facteur. Le tableau dapproximation correspond lopposition politique
traditionnelle : gauche areligieuse contre droite favorable (1er facteur), tandis que le
tableau du reste est spcifique de la position ni gauche ni droite et de son refus
lintrt moyen (2e facteur).
14
En rsum, lanalyse des correspondances dun tableau crois consiste
dcomposer les carts lindpendance de ce tableau en plusieurs tableaux connus
par leurs coefficients marginaux qui sont appels traditionnellement les vecteurs
propres de chaque tableau.
Sur le graphique associ ces vecteurs propres, les intituls des lignes ou
colonnes, par leurs positions angulaires rciproques permettent de retrouver les
carts lindpendance des donnes.
Le nombre total de tableaux ncessaires est gal au plus petit nombre de lignes
et colonnes, ici trois lignes : le premier tableau, numrot zro correspond
lindpendance, le tableau suivant est le premier facteur, le suivant le deuxime.
Quand le nombre de facteurs ncessaire est plus grand que deux, les facteurs
suivants, plus faibles sont soit ngligs, soit interprts sparment.
15
Position Intrt vis--vis de la religion
politique Fort Moyen Nul Total
Droite 5,1 1,0 9,8 15,9
Centre 0,7 0,1 1,3 2,0
Gauche 2,6 0,5 5,0 8,0
Ni G ni D 0,0 0,0 0,1 0,1
Total 8,4 1,6 16,1 26,1
Tableau 7 : khi-deux du tableau d'approximation
16
III Procdure de codage en tableau de Burt
Dans le cas prcdent, nous avions une question en colonne (l'intrt vis--vis
de la religion) et une question en ligne (l'opinion politique), or au prcdent chapitre,
nous avions repr une vingtaine de questions. Pour pouvoir traiter plus de deux
questions en mme temps, on prend comme tableau traiter, non le tableau crois
ordinaire, mais un tableau spcial, appel tableau de Burt10, qui consiste faire un
tableau entirement symtrique pour les lignes et les colonnes et o, par exemple en
ligne, se trouvent toutes les modalits de toutes les questions retenues. En croisant
avec les mmes modalits en colonne, on juxtapose les tris croiss prcdents et un
tableau diagonal o se trouvent les effectifs de chaque modalit. Lexemple
prcdent mis en tableau de Burt permettra den comprendre le principe.
10
En hommage au psychologue Cyril Burt (1883-1971)
17
tableau de Burt. En effet, comme le tableau dorigine est dupliqu, son khi-deux lest
aussi et le khi-deux li aux tableaux diagonaux est compltement artificiel.
Les rsultats sont prsents dans Trideux (dune manire assez classique) de
la faon suivante :
Facteur 1 Valeur propre = 0.375746
Pourcentage du total = 29.4
Facteur 2 Valeur propre = 0.284394
Pourcentage du total = 22.3
On voit dj que le codage en tableau de Burt fait baisser normment les
pourcentages dexplication de chaque facteur (qui taient de 92 et 8%). En effet, du
fait du khi-deux artificiel, davantage que 2 facteurs sont ncessaires pour rendre
compte de lintgralit des donnes (5 ici mais seuls les 2 premiers ne sont pas
artificiels). Il ne faut donc pas utiliser ces pourcentages pour interprter lanalyse :
lindicateur pertinent devient maintenant la valeur propre elle-mme en utilisant la
rgle empirique suivante :
- quand la valeur propre est suprieure 0,1 (ce qui est le cas ici pour les deux
facteurs utiles), cela indique une forte liaison entre les questions utilises ;
- quand la valeur propre est infrieure 0,1 mais suprieure 0,01, on est dans
le cas standard, habituel ;
- enfin quand la valeur propre est infrieure 0,01, la liaison entre les questions
est faible.
Quon se trouve souvent dans le cas standard vient du fait que les questions
que lon met dans une analyse nindiquent ni de trop fortes liaisons (parce quon les
connaitraient dj) ni de trop faibles (car on ne veut pas croiser des ralits trop
htrognes).
Coordonnees factorielles (F= ) et contributions pour le
facteur (CPF)
Modalites en colonne
*---*------*----*------*----*
ACT. F=1 CPF F=2 CPF
*---*------*----*------*----*
V931 870 309 265 38 Nul
V932 -219 30 -528 232 Moyen
V933 -743 161 773 230 Fort
V951 -1275 304 -256 16 Droite
V952 -518 39 -490 46 Centre
V953 557 154 -447 131 Gauche
V954 75 3 680 307 NiGniD
*---*------*----*------*----*
* * *1000* *1000*
*---*------*----*------*----*
Pour la liste des questions (on nindique que les colonnes mais les lignes
seraient strictement identiques), on a pour chaque facteur (F=), les coordonnes
factorielles (ou vecteurs propres) et la contribution en millimes. Les vecteurs
propres donnent un graphique trs proche du prcdent o la croise des axes est
marque par un angle droit et o la position de chaque point correspond la
premire lettre de son intitul :
18
Figure 2 : plan factoriel du tableau de Burt, facteur 1 horizontal, facteur 2
vertical.
IV Modalits supplmentaires
Dans une enqute, certaines questions sont de nature diffrente des questions
spcifiques de lenqute : ce sont celles qui sont employes dans toutes les
enqutes comme le sexe, lge, le niveau dtude, la catgorie socioprofessionnelle
ou ces variables spcifiques que sont lopinion politique ou religieuse. Ces variables
sont souvent appeles explicatives, terme datant dune poque o lon croyait
expliquer la superstructure par linfrastructure. Si lon ne prtend plus expliquer par
ces variables, on pense toujours que ces variables vont au moins clairer la
situation, illustrer par leur prsence un aspect important de la ralit ; on leur donne
donc aussi le nom de variables illustratives.
Pour les rendre oprantes, on met ces modalits en variables supplmentaires
dans lenqute. Pour comprendre ce qu'est une variable supplmentaire, dans le
tableau de Burt prcdent o lon a deux variables de type politique et religieux, si on
veut savoir o se positionnent les personnes ayant mis leurs enfants dans une cole
nouvelle compares celles qui ont choisi un collge de bonne rputation, la
stratgie de dpouillement consiste ne pas mettre strictement ensemble ces trois
questions mais respecter la diffrence de nature du choix dcole en mettant cette
question en variable supplmentaire11.
Mettre une question en supplmentaire ne modifie en rien lanalyse des autres
variables : cest une fois lanalyse faite que lon effectue des calculs supplmentaires
pour mettre dans le graphique chaque modalit au plus prs dune modalit ordinaire
(dite active par opposition supplmentaire) qui serait identique la modalit
supplmentaire.
En ajoutant la question de lcole en variable supplmentaire, on na rien
chang aux rsultats indiqus plus haut. On a simplement les lignes suivantes
ajoutes : la contribution qui est indique est hypothtique car cest celle quaurait
une modalit active identique.
*---*------*----*------*----*
SUP. F=1 CPF F=2 CPF
*---*------*----*------*----*
17A1 187 9 124 5 EcoleNouv
17A2 -44 2 -29 1 CollReput
*---*------*----*------*----*
11
Quand il y a beaucoup de questions, ce sont bien les modalits illustratives qui sont mises en lments
supplmentaires.
19
Les contributions des deux modalits sont faibles, elles seront proches du
centre. Toutefois on voit que les parents dcole nouvelle sont dans la direction du
ple dintrt nul et donc en faible conjonction avec lui, tandis que les parents ayant
choisi un collge de bonne rputation sont en lgre conjonction avec le ple droite /
intrt moyen.
20
Chapitre 3 : rechercher des types de rpondants avec lanalyse des
correspondances
21
- les modalits faible effectif (de 1 individu 12)
Comme il sagit de modalits qui sont incertaines quant leur interprtation,
elles vont tre mises en modalits supplmentaires. Dans le logiciel Trideux, les non-
rponses sont par dfaut mises en lments supplmentaires.
22
trs important dans le choix du collge (AutonomieClgOui++) alors que la proximit
gographique na pas t dterminante (ProxiNon) et que le niveau scolaire ne la
t que moyennement (RussiteClGOui=). Dans ce type, on a limpression de ne pas
reproduire le modle ducatif que lon eu soi-mme (ReproEducPasDu Tout), ce qui
fait que la premire rponse envisage comme type de sanction, (1SanctionAutre)
est que les rponses traditionnelles sont repousses (privation, rprimande, etc.). La
comptition sportive ny est pas favorise.
Les frontires du type ne sont pas nettes : on a indiqu les rponses en
conjonction 45 avec la premire modalit choisie mais une rponse comme le fait
que lenfant soit au courant des opinions politiques de ses parents est partage avec
le type du rpondant de la partie infrieure droite qui est daccord aussi pour dire
que, en ce qui concerne lavenir de lenfant, il faut quil aille son rythme.
Pour le type de rpondant en bas droite, la satisfaction de lenfant lcole
nest pas ncessaire (SatisEnfantNon) et lautonomie na pas fait partie du choix du
collge qui dailleurs na pas t une dcision dlibre mais qui sest faite toute
seule.
Le troisime type, gauche, soppose au deux autres : on y met laccent sur les
valeurs ducatives traditionnelles que lon veut reproduire, le respect, la confiance, la
politesse. En matire davenir, on veut que lenfant aille le plus loin possible et la
comptition (sportive) y est favorise. Cest un choix des parents et le collge a t
lobjet dun choix en fonction de son niveau.
Cette premire analyse montre trois types : ducation mettant laccent sur
lautonomie, ducation mettant laccent sur les valeurs traditionnelles et un troisime
type qui ne semble pas avoir fait de choix spcifique. On peut faire lhypothse
raisonnable que le premier type doit tre li aux coles nouvelles, mais lesquelles
spcifiquement ?
Bien que lon ait dj trait prs de 200 modalits, on voit quil manque
beaucoup de choses pour rpondre aux questions initiales de lenqute, par exemple
le sexe de lenfant, le choix des diffrents collges, le niveau de lenfant, les
caractristiques sociales des parents.
II Analyse finale
Pour arriver lanalyse finale, il va falloir introduire les questions qui vont
permettre de rpondre aux hypothses de dpart qui sont celles de cette enqute. Le
questionnaire utilis devait permettre de tester si le choix d'une cole nouvelle
pouvait tre li soit :
- une stratgie de rattrapage : l'enfant a des difficults dans le systme
scolaire standard et dfaut d'une bonne russite scolaire, il cultive les nouvelles
valeurs de notre poque que sont l'authenticit, la capacit relationnelle,
l'autonomie ;
- une stratgie de reconversion : mme si l'enfant n'a pas de difficults
scolaire, certains parents pensent que ces mmes nouvelles valeurs (autonomie,
capacit relationnelle, authenticit) sont celles qui vont s'imposer dans la vie
prsente et qu'il faut en doter ses enfants.
23
Autre sous-hypothse : est-ce qu'il n'y aurait pas une tendance ce que l'on
insiste davantage pour les garons sur la russite scolaire et pour les filles sur ces
nouvelles valeurs, plus "douces", plus lies traditionnellement l'insistance associe
au modle fminin du relationnel.
Pour rpondre la premire hypothse, il faut introduire des indicateurs de
niveau scolaire, pour la 2e il faut le sexe de lenfant.
Dune manire gnrale, il faut introduire en modalits supplmentaires les
variables de statut social : sexe, ge, etc. ainsi que toute question que lon juge
pertinente : le nombre nest pas un obstacle car on peut sans difficult traiter
plusieurs centaines de modalits.
Pour lanalyse finale, on a donc ajout des variables de statut ou apparentes :
sexe, niveau scolaire de lenfant, opinion politique de la personne interroge. On en
arrive au total de 273 modalits dont 152 supplmentaires. Comme le plan factoriel
est videmment trop charg, on slectionne les modalits en fonction de leur
contribution.
On ne prend pas le mme niveau de contribution pour les modalits actives
(20) et pour les supplmentaires (6). En effet, les modalits supplmentaires, par
construction ne peuvent tre trs en relation avec les actives car elles ne sont pas de
mme nature. Dans toute enqute, les questions dopinion ou de comportement
associes un mme domaine prsentent entre elles des attractions fortes, par
contre avec les variables de statut, les relations existent mais sont moins fortes.
Comme on veut faire apparaitre des supplmentaires pour illustrer lanalyse, on
utilise un niveau moins lev de contribution.
Pour le choix de ces seuils, il faut procder par essais et erreurs : si le seuil est
trop faible, on a trop de points, sil est trop fort, on nen na plus assez. Il faut trouver
un quilibre qui dpend aussi de la place dont on dispose. En cas de difficults, il est
possible de prsenter un plan gnral schmatique comme celui-ci o les ellipses et
leur titre sont le fruit dune interprtation mais qui aident la lecture.
24
Figure 8 : Bon niveau scolaire
12
Sur le graphique et pour gagner de la place, des abrviations ont t employes et cette modalit est marque
"NivElveTrsBon". Dans la suite du texte les modalits sont marques sous leur forme explicite.
13
Plus le point est prs du centre, moins il est li aux points dans la mme direction. Ici par exemple la modalit
"Niveau de l'lve trs bon" reprsente 20% de la population mais elle est plus forte chez les filles (24%) et
symtriquement plus faible chez les garons (15%) : l'attraction n'est pas trs forte mais statistiquement
significative. D'une manire gnrale cf. Christian Baudelot et Roger Establet, Allez les filles ! Seuil, 1998
25
Figure 9: difficults scolaires
26
En conclusion de cette analyse de l'opposition horizontale du graphique, il
apparait que ce qui distingue d'abord les perceptions, c'est le niveau scolaire : les
styles ducatifs que nous allons voir maintenant, dans la mesure o ils s'opposent
dans l'autre dimension du graphique (verticale), nous indiquent que l'on pourra
trouver des styles ducatifs associs soit de bons, soit de mauvais rsultats
scolaires.
14
Le standard relationnel du milieu est une forme d'galit dans les prises de dcision du couple, ce qui n'tait
peut tre pas le cas dans la gnration des propres parents des personnes interroges.
27
Comme indicateur de statut, l'opposition entre styles d'ducation se fait plus sur
une base d'affiliation politique : la mre qui rpond s'autopositionne plutt droite.
On retrouve symtriquement le positionnement politique gauche pour le nouveau
style ducatif que nous allons maintenant tudier.
28
statistique, mais qui permettent d'en mieux prciser la nature15. Dans cet
agrandissement, nous avons souligns les points dj vus dans le graphique gnral
prcdent.
Plusieurs modalits sont issues de la question sur la priorit en matire
d'ducation : de plus cette question tait une "question ouverte", c'est--dire que les
rponses n'taient pas proposes par le questionnaire mais que les mots mmes
des rpondants taient accepts librement. Dans le ple du nouveau style ducatif,
on repre deux thmes principaux :
15
Niveaux de CPF pris 3 pour mille. Il faut bien prciser que c'est ce choix qui fait apparaitre petit petit les
points, en fonction de leur importance dans la cration des types : la mthode est inductive, c'est--dire que ce
n'est pas l'interprte qui fait la slection des points son gr.
16
Modalits non prsentes dans le graphique gnral et qui n'apparaissent que sur le graphique grande chelle
dans sa partie non montre ici.
29
cours). Ceci n'empche pas les occasions de dsaccord, comme en ce qui concerne
les sorties : l'autonomie est une conqute progressive et les parents s'estiment un
droit de surveillance.
Nous somme l au cur de la tension ducative : l'injonction d'autonomie peut
sembler une contradiction17 :
- comment tre autonome et dpendant de sa famille ? Ce qui est dfini par ce
style, c'est une priorit donne dans l'ducation, non une reconnaissance (illusoire)
d'autonomie existante. L'enfant d'ge collge est toujours dpendant et l'ducation
passe par des activits faite avec lui telles qu'on les trouve signales dans le
graphique : de discussion, d'activits culturelles faites l'extrieur ou la maison,
mais aussi par le biais d'activits d'panouissement personnel (couter de la
musique, programmer), plus que par le sport de comptition qui n'est pas apprci.
- comment tre autonome et ouvert aux autres ? Cette double exigence
manifeste que l'autonomie n'est pas vcue comme un isolement mais comme une
phase ncessaire d'intgration dans un groupe dont on accepte les rgles. Etre
autonome et ouvert aux autres, c'est entrer de plein pied dans la tradition
dmocratique o par la discussion, qui suppose des ressources personnelles et une
conviction autonome, on est confront aux autres que l'on respecte.
17
comme l'injonction d'amour, le "double bind", la clbre double contrainte impossible raliser car il est
contradictoire de demander d'aimer si l'amour est un mouvement libre.
30
que des difficults d'adaptation conduisent des parents vers des coles nouvelles
plus respectueuses des dmarches de chacun18.
3) quant la troisime hypothse qui assimile le choix d'un nouveau style
ducatif une reconversion des valeurs nouvelles d'autonomie, de capacit
relationnelle et d'authenticit, elle est vrifie d'une certaine faon mais ce qui est
mis en avant par le choix des parents, c'est la racine profonde de ces nouvelles
valeurs, que rvle cette tension entre autonomie et ouverture aux autres comme
nous allons le voir maintenant. Les coles nouvelles ne sont pas caractrises par le
fait de mettre l'accent sur l'autonomie et sur les capacits relationnelles, elles sont
caractrises par un nouveau style de positionnement o l'individu, ayant confiance
en lui-mme, a aussi la volont d'entrer en dialogue avec les autres.
Il nous faut cependant revenir un peu en arrire en notant que le premier
clivage apparu dans notre population tudie est relatif la perception du niveau
scolaire de l'enfant avec toutes les pratiques ducatives qui vont avec. C'est
l'opposition majeure dans notre population enqute, comme c'est le souci
fondamental de toute famille ayant un enfant d'ge scolaire. Quel que soit le style
ducatif, il n'est pas possible de s'affranchir de la russite scolaire. Ce qu'apporte
l'enqute, c'est qu' ce souci commun peuvent tre associs des styles ducatifs
diffrents : le style classique des milieux sociaux favoriss (ceux de notre enqute)
fait de pression, de comptition, d'inculcation des valeurs traditionnelles de l'enfant
"bien lev" ; mais aussi ce style d'ducation nouvelle fait de cette tension entre
construction d'une autonomie et souci du groupe.
VIII Education nouvelle et socit
Pour rendre compte de cette tension, il faut examiner la dynamique qui est
l'origine du mouvement de l'Education nouvelle au 20e sicle19. En effet, si les
rformateurs pdagogiques des origines (Montaigne, Port-Royal, Comenius,
Rousseau) ont toujours eu l'ide que la dynamique de l'apprentissage passait par
l'intrt propre de l'enfant (contre l'ide que l'enfant pouvait tre instruit contre son
gr), la spcificit des rformateurs contemporains a t de tenir compte aussi des
avances scientifiques d'une part et de la question politique d'autre part.
Je n'insisterai pas ici sur l'apport de la psychopdagogie, en particulier des
apports de Piaget, qui a t personnellement partie prenante du mouvement de
l'Education nouvelle, mais je voudrais souligner l'aspect politique, au sens large, du
mouvement. Prenons le cas d'Henri Wallon (1879-1962) la fois psychologue et
homme politique, lui aussi partie prenante du mouvement de l'Education nouvelle : il
insiste sur l'tude ncessaire de l'enfant20, la fois d'un point de vue individuel (qui
relve de la psychologie) et d'un point de vue collectif (qui relve de l'tude du milieu
de l'enfant).
Comme on le sait, le rapport Langevin-Wallon, issu d'une commission runie
ds la fin de la guerre et qui rendit son rapport en juin 1947, propose une rforme de
l'enseignement qui, dans un but de dmocratisation propose une unification des
18
Cette modalit est significativement lie des indicateurs de mauvais niveau scolaire d'une part et est prise par
quelques enfants de Decroly, ce qui explique sa position sur le graphique.
19
Annick Raymond, L'ducation morale dans le mouvement de l'Education nouvelle, L'Harmattan, 2002
20
cf. Annick Raymond 2002 : p.140
31
rseaux scolaires et, dans un but d'efficacit pdagogique, reprend des acquis de
l'ducation nouvelle.
Comme le dit dans ce sens l'introduction du rapport : "les tudes primaires,
secondaires, suprieures sont trop souvent en marge du rel. L'cole semble un
milieu clos, impermable aux expriences du monde. Le divorce entre
l'enseignement scolaire et la vie s'accentue par la permanence de nos institutions
scolaires au sein d'une socit en voie d'volution acclre. Ce divorce dpouille
l'enseignement de son caractre ducatif. Une rforme est urgente qui remdiera
cette carence de l'enseignement dans lducation du producteur et du citoyen et lui
permettra de donner tous une formation civique, sociale, humaine".21
Ce rapport restera lettre morte mme si sous la 5e Rpublique, les rformes
utiliseront certaines de ses propositions comme l'orientation, en en dtournant l'objet.
Alors que le projet visait la dmocratisation de l'enseignement, on doit bien se rendre
compte, comme le souligne l'historien Antoine Prost, que "la dmocratisation a
progress jusqu'au dbut des annes soixante dans une structure scolaire pense
par des conservateurs avec une volont proprement ractionnaire de dfense et
illustration des humanits, alors qu'au contraire, les rformes de 1959, 1963 et 1965,
qui voulaient assurer l'galit des chances devant l'cole et la dmocratisation de
l'enseignement ont, dans les faits, organis le recrutement de l'lite scolaire au sein
de l'lite sociale."22. En effet la procdure d'orientation a t dtourne : la formation
professionnelle a t utilise comme une voie d'chec, ce qui en a fait un repoussoir.
Les mthodes actives issues de l'cole nouvelle ont t ignores.
La vise politique est prsente dans le rapport et, dans le paragraphe consacr
l'ducation morale et civique, on trouve une citation de Paul Langevin, autre acteur
du mouvement de l'Education nouvelle : "l'cole fait faire l'enfant l'apprentissage de
la vie sociale et, singulirement, de la vie dmocratique. Ainsi se dgage la notion du
groupe scolaire structure dmocratique auquel l'enfant participe comme futur
citoyen et o peuvent se former en lui, non par les cours et les discours, mais par la
vie et l'exprience, les vertus civiques fondamentales : sens de la responsabilit,
discipline consentie, sacrifice l'intrt gnral, activits concertes et o on utilisera
les diverses expriences de self-government dans la vie scolaire".
Si le systme scolaire dans son ensemble reste loin de cet idal, nous devons
noter qu'il reste au cur des aspirations des parents qui choisissent l'cole nouvelle.
La vie dmocratique ne s'apprend pas comme un concept mais comme une
exprience dans laquelle chaque enfant doit la fois cultiver son autonomie, pour
exister lui-mme et, en mme temps, mettre en uvre l'acceptation des autres, ce
vouloir vivre ensemble qui est selon Renan23 ce qui rend possible la vie d'une
collectivit, d'une nation24. Cette pratique est une valeur, une thique et comme telle
21
Le rapport Langevin-Wallon a t rendu disponible rcemment dans : Claude Allgre et Philippe Meirieu,
Pour l'cole, Mille une nuits, 2004, il est galement disponible sur internet par exemple l'adresse
http://perso.wanadoo.fr/claude.rochet/ecole/docs/langevin.pdf
22
Antoine Prost, L'enseignement s'est-il dmocratis ? Presses universitaires de France, 1992, p.201.
23
Ernest Renan, Qu'est-ce qu'une nation ? Edit par Jol Roman, Presses Pocket, 1992
24
Aujourd'hui, le penseur qui a le mieux thoris cette pratique sociale faite d'autonomie et d'ouverture aux
autres est Habermas qui a montr que la pratique dmocratique consiste accepter le meilleur argument propos
dans la discussion. Cf. entre autres ouvrages, Jrgen Habermas, De l'thique de la discussion, Les ditions du
Cerf, 1992, Champs/Flammarion.
32
doit tre apprise et transmise. L'apprentissage de la vie dmocratique, fait
d'autonomie personnelle et de souci de la collectivit, est ce qui est recherch dans
une Ecole nouvelle, comme l'a montr empiriquement cette enqute.
25
On utilise pour les test du khi-deux les repres suivants : 3 toiles, significatif au seuil de 1%, 2
toiles : 5%, une toile : 10%
33
V851 30 8 * 1SanctionArgentPoche
CSPB 29 7 * PTechnicien
17B4 28 10 ** Carnot
V320 26 18 *** SatisEnfantNR
67A3 24 88 ** CadeauxNoelNonLivres
84A1 23 41 *** RprimandeTravScol
V392 22 32 *** DifScolRelationnelles
V8A7 15 14 * 1Brouillon
89A2 13 48 *** DsaccordTravScol
V361 13 32 ** AideParentSurveille
V952 12 19 * PosPolMreCentre
61A1 12 63 * 1JouerSortirAmis
Il y a un certain bruit dans ce genre de profil (mais le bruit est moins gnant
que le silence ) : par exemple les deux profils 100% signifient que les 2
individus dont la premire qualit est dtre bricoleur sont tous des lves moyens.
On retrouve dans le profil les dolances des parents sur le niveau scolaire, le fait de
mettre en avant les matires o lenfant est bon : le technique et le sport, des
parents de classe moyenne au style ducatif traditionnel sanctionnant par le biais de
largent de poche, et o la lecture nest pas privilgie.
On peut ainsi expliquer une modalit par les autres modalits qui lui sont
lies comme on explique un mot du dictionnaire par dautres mots en lien
smantique avec lui. Plus le nombre de modalits pris dans lanalyse sera vaste et
plus le profil sera riche et lexplication intressante.
X Retour la mthode
Il nest possible de montrer comment on dpouille une enqute quen le faisant,
en interprtant un graphique o beaucoup de modalits sont prsentes afin quil soit
assez riche. On a vu aussi que cette interprtation revient aux hypothses de dpart
pour montrer comment elles sont soit rfutes soit modifies. Enfin, les rsultats de
lanalyse ont t replacs dans une problmatique plus vaste qui est celle du
domaine tudi, ici la sociologie de lducation.
Il y a l un effet qui peut tre dangereux : dans la mesure o sont injectes ici
beaucoup de connaissances extrieures lenqute, on peut lgitimement se
demander si les graphiques factoriels nont pas servi de test projectif des opinions de
lanalyste.
Pour lever ce doute, nous allons maintenant procder des vrifications
empiriques propos des quatre types de rpondants qui ont t isols en revenant
aux donnes elles-mmes. Nous tudierons en dtail le type que nous avons le plus
dvelopp, qui est au cur de lenqute, le nouveau style dducation en nous
posant une question simple : quelle est limportance numrique de ce type de
rpondant et comment pouvons nous le dfinir ? A cette fin nous allons montrer
comment il est possible de constituer une nouvelle variable qui dfinirait
lappartenance au type.
34
XI Construire une nouvelle variable dun type
La vrification le plus simple est le comptage : nous allons prendre les
modalits qui sont apparues dans le nouveau style pdagogique et nous allons
compter combien dindividus ont en commun ces modalits. Nous utiliserons donc
les questions suivantes prsentes dans le graphique correspondant (dtaill, non
prsent ici) :
1) plusieurs qualits de lenfant apparaissent ; prenons celles qui sont donnes
en premier : attentionn, autonome, curieux, ouvert, rapide, serviable et la non-
rponse qui refuse ce genre de jugement. Ces qualits se caractrisent par leur
aspect non scolaire et par les qualits humaines douverture et dattention aux
autres. Il va de soi quun tel test est projectif du projet ducatif des parents.
2) inversement, quand on voque un cas ventuel de rprimande, le parent
propose les cas suivants : dsordre, vulgarit, gosme, colre ou encore le refus de
cette ventualit. Cest laspect ngatif du fait de se centre sur soi qui est sanctionn,
non le manque dardeur au travail.
3) la question suivante voque en consquence une sanction possible : ici soit
on refuse de rpondre, soit une autre issue est envisage.
4) les valeurs ducatives proposes ici sont : lautonomie, la confiance, le
respect, la gnrosit, la capacit dveil, la tolrance.
5) quand on demande le niveau scolaire de llve, la rponse est quon refuse
ce genre de classement.
6) le parent, quand on lui demande sil a limpression de reproduire le modle
ducatif quil a reu rpond que ce nest pas le cas du tout.
7) enfin, lenfant est au courant des opinions politiques de ses parents.
On a donc 7 questions dont certaines ont plusieurs modalits dans le style
repr : nous allons simplement compter combien dindividus ont de modalits de ce
type : le maximum est 7 car quand plusieurs modalits dune question sont prsente,
il ne sagit pas de rponses multiples mais de rponses proches et chaque
rpondant ne peut en prendre quune par question.
Nous sommes ainsi en mesure de construire un indicateur simple
dappartenance au style : ceux qui en auront 7 constitueront le type pur et ceux qui
nen nauront aucune seront des opposants stricts.
Voici le comptage du nombre de modalits, de 0 au maximum observ.
Tot. 0 1 2 3 4 5
512 66 182 164 69 16 15
100 12.9 35.5 32.0 13.5 3.1 2.9
35
Comme ce phnomne est permanent, quelque soit lenqute, il vaut mieux
comprendre la situation de la faon suivante : ce que nous propose lanalyse des
correspondances dans les regroupement que lon observe ne sont pas des types
ltat pur, mais des types ltat approch dont la prsence simultane de modalits
forme un tout logique intelligible. Cest ce que Weber a appel un type-idal :
cest ce qui a fait la fois la sduction de ce type danalyse et sa difficult quand on
a pris pour des types rels ce qui ntait que type-idal26.
Lexprience montre quune bonne approximation du type est donne quand on
regroupe les individus qui ont au moins la moiti des cas observs, c'est--dire ici,
puisque 5 est le maximum, ceux qui en ont 3, 4 ou 5, c'est--dire les 100 individus
qui reprsentent 20% de la population.
Cette population ne se confond pas avec les enfants dont les parents ont choisi
une cole nouvelle : si lon croise le type approch du nouveau style ducatif avec le
type dcole, on a les rsultats suivants :
Nouveau style ducatif
Non Oui Total
Ecole 65 33 98
nouvelle 66,3 33,7 100
Collge 347 67 414
autre 83,8 16,2 100
Total 412 100 512
80,5 19,5 100
Tableau 10 : Ecole et style ducatif
Il y a bien attraction entre les parents dEcole nouvelle et le nouveau style
ducatif puisque ce style reprsente 20% de la population et que, dans la population
dEcole nouvelle, le pourcentage est suprieur (34%). Sur le graphique, les coles
nouvelles sont bien proches du nouveau style ducatif mais cest bien une attraction
qui est indique, non une exclusivit. Le nouveau style ducatif se retrouve aussi
chez des parents qui nont pas fait le choix de lEcole nouvelle.
La nouvelle variable qui a t cre partir dun type-idal (et que lon peut
appeler pour cette raison variable idale-typique) permet de rsumer linformation, de
la synthtiser, et va nous permettre maintenant daller plus loin en tentant, sur cette
variable, dappliquer des techniques danalyse toutes choses gales par ailleurs
pour pouvoir discerner dune manire fine ce qui peut rendre compte de cette
attitude.
Avant dtudier ces techniques dont la plus utilise est la rgression logistique,
nous allons rester encore un chapitre avec lanalyse des correspondances pour en
regarder quelques figures classiques.
26
Cf. Chapitre suivant pour plus de prcisions sur ce point.
36
Chapitre 4 : les figures de lanalyse des correspondances
37
Figure 16 Croyances religieuses
La figure 16 est issue d'une enqute ralise en 1986 sur les rapports entre les
franais et le catholicisme27. On voit que le ct droit de la parabole correspond au
ple des catholiques convaincus (l'existence de Dieu est certaine, le baptme des
enfants et leur instruction religieuse sont trs importants, l'interrog se dit croyant
convaincu, il croit en la trinit, en la rsurrection du Christ, au Ciel, au Purgatoire et
l'Enfer). Inversement le ple gauche correspond l'incroyance, l'exclusion de Dieu,
au rejet de l'importance du baptme et du catchisme. L'aspect plus intressant de
cet effet Guttman se situe dans le bas de la parabole, dans le passage de la
croyance ferme la croyance incertaine puis au scepticisme. Par exemple on voit
que le croyant par tradition, s'il considre que Dieu est probable, se rfugie dans la
non-rponse pour le dogme traditionnel (Enfer, Purgatoire, Ciel, Trinit) mais juge
encore assez importante la formation religieuse des enfants. D'une manire
symtrique, le sceptique, s'il dit non aux mmes dogmes, se rfugie dans la non-
rponse pour la formation religieuse des enfants. Il n'y a que l'incroyant affirm qui la
rejette comme pas importante du tout. L'intrt de cette chelle de croyance
(Guttmanienne) est l'clairage qu'elle permet d'apporter sur la manire dont a t
comprise la question d'autodfinition de la croyance o l'on a demand si l'intress
se dfinissant comme : "un croyant convaincu, un croyant par tradition, un croyant
incertain, un sceptique, un incroyant". A priori, entre "incertain" et "sceptique", l'cart
de sens est faible et l'on pourrait avancer qu'il y a quivalence entre les deux termes.
Au vu du graphique, avec le point Croyant incertain le plus en bas, intermdiaire
entre la tradition et le scepticisme, on voit bien que les rpondants se sont appuys
sur la gradation qui leur tait propose. Il ont bien vu qu'il s'agissait dj d'une
chelle en 5 points du plus croyant au moins croyant o ils pouvaient se positionner
d'une manire fine. Ceci explique la cohrence des rponses.
On voit sur cet exemple ce que signifie de parler de questions lies entre elles :
cela veut dire qu'ici toutes les modalits de rponses de type croyant convaincu sont
prises peu prs par les mmes individus. Des questions lies entre elles impliquent
des rpondants typiques : on rencontre frquemment ce phnomne quand on met
27
Guy Michelat, Julien Potel, Jacques Sutter, Jacques Maitre, Les franais sont-ils encore catholiques ?
Paris, ditions du Cerf, 1991
38
dans une mme analyse des questions qui se prsentent de la mme faon dans
leur rponses comme "tout fait d'accord", "assez d'accord", "plutt pas d'accord" et
"pas d'accord du tout". La routine de la rponse l'emporte et le questionneur, qui n'a
pas trop cherch approfondir son problme, recueille, et c'est justice, une rponse
strotype de l'enqut.
28
Philippe Cibois, "Les piges de l'analyse des correspondances", Histoire & Mesure, 12 (3/4), 1997, pp.
299-320.
29
Olivier Donnat et Denis Cogneau, 1990, Les pratiques culturelles des franais 1973-1989, La
dcouverte / La documentation franaise.
39
On distingue droite une culture de niveau de diplme peu lev associant
sortie au bal et au match, une culture correspondant des ges croissants
n'excluant pas toute sortie (cirque comme accompagnateur d'enfants), une culture
jeune de boite et de rock, avec le jazz qui sert d'intermdiaire avec les sorties
"distinctives". En effet, si le facteur vertical est lis l'ge (des plus jeunes aux plus
gs en allant du haut en bas), l'axe horizontal correspond l'opposition de
"distinction" au sens de Pierre Bourdieu30, c'est--dire des pratiques dont le
prestige culturel entraine la raret et la distinction.
30
Pierre Bourdieu, La distinction, Paris, Ed. de Minuit, 1979.
40
III Des types idaux
On a dj voqu le problme plus tt (page 72) en montrant qu'un type idal
manifest par une analyse des correspondances ne devait pas tre considr
comme un type rel. Revenons sur cette question partir d'un exemple trait
antrieurement31: il s'agit d'une enqute sur les ouvriers franais faite la suite des
vnements de 196832. En ne prenant en compte que les affiliations politiques et
syndicales repres par la dclaration d'appartenance et le vote pour un parti
politique et un syndicat on voit sur la figure 18 une opposition entre :
-un ple CGT-PC gauche sur le graphique : appartient et vote CGT, se sent
proche du Parti Communiste et a vot J.Duclos, candidat du PCF au premier tour
des lections prsidentielles de 1969, toutes modalits ayant une contribution
suprieure 150 pour mille alors que la moyenne (1000 divis par 32 modalits) est
de 31 pour mille.
- un ple gauche non communiste en haut : CFDT, partis de gauche et
candidats de gauche.
- en bas droite, un ple de droite : UNR, Pompidou, parti et candidat gaullistes
de l'poque.
31
Philippe Cibois, L'analyse des donnes en sociologie, Paris, PUF, 1984 : cet ouvrage n'est plus dit car
il ne correspond plus l'tat des techniques actuelles. Je pense en avoir gard l'essentiel dans le prsent ouvrage.
32
Grard Adam, Frdric Bon, Jean Capdevielle, Ren Mouriaux, L'ouvrier franais en 1970, Pris,
Presses de la FNSP, 1970.
41
Avec les mmes critres (4 modalits du type) on classe 9 individus en gauche
non communiste, ce qui explique pourquoi ces faibles effectifs entrainent un fort
loignement au centre, et 41 individus droite. On classe donc avec ces types 131
individus sur 1116 soit 11,7% du total.
Au vu de ces chiffres on comprend bien en quoi l'analyse des corespondances
est un procd qui produit des types-idaux et non des types numriquement
importants. Pour avoir des effectifs suffisants, il faut prendre le principe dj voqu,
qui consiste prendre pour un type approch, l'appartenance au moins la moiti du
nombre d'lments constitutifs du type, ici 2. Avec ce critre et en prenant des
prcautions pour ne pas faire de doubles comptes, on peut classer environ 70% de
la population.
Bernard Lahire, en reprenant ces rsultats33, rappelle que ceci explique
pourquoi Pierre Bourdieu utilisait beaucoup l'analyse des correspondances car elle
visualisait des types-idaux qui correspondaient sa pense en termes de champs
et il critique ce qu'il appelle l'usage paresseux de la mthode idaltypique. En effet il
montre que, si on fait un comptage soigneux des types de rpondants, on s'aperoit
que les dissonnances culturelles (c'est le sous-titre de son livre) sont nombreuses et
que tel qui va l'opra peut tout aussi bien suivre avec passion le Tour de France,
ou pire, aux yeux d'une culture lgitime intgriste.
Si l'on a bien repr que l'analyse des correspondances propose des types-
idaux et non des types statistiquement bien attests, on pourra se servir de cette
mthode sans courir le risque de projeter sur la ralit sociale les propres
strotypes de cette socit, en particulier par le biais de ses pratiques distinctives.
Pour ce faire il suffit de compter34 en construisant ce que j'appelle des variables
idal-typiques, c'est--dire des indicateurs qui comptent combien chaque individu
de modalits du type.
33
Bernard Lahire, La culture des individus, Paris, La dcouverte, 2004, p.132-136.
34
"Compter ses hommes" tait la devise de l'adjudant de compagnie rappelait plaisamment Georges
Guilbaud : cela reste la devise du sociologue ( condition de compter tout autant les individus de sexe fminin
que les personnes de sexe masculin).
42
Chapitre 5 : les techniques danalyse
toutes choses gales par ailleurs
Ces techniques, comme lanalyse des correspondances sont des
approximations des donnes mais les rgularisations quelles effectuent rendent les
donnes beaucoup plus facile interprter, ce qui est intressant si lon dispose
dindicateurs qui nous permettent de nous rendre compte de la validit des rsultats.
Parler de techniques toutes choses gales par ailleurs fait appel lide que
si un phnomne social est du plusieurs causes, il peut tre intressant de voir
leffet propre de chacune des causes, indpendamment des autres.
Pour reprendre un exemple trait par ailleurs35, si le fait davoir un fort niveau
dtude encourage la lecture, et si lon sait que les femmes lisent plus que les
hommes : comme les deux aspects vont ensemble, on souhaite avoir une mthode
qui neutralise leffet de sexe pour isoler leffet de niveau dtude (et inversement qui
neutralise leffet de niveau dtude pour avoir leffet de sexe).
35
Philippe Cibois, "Modle linaire contre modle logistique en rgression sur donnes qualitatives",
Bulletin de mthodologie sociologique, n64, 1999, p.5-24.
36
Recod en suprieur pour ceux qui ont un niveau Bac+5 et grandes coles et infrieur pour les autres
(essentiellement bac+3 ou 4).
43
Le plus bas niveau de choix du nouveau style ducatif se trouve dans la
premire ligne : pour des garons de la part dun pre de niveau dtude infrieur. La
proportion est de 13,33%.
Nous allons neutraliser successivement leffet du sexe et du niveau dtude.
Commenons par le niveau dtude o deux situations sont possibles pour voir leffet
du sexe, dans le cas du niveau infrieur (deux premires lignes) ou du niveau
suprieur (deux dernires lignes).
1) effet du sexe : entre les deux premires lignes, toutes deux de niveau
infrieur, la seule diffrence est que, en passant du sexe masculin au sexe fminin,
la proportion de nouveau style ducatif passe de 13,33% 19,58% soit une
augmentation de 19,58 13,33 = 6,25 points.
Refaisons le mme calcul pour le niveau suprieur (les deux dernires lignes) :
la diffrence est cette fois de 24,80 21,10 = 3,70. On constate donc quil y a dans
les deux cas un effet fminin qui fait monter la proportion de nouveau style : lide
dapproximation sera introduite ici en prenant la moyenne des deux effets : leffet
fminin est de (6,25 + 3,70)/2= 5,0 points de pourcentage.
2) effet du niveau dtude : nous rutilisons les mmes lignes du tableau mais
de faon diffrente. Pour le sexe masculin (1re et 3e ligne), leffet de niveau
suprieur fait que lon passe de 13,33% 21,10% soit une augmentation de 7,77.
Pour les sexe fminin (2e et 4e ligne) laugmentation est de 24,80 19,58 =
5,22. Les deux effets vont dans le mme sens et leffet moyen est de 6,5
En utilisant ces effets moyens, il devient possible de prsenter les donnes
dune manire spcifique lanalyse toutes choses gales par ailleurs : par
rapport la situation masculin et niveau infrieur, de 13,3, leffet fminin ajoute +5,0
et indpendamment, leffet niveau suprieur ajoute +6,5. On rsume linformation en
donnant la situation do lon est parti comme rfrence et lon donne sparment les
deux effets.
Situation de rfrence : masculin niveau inf. : 13,3
Effet fminin +5,0
Effet niveau suprieur +6,5
Les deux effets vont dans le mme sens : quand on a un enfant de sexe
fminin, la propension choisir le nouveau style dducation augmente de 5% toutes
choses gales par ailleurs, c'est--dire quelque soit le niveau dtude du pre. De
mme le niveau suprieur favorise une augmentation de 6,5%. Le choix du point de
dpart est sans importance. Si on avait pris comme situation de rfrence le sexe
fminin, leffet masculin aurait simplement t invers, il aurait fait baisser de 5%, de
mme pour le niveau dtude. Dune manire pratique, il faut choisir comme
rfrence ce qui est le plus clair et le plus intelligible. Parler deffet fminin est clair
car on sait quil sagit dun effet sur les tudes qui a dj t repr37.
Cette manire simplifie de prsenter les donnes (situation de rfrence +
effets spars) permet de reconstruire une approximation des donnes, dont on
vrifiera, dans le cas prsent, quon ne comment pas trop derreur en prenant
lapproximation plutt que la ralit qui, dans ce cas simple, est entirement connue.
37
Christian Baudelot et Roger Establet, Allez les filles ! Seuil, 1998
44
Lerreur, malgr les simplifications apportes par lutilisation de la moyenne simple,
n'atteint pas 2%.
Prsence du nouveau style
ducatif
Modle Obs. Err.
Masc.
Rfrence 13,3 13,3 0
NivInf
Fminin Ref.+effet 13,3+5,0
19,6 -1,3
NivInf Fminin =18,3
Masc. Ref.+effet 13,3+ 6,5
21,1 -1,3
NivSup Nivsup =19,8
Fminin Ref.+Fmi 13,3+5,0
24,8 0
NivSup +NivSup +6,5=24,8
Tableau 12 : comparaison modle et observation
Dans la suite on utilisera une moyenne pondre, c'est--dire que chaque
lment de la moyenne vaudra au prorata de leffectif du groupe. Par exemple leffet
fminin qui tait calcul simplement en prenant la moyenne ordinaire (6,25+3,70)/2=
5,0 sera calcul en pondrant le premier sous-effet de 6,25 par 278 (effectif des deux
premires lignes do est tire la diffrence et qui correspond leffectif total du
niveau infrieur) et de mme 3,70 sera pondr par leffectif du niveau suprieur). Le
total gnral est de 512. Le calcul de moyenne pondre est le suivant :
(6,25 x 278/512) + (3,70 x 234/512) = 5,1 : ici la diffrence est peu sensible car
les deux groupes sont quilibrs. Jappelle cette manire de faire lanalyse tabulaire
car tout est issu de calculs lintrieur de tableaux croiss38. Comme on va le voir,
ses rsultats sont toujours trs proches de la manire de faire la plus utilise, la
rgression logistique sur des modalits de rponses.
Il faut parler de la rgression logistique pour comprendre sa logique mais,
comme ses rsultats sont trs semblables ceux de lanalyse tabulaire, je ne
chercherai pas dans un ouvrage dinitiation la prsenter comme telle : il vaut mieux
interprter les rsultats dans une logique danalyse tabulaire. Ce qui suit en montre
la logique pour qui a dj une ide de la rgression en gnral.
II La rgression multiple
Lide de la rgression multiple (linaire aussi bien que logistique) est davoir
une variable expliquer (y de y=ax+b de lquation ordinaire dune droite) et
plusieurs variables explicatives (x1, x2, xn pour une rgression multiple de la forme
y = a1x1 + a2x2 + + anxn + b) o les x sont la prsence (note 1) ou labsence
(note 0) dune modalit explicative (dans lexemple prcdent, le fait dtre de sexe
fminin ou de niveau suprieur) et o les a sont des coefficients numriques qui vont
tre calculs. Le coefficient b est appel lordonne lorigine (en anglais intercept).
38
Philippe Cibois, "Modle linaire contre modle logistique en rgression sur donnes qualitatives",
Bulletin de mthodologie sociologique, 1999, n64, p.5-24.
45
Le nombre de coefficients a et de modalits x dans le cas de lanalyse
prcdente est de deux comme on la vu. En effet, dans le cas dune question deux
modalits, dfinir leffet fminin, cest rendre compte de la question en entier car la
deuxime modalit a servi de repre, de rfrence. Quand nous aurons une question
trois modalits (ou davantage), une seule servira de rfrence et les autres seront
toutes un effet spcifique. Si lon veut utiliser une variable refltant une orientation
politique en droite / centre / gauche, il faudra par exemple choisir le centre comme
rfrence et lon aura un effet gauche et un effet droite. On prend souvent une
modalit intermdiaire comme rfrence (par exemple pour les tranches dge) mais
ce nest pas une obligation : le but du choix est de rendre linterprtation plus aise. Il
faut prendre une situation de rfrence pour chaque question mais on a le choix.
Prendre une modalit comme rfrence, cest ne pas lutiliser dans les donnes
car on utilise toutes les autres modalits de la mme question qui suffisent donc
linformation. Pour reprendre le codage dune affiliation politique en trois modalits et
quon prenne le centre comme rfrence, si un individu nest ni de gauche ni de
droite, cest quil est du centre, mme si cette modalit nest pas indique,
linformation quelle comporte est porte par les deux autres.
Les donnes qui sont traites sont un tableau o en ligne se trouvent tous les
individus de lenqute et o chaque colonne correspond une modalit (qui n'est pas
la rfrence). Chaque modalit est code en prsence / absence, c'est--dire en 0 /
1. Pour lexemple prcdent, les trois cas possibles sont cods de la manire
suivante :
Individus Gauche Droite
de
1 0
gauche
de droite 0 1
du
0 0
centre
Tableau 13 : exemple de codage
Si on veut garder la possibilit de non-rponse, il faut crer une modalit
supplmentaire et on aurait alors le codage suivant (en conservant le centre comme
rfrence)
Non-
Gauche Droite
Individus rponse
de
1 0 0
gauche
de droite 0 1 0
du
0 0 0
centre
non-rp. 0 0 1
Tableau 14 : ajout de la modalit de non-rponse
Comme on le verra, la multiplication du nombre de modalits a des effets plutt
ngatifs sur la fiabilit des rsultats et il vaut mieux donc recoder les non-rponses.
46
Pour la question expliquer, et quelque soit le nombre de modalits, seule est
utilise la modalit qui est prcisment expliquer.
Quand un individu ne prend que les modalits qui sont toutes de rfrences,
pour lui, tous les x sont nuls. Le coefficient b correspond alors la situation de
rfrence et y = b.
Pour mieux comprendre prenons le cas de la rgression linaire appliqu aux
trois variables prcdentes : la variable expliquer (Y) est le Nouveau style ducatif,
les variables explicatives sont leffet fminin (X1) et leffet niveau suprieur
dducation (X2). La manire linaire dcrire lquation de rgression multiple Y =
a1X1 + a2X2 + b devient :
NouvStyle = a1Fminin + a2NivSup + b
En rgression linaire, les coefficients ont les valeurs suivantes, (entre
parenthse, les valeurs correspondantes de lanalyse tabulaire avec pondration)
a1 = 5,2 (5,1) effet fminin
a2 = 6,6 (6,4) effet niveau suprieur
b = 13,8 (13,3) situation de la rfrence (masc, inf)
Finalement lquation de rgression scrit :
NS (:NouvStyle) = 5,2 Fminin+6,6 NivSup + 13,8
Selon quon donne la valeur zro ou un chaque modalit, selon quelle est
prsente ou absente, le modle linaire conduit ici 4 situations :
Si Fm=1 et NivSup=1 NS=5,2+6,6 +13,8= 25,6%
Si Fm=1 et NivSup=0 NS=5,2 +13,8= 19,0%
Si Fm=0 et NivSup=1 NS= 6,6 +13,8= 20,4%
Si Fm=0 et NivSup=0 NS= 13,8 = 13,8%
On voit que l aussi, les paramtres de la rgression linaire sont proches de
ceux de lanalyse tabulaire et de lobservation. Dans les rsultats de la rgression
linaire, les paramtres ne sont pas prsents en pourcentage comme ici, mais en
proportion, ce qui nest pas difficile transformer.
En rgression logistique, ce nest plus la simple proportion p qui est estime
mais le rapport
p / (1-p) appel en anglais odds, que l'on peut traduire par chances (on itilisera
toujours le mot risques si le contexte le ncessite : on parle des chances d'avoir un
examen et du risque d'tre malade)
III Chances et rapport des chances
En anglais, odd, sans s, dsigne "la petite chose qui s'ajoute" : soit au nombre
pair (even) et c'est alors le nombre impair, soit un nombre quelconque : odd
dsigne alors ce qui est en plus du nombre rond (odd change dsigne la monnaie
faite partir d'un billet), d'o par extension, ce qui est dpareill ou non usuel.
Passant de l'adjectif au nom au pluriel, odds passe de l'ide d'imparit la
dsignation de l'ingalit, des avantages, des chances. L'usage le plus connu du mot
est celui utilis par les turfistes pour parler des chances d'un cheval, de sa cote :
quand on dit que tel cheval est cot 3 contre 1, on signifie que sa probabilit de
47
gagner est 3 fois plus grande que sa probabilit de perdre et donc par consquence
que si l'on parie sur lui (et qu'il gagne) on obtiendra 3 fois la somme parie alors que
s'il pert, on perdra la mise. Les odds, les chances, mettent en rapport une situation
dissymtrique : au numrateur on a la probabilit de la russite, et, plus largement
de la "bonne situation" et au dnominateur, la probabilit de l'chec, de la mauvais
issue. Evidemment, la relation entre la probabilit de la russite et celle de l'chec
est la complmentarit l'unit. Si la probabilit pour un cheval d'arriver gagnant est
de 0,75, celle de son chec est de
( 1 0,75 ) = 0,25 et sa cote est de p / ( 1 p) soit 0,75 / 0,25 c'est dire 3
contre 1.
Une difficult de vocabulaire vient du fait que l'on parle aussi de chances pour
dsigner simplement la probabilit : ce qui lve l'ambigit est le fait que les chances
au sens de cote sont toujours suivies de la mention de contre.
Ceci s'applique aussi dans le cas des cotes infrieures 1 (car des chances
suprieures l'unit ne peuvent tre confondues avec des probabilits toujours
comprises entre 0 et 1). Par exemple si nous reprenons la premire ligne du tableau
11 qui croise le choix d'un nouveau style ducatif avec la situation de l'lve, on a :
Nouveau style ducatif
Oui Non Total
Masc. 18 117 135
NivInf 13,33 86,67 100
Tableau 15
Les chances de recevoir un nouveau style ducatif sont le rapport de la
probabilit de l'avoir
( 18 / 135 ) = 0,1333 rapport son complment, la probabilit de ne pas l'avoir
( 117 / 135 ) = 0,8667 = ( 1 0,1333 ). Ces chances sont de 0,13333 / 0,8667 =
0,154 contre 1. Chances qui peuvent tre calcules plus simplement en faisant le
rapport des effectifs : 18 / 117 = 0,154.
Plutt que le rapport 0,154 / 1 qui ne parle pas l'imagination, on le multipliera
par 10 (ou par 100) et l'on dira que les chances de recevoir un nouveau style
d'ducation pour ces garons de faible niveau est de 1,54 contre 10 (de ne pas le
recevoir) ou de 15,4 contre 100. Evidemment si l'on considrait les risques plutt que
les chances, ils seraient de l'inverse soit 117 / 18 = 6,5 de ne pas recevoir un
nouveau style ducatif contre 1 (de le recevoir).
48
Le tableau suivant nous donne le calcul pour les quatre situations :
Chances du nouveau style ducatif
Effectif Effectif Chances
Situation
oui non = Oui/Non
Masc.
18 117 0,1538
NivInf
Fminin
28 115 0,2435
NivInf
Masc.
23 86 0,2674
NivSup
Fminin
31 94 0,3298
NivSup
Tableau 16
Examinons les chances pour les deux situations extrmes : pour les garons de
niveau infrieur, les chances de recevoir un nouveau style ducatif sont de 15,38
chances contre 100 de ne pas en recevoir un tandis que pour les filles de niveau
suprieur elles sont de 32,98 contre 100, soit le double. Ceci nous introduit au
rapport des chances (en anglais odds ratio do l'abrviation OR souvent utilise
aussi en franais).
Si l'on prend comme rfrence, c'est--dire comme dnominateur du rapport, la
situation masculine, le rapport des chances est le suivant :
OR : Chances FemiNivSup / Chances MascNivInf
0,3298 / 0,1538 = 2,1 : les chances fminines (de niv. sup) sont le double des
chances masculines (de niv. inf.).
Le rapport des chances (OR = Odds Ratio) est toujours un nombre positif tantt
infrieur 1 tantt suprieur, il servira de multiplicateur pour modifier les chances de
la rfrence.
IV Equation de la rgression logistique
L'quation de la rgression logistique dcrit une situation gnrale gauche du
signe gal sous la forme des chances de l'obtenir (variable expliquer, quivalent du
y d'une rgression linaire). Il est frquent d'crire ces chances sous la forme p / (1
p) car quand on aura les chances d'une situation particulire, on pourra en dduire la
probabilit p.
A droite du signe gal on a les chances de la situation de rfrence multiplies
par un ensemble de multiplicateurs qui dpendent de toutes les situations. Ces
multiplicateurs sont les Odds Ratio.
p / ( 1 p ) = chances de la rfrence x produit de multiplicateurs dpendants
des situation. Ici les chances de la rfrence sont estimes 0,1659.
Attention, cette valeur ne correspond pas strictement l'observation 0,1538
(donne par l'analyse tabulaire) car la rgression logistique est un modle estim
partir de l'ensemble des donnes.
49
Dans le cas prsent, il y a deux OR multiplicateurs qui modifient ces chances
de la rfrence : un relatif au sexe fminin (valeur estime = 1,39) et un relatif au
niveau suprieur (valeur estime = 1,51). L'quation de rgression logistique s'crit
donc :
p/(1p) = 0,1659 x 1,39 (si fmi) x 1,51 (si NivSup)
Cette quation permet d'examiner tous les cas de figures :
1) Fminin et Niveau suprieur : les chances de la rfrence (0,1659) sont
multiplies par le produit des deux multiplicateur 1,39 x 1,51 = 2,09 : on retrouve le
fait que les chances observes soient multiplies par deux.
p / ( 1 p ) = 0,1659 x 1,39 x 1,51 = 0,348 d'o l'on tire p = 0,348 ( 1 p) soit p
= 0,348 0,348p et donc p + 0,348p = 0,348 et p (1 + 0,348) = 0,348 et finalement p
= 0,348 / 1,348. Concrtement quand on a des chances Ch, pour retrouver la
proportion correspondante p, on prend p = Ch / ( 1 + Ch) formule appele dans la
suite "p issue des chances". On a ici p = 0,348 / 1,348 = 0,258 soit 25,8%
2) Masculin et niveau infrieur : c'est la situation de rfrence, il n'y a pas de
coefficient multiplicateur, les chances 0,1659 ne sont pas modifies et la proportion
estime est de p = 0,1659 / 1,1659 = 0,142 soit 14,2%.
3) Fminin seul : c'est l tout l'intrt de la mthode qui consiste voir l'effet
d'une modalit seule, indpendamment des autres. Dans ce cas, les chances de la
rfrence sont multiplies par le seul coefficient multiplicateur 1,39 qui correspond au
sexe fminin.
p / ( 1 p ) = 0,1659 x 1,39 = 0,231
d'o p = 0,231 / 1,231 = 0,187 soit 18,7% c'est--dire 4,5 points de pourcentage
de plus que pour la situation de rfrence (18,7 14,2). On dit que l'effet marginal en
pourcentage est de 4,5 points (ou, d'une manire discutable mais courante de 4,5%)
4) Niveau suprieur seul :
p / ( 1 p ) = 0,1659 x 1,51 = 0,251
d'o p = 0,251 / 1,251 = 0,200 soit 20,0%. Le gain de pourcentage est de 20,0
14,2 = 5,8%. L'effet niveau suprieur est plus important que l'effet fminin.
Plusieurs remarques sont faire :
1) les rsultats de la rgression logistique sont du mme ordre que ceux de
l'analyse tabulaire donne plus haut : c'est toujours le cas. Ils sont galement de
mme ordre que ceux de la rgression linaire.
2) si l'on compare la situation de rfrence, les effets simples et la situation o
ses effets vont ensemble on a les 4 cas tudis plus haut :
- masculin niv.inf. (rfrence) 14,2%
- fminin seul : 18,7% soit un effet de 4,5%
- niveau sup. seul : 20,0% soit un effet de 5,8%
- fminin et niv.sup. : 25,8 soit un effet de 11,6% qui n'est pas gal la somme
des deux effets isols car 4,5 + 5,8 = 10,3. Ce phnomne est gnral : si l'on veut
calculer l'effet conjoint il faut multiplier entre eux les OR puis appliquer ce coefficient
aux chances de la rfrence plutt que d'ajouter algbriquement les effets marginaux
50
en pourcentage. Cependant, il faut discuter ce principe car les prcisions sont
illusoires : ce que nous donne la rgression logistique est un modle qui comme tout
modle est simplificateur de l'observation. Vouloir isoler l'effet pur comme tant une
ralit existante, alors que c'est une modlisation simplificatrice, risque de
transformer une dmarche exploratoire en cration artificielle qui semble plus exacte
que l'observation : c'est une dmarche risque dont je souligne le danger.
3) les formules multiplicatrices que l'on rencontre souvent sont du type suivant
p/(1-p) = OR1x1 x OR2x2 x ChancesRef
o ici OR1 et OR2 sont les OR de "fminin" et de "niveau suprieur" qui servent
de coefficient multiplicateur.
Les exposants X1 et X2 correspondent au codage des donnes en prsence /
absence, c'est--dire en 0 /1 tudi plus haut. Pour l'OR = 1,39 correspondant
fminin, 1,391 = 1,39 correspond au fait qu'on traite la prsence code 1 de la
modalit fminin et 1,390 = 1 correspond au fait que l'on traite l'absence code 0 de
la modalit fminin. Le multiplicateur 1 est neutre et sans effet sur le reste. D'une
manire plus image, on peut crire.
p/(1-p) = 1,39Fninin x 1,51NivSup x ChancesRef
4) pour des raisons diverses, thoriques et historiques, une transformation
logarithmique est souvent faite de la formule multiplicative. Cette transformation
remplace le produit des OR et des chances de la rfrence par une somme o les
exposants deviennent des multiplications. Dans le cas prsent on a :
log(p/(1-p))=
Fminin x log(1,39)
+ NivSup x log(1,51)
+ log(ChancesRef)
o "Fminin" ou "NivSup" comme prcdemment ne prennent que les valeurs 1
(prsence) ou 0 (absence). D'une manire gnrale on note ces indicateurs de
prsence/absence par x1, x2 etc., les rsultats numriques des logarithmes (naturels)
des OR par des coefficients a1, a2 et le log des chances de la rfrence par un
coefficient b. On retrouve ainsi le symbolisme de la rgression linaire multiple :
log (p/(1-p) = a1x1 + a2x2 + b soit ici
log (p/(1-p) = 0,329 x1 + 0,409 x2 1,7964
Ce qui ne simplifie pas la gestion pratique des rsultats vient du fait que les
programmes usuels donnent soit les coefficients a (log des OR) et b (log des
chances de la rfrence), soit les OR et les chances de la rfrence, soit l'valuation
en pourcentage de la rfrence et les effets en pourcentage associs un OR.
Plutt que de donner des formules directes qui permettent de passer des coefficients
a et b aux autres rsultats, la manire la plus simple est de se ramener aux OR.
Pour passer des coefficients a aux OR, il suffit de prendre la fonction inverse du
logarithme naturel, c'est--dire la fonction exponentielle.
Par exemple pour la modalit "fminin" : les programmes donnent un coefficient
a = 0,329. Pour retrouver l'OR on prend la fonction exponentielle (inverse du
logarithme naturel ln).
51
Exp (0,329) = 1,39 (inversement ln (1,39) = 0,329)
De mme pour passer du coefficient b aux chances de la rfrence, il suffit de
prendre l'exponentielle de b car exp( 1,7964) = 0,1659
52
2) pour chacune des modalits ayant un effet (autre que la rfrence), on a, par
exemple pour le cas de la religion, le logarithme du rapport des chances (Odds Ratio
ou OR) = -0,5118 : comme il est ngatif, son exponentielle sera infrieure 1 :
exp (-0,5118) = 0,60. Quand donc la religion est prsente, les chances de la
rfrence sont multiplies par 0,60 soit 0,60 x 0,2469 = 0,1481 et la proportion dans
cette situation est gal 0,1481 / 1,1481 = 0,1290 soit 12,9%. On voit qu'on a baiss
de 6,9 points de pourcentage. On note cet "effet marginal" en ngatif soit -6,9.
D'une manire analogue, les diffrents effets marginaux sont les suivants :
Religion -6,9
Droite -9,7
Gauche 0,0
Ecologiste 8,3
Fminin 4,6
En retard 18,1
Dans les programmes usuels, ces rsultats sont jugs significatifs ou non en
utilisant un indicateur qui suit une distribution du Khi-deux. Ici tous les effets sont
significatifs sauf celui de la gauche.
Les programmes usuels donnent plus ou moins de dtails, mais une version
complte peut donner les coefficients logarithmiques, les OR, les effets marginaux,
leur seuil de signification : dans le tableau 6 ci-dessous, trois toiles correspondent
un seuil de 1%, deux 5%, une 10% et ns veut dire non-significatif.
Si seuls les coefficients sont indiqus, il faut se souvenir que l'exponentielle
d'un coefficient ngatif correspond un OR infrieur un qui correspond un effet
marginal ngatif. L'influence est ngative et symtriquement elle est positive quand
le coefficient est positif. De mme un OR plus grand que un correspond un effet
marginal positif (et rciproquement s'il est infrieur un).
53
Modalit expliquer : nouveau style ducatif
Coeff. Chances Pourc.
Sit.rf. -1,40 0,2469 19,8
Effet
Odds-ratio T e s t
marg.
Relig.
Oui -0,51 0,60 -6,9 ***
Non ref.
Pol.
Droite -0,79 0,45 -9,7 **
Non
ref.
marqu
Gauche 0,003 1,00 0,0 ns
Ecolog. 0,46 1,59 8,3 *
Sexe
Masc ref.
Fmi 0,27 1,31 4,6 *
Retard
Oui 0,90 2,47 18,1 **
Non ref.
L'interprtation que l'on peut faire est qu'il y a des caractristiques qui sont plus
ou moins importantes dans le choix d'un nouveau style ducatif et que ces
caractristiques peuvent agir indpendamment les unes des autres. En ce qui
concerne l'enfant, le fait qu'il soit en retard agit puissamment (+18%), beaucoup plus
que le fait qu'il soit de sexe fminin (+5%) : on retrouve des rsultats dj tudis.
Par contre, les opinions touchant les parents sont galement prendre en compte :
si l'option de gauche parait neutre, l'option cologiste, c'est--dire une certaine non-
conformit au modle des classes moyennes suprieures agit dans le sens d'un
choix ducatif non-conformiste (+8%). Inversement, le choix de droite (-10%) ou le
choix religieux (-7%) manifestent bien ce refus d'un choix ducatif non traditionnel.
Le choix d'un style ducatif nouveau fait de confiance en l'enfant, de respect de son
dveloppement s'impose plus quand il est en difficult mais peut tre aussi choisi au
nom d'options politiques et sociales. La rgression logistique manifeste que ces
choix sont faits "toutes choses gales par ailleurs" c'est--dire d'une manire
indpendante.
54
VI Variations
On peut prsenter les mmes rsultats sous forme d'une formule, soit additive
en utilisant les coefficients logarithmiques, soit multiplicative en utilisant les odds-
ratios. A gauche du signe gal on a la variable expliquer, les chances de la
situation gnrale dans le cas multiplicatif, son logarithme dans le cas additif.
1) manire de faire multiplicative : les chances du cas gnral sont gales aux
chances de la rfrence multiplie par les rapport des chances (OR) des diffrentes
modalits autres que de rfrence. Dans l'exemple du tableau 6 on a :
p/(1-p) = 0,60ReligOui x 0,45Droite x 1,0Gauche x 1,59Ecolog x 1,31Fmi x 2,47RetardOui x
0,2469
Quand une modalit est prise (codage logique = 1), son rapport de chance est
pris, si elle n'est pas prise (codage logique = 0), le multiplicateur vaut 1 donc est
neutre. Cette formule permet de cumuler plusieurs situations : tudions par exemple
le cas d'une mre cologiste (OR = 1,59) dont l'enfant est en retard (OR=2,47). Le
produit des rapports appliqu aux chances de la rfrence est gal (calcul avec 4
dcimales):
1,5858 x 2,4682 x 0,2469 = 0,9664 d'o l'on tire par p issue des chances :
p = 0,9664 / 1,9664 = 0,491 soit 49,1%. L'cart la situation de rfrence est
de 49,1 19,8 = +29,3. On remarquera que cet cart est diffrent de la somme des
deux effets marginaux correspondants 8,3 + 18,1 = 26,4 ce rsultat est gnral et
entraine la consigne "qu'on n'a pas le droit d'additionner algbriquement les effets
marginaux", ce qui est exact mais qui ne doit pas laisser penser que les rsultats
calculs avec le passage aux OR sont contradictoires avec la dite somme. De toute
faon, comme dj dit, les rsultats obtenus sont les rsultats de l'estimation d'un
modle, non d'une observation (que peut donner le dtail d'une analyse tabulaire).
2) manire de faire additive : le logarithme (naturel) des chances du cas gnral
sont gales au logarithme des chances de la rfrence additionn des logarithmes
des OR des modalits autres que la rfrence. Dans l'exemple du tableau 6 on a :
ln(p/(1-p)) (quantit appele aussi logit)
ln(p/(1-p)) = -0,51ReligOui -0,79Droite +0,003Gauche +0,46Ecolog +0,27Fmi
+0,90RetardOui 1,40
Quand une modalit est prise (codage logique = 1), son coefficient
logarithmique est pris, si elle n'est pas prise (codage logique = 0), le coefficient
logarithmique vaut 0 donc est neutre. Si nous reprenons l'exemple prcdent
(Ecologiste et retard) et en prenant les valeurs exactes la 4e dcimale, ln(p/(1-p) =
0,4611 + 0,9035 1,3987 = -0,0341
l'exponentiel du membre de gauche nous donne les chances p/(1-p), exp(-
0,0341) =0,9665. On retrouve l'arrondi prs le coefficient multiplicateur prcdent
qui conduit donc au mme rsultat.
Cette gymnastique de calculs permet de s'assurer de la bonne comprhension
des rsultats mais la lecture rapide qui est faite des rsultats porte soit sur le signe
des coefficients logarithmiques, soit sur la position par rapport l'unit des OR, soit
sur le signe des effets marginaux, tout en vrifiant qu'ils soient significatifs.
55
Annexe au chapitre 2 : Algorithme
Le lecteur qui souhaiterait ouvrir la "boite noire" qui tait voque dans la
prface de cet ouvrage, trouvera ici des lments de rponse la question de savoir
comment fait l'analyse factorielle pour trouver un couple des vecteurs, propres des
donnes, et qui permettent d'en construire une approximation.
Ce que nous cherchons c'est, partir d'un tableau quelconque, de trouver un
jeu de coefficients pour des lignes et des colonnes qui permettent, par multiplication
terme terme, de trouver un tableau connu par ses marges. Pour montrer comment
peut se faire cette recherche, nous allons utiliser un tableau trois lignes (marques
A, B et C) et deux colonnes (I et II) : il s'agit d'un exemple choisi pour sa simplicit,
mais qui ne correspond aucune donne prcise.
I II
A 0 1
B 1 2
C 3 3
Recherche de coefficients lignes et colonnes
Examinons les colonnes du tableau : dans les deux cas, le premier lment est
infrieur au deuxime, lui-mme infrieur au troisime. La suite de coefficients
colonnes que nous recherchons, et dsormais nous appellerons ces suites de
nombres des vecteurs, ce vecteur colonne donc, qui doit tre un rsum des deux
colonnes, doit avoir leur structure et doit donc ressembler quelque chose comme
(1, 2, 4) ou (1, 5, 10) mais certainement pas (10, 5, 1).
L'algorithme que nous allons utiliser (et qui est plus simple que celui de
l'analyse des correspondances que nous verrons ensuite) suppose une valeur de
dpart, mme imprcise, qui sera amliore dans la suite.
Nous prendrons donc comme point de dpart amliorer le vecteur colonne (1,
2, 4). Ici la suite des oprations consiste multiplier scalairement le vecteur colonne
chacune des deux colonnes. Cette multiplication scalaire nous est familire mais
dans le registre de l'opration "facture", qui consiste, pour chacun des lments
achets, multiplier chacun par son prix individuel et additionner le tout. Le rsultat
de la multiplication des deux vecteurs n'est pas un vecteur mais un rsultat sur
l'chelle numrique (scala est l'chelle en italien).
Faisons l'opration en appelant le vecteur initial du nom de F0 et le rsultat final
en ligne du nom de F1:
I II F0
A 0 1 1
B 1 2 2
C 3 3 4
F1 14 17
Le premier lment de F1 s'obtient en multipliant scalairement la colonne I et
F0, le dtail du calcul est le suivant
56
I F0
0 x 1 = 0
1 x 2 = 2
3 x 4 = 12
Total= 14
En faisant de mme pour la colonne II, on obtient le nouveau vecteur F1,
constitu partir des deux rsultats. On constate que ce vecteur respecte la
structure des trois lignes o le premier lment est infrieur ou la limite gal au
deuxime. Sans prtendre justifier l'algorithme, on voit qu'il intgre progressivement
la structure des donnes du tableau. Pour continuer, il faut rpter la multiplication
scalaire du vecteur F1 mais cette fois avec chacune des lignes du tableau.
I II F0 F2
A 0 1 1 17
B 1 2 2 48
C 3 3 4 93
F1 14 17
Pour la ligne C le dtail du calcul est le suivant :
C F1
3 x 14 = 42
3 x 17 = 51
Total= 93
La structure de F2 est comparable celle de F0, notre point de dpart arbitraire
(mais choisi avec vraisemblance), en arrondissant on peut dire que F2 a pour
structure (20, 50, 90), soit, en divisant chaque lment par 20, ce qui ne modifie pas
la structure (1 2,5 4,5) assez proche du point de dpart une multiplication par 20
prs. Pour pouvoir voir le phnomne avec plus de prcision, examinons la structure
en proportion de chacun des vecteurs. Par exemple pour F2, le premier lment 17
reprsente 17 / 158 = 0,108 soit 10,8%.
I II F0 PropF0 F2 PropF2
A 0 1 1 0,143 17 0,108
B 1 2 2 0,286 48 0,304
C 3 3 4 0,571 93 0,589
Total 7 1,000 158 1,000
F1 14 17 31
PropF1 0,452 0,548 1,000
On voit que de F0 F2, la proportion du premier lment baiss, ceux des autres a
augment. Continuons les itrations de lalgorithme, cest dire reprenons les tapes
prcdentes en prenant la valeur de F2 la place de celle de F0. Nous multiplions
57
scalairement chacune des colonnes du tableau par F2 et nous obtenons F3 puis partir de
F3 multipli par chacune des lignes nous obtenons F4.
I II F0 PropF0 F2 PropF2 F4 PropF4
A 0 1 1 0,143 17 0,108 392 0,107
B 1 2 2 0,286 48 0,304 1111 0,304
C 3 3 4 0,571 93 0,589 2157 0,589
Total 7 1,000 158 1,000 3660 1,000
F1 14 17 31
PropF1 0,452 0,548 1,000
F3 327 392 719
PropF3 0,455 0,545 1,000
F5 7582 9085 16667
PropF5 0,455 0,545 1,000 Stop
En comparant les proportions de F2 et F4, on constate que, pour une prcision
de trois chiffres significatifs, les proportions sont gales sauf pour le premier lment
qui passe de 10,8% 10,7%. On voit ce quon appelle la convergence de
lalgorithme qui se stabilise pour une prcision donne. Il suffit de faire une itration
supplmentaire et passer de F4 F5 pour retrouver strictement les proportions de
F3. Lalgorithme est termin. Nous nous sommes affranchis de la valeur arbitraire du
point de dpart, les vecteurs sont maintenant propres aux donnes. Pour sen rendre
compte il suffit de changer F0 et de prendre par exemple la valeur la plus neutre
possible (1, 1, 1).
I II F0 PropF0 F2 PropF2 F4 PropF4 F6 PropF6
A 0 1 1 0,333 6 0,115 128 0,107 2958 0,107
B 1 2 1 0,333 16 0,308 362 0,304 8384 0,304
C 3 3 1 0,333 30 0,577 702 0,589 16278 0,589
Total 3 1,000 52 1,000 1192 1,000 27620 1,000
F1 4 6 10 Stop
PropF1 0,400 0,600 1,000
F3 106 128 234
PropF3 0,453 0,547 1,000
F5 2468 2958 5426
PropF5 0,455 0,545 1,000
Prendre un vecteur initial quelconque a modifi tous les effectifs mais non les
proportions, on voit seulement quil a fallu une itration supplmentaire (PropF6 =
PropF4) pour arriver la convergence de lalgorithme. De mme, si on prend un
point de dpart (qui peut tout aussi bien tre pris en ligne), compltement erron
comme (10, 5, 1), on constate que la convergence nest pas assure litration 6.
58
Prendre un mauvais point de dpart a pour effet simplement daugmenter le nombre
ditration. Dans une programmation en machine, on prend toujours le point de
dpart le plus neutre possible, soit (1, 1, 1)
Nous avons donc maintenant un couple de coefficients lignes et colonnes, des
vecteurs propres aux donnes, qui expriment le mieux possible la structure du
tableau, condition quils soient pris ensemble, par multiplication.
Reconstitution du tableau dapproximation
La reconstitution se fait donc par multiplication terme terme des coefficients
marginaux lignes et colonnes. Il faut prendre les vecteurs propres (donc aprs
convergence de lalgorithme), c'est--dire ltape 5 pour le vecteur en ligne et
ltape 6 pour le vecteur en colonne. Se pose simplement le problme de savoir quel
vecteur propre choisir, celui en effectifs ou celui en proportions ? Comme ils sont
proportionnels, ils expriment tous la mme structure et il en existe donc une infinit
de semblables. Pour rendre plus clair les oprations (mais on sort du cadre d'une
analyse standard), il sagit de faire lapproximation dun tableau dorigine dont la
somme des lments est gale 10 (cf. le tableau ci-dessous o les marges du
tableau et sont total sont calculs).
59
Mais il y a plusieurs types d'algorithmes : celui qui est le plus utilis aujourd'hui
est l'algorithme de l'analyse des correspondances qui, pour ne pas que les colonnes
ou les lignes les plus importantes en effectif imposent le choix de l'lment
prpondrant du facteur, introduit une pondration par les marges. A chaque pas de
l'algorithme, quand un vecteur est obtenu, il est pondr par les marges, c'est dire
divis par elles. Reprenons l'exemple prcdent en utilisant le point de dpart le plus
neutre possible, c'est dire (1, 1, 1).
60
Tableau d'origine = Indpendance + Ecart l'indpendance
I II I II I II
A 0 1 A 0,40 0,60 A -0,40 0,40
B 1 2 B 1,20 1,80 B -0,20 0,20
C 3 3 C 2,40 3,60 C 0,60 -0,60
Cette particularit est un des atouts de l'analyse des correspondances : la
premire approximation du tableau est l'indpendance ce qui veut dire que
l'information pertinente se trouve dans le tableau des carts l'indpendance.
En rsum, nous avons vu qu'un tableau quelconque pouvait par le biais d'un
algorithme tre dcompos en une srie de plusieurs tableaux : le premier,
reconstitu par multiplication terme terme des coefficients obtenus aprs
convergence de l'algorithme, est une bonne approximation du tableau d'origine.
Nous allons tudier maintenant la mthode la plus couramment utilise en analyse
factorielle, l'analyse des correspondances.
L'algorithme de l'analyse des correspondances
Pour montrer son fonctionnement, nous l'appliquons des donnes relles dj
vues, le tableau 1, intrt vis--vis de la religion en fonction de la proximit politique.
Comme en analyse des correspondances la premire approximation est le tableau
correspondant l'indpendance (tableau 2 plus haut), ce qui reste du tableau initial
aprs soustraction de cette premire approximation est le tableau des carts
l'indpendance (tableau 3). Pour la suite des calculs il est mis en proportion : les
marges, qui vont servir de pondration dans la suite, sont galement en proportion et
le total gnral est de 1.
Ecarts Intrt pour la religion
Fort Moyen Nul Total
Droite 0,0161 0,0133 -0,0294 0,1406
Centre 0,0034 0,0067 -0,0101 0,1094
Gauche -0,0269 -0,0032 0,0301 0,3730
NiGniD 0,0074 -0,0168 0,0094 0,3770
Total 0,2188 0,4746 0,3066 1
Tableau des carts l'indpendance en proportion
Dans l'extrait de tableur ci-dessous, on prsente les deux premires itrations
de l'algorithme o 4 oprations sont utilises :
1) le produit scalaire : par exemple entre le point de dpart V0 (point de dpart
arbitraire fait d'units avec cependant des signes plus et moins alatoires, pour
acclrer la convergence) et chacune des colonnes du tableau. Par exemple -0,0391
est gal -1 x 0,0161 + -1 x 0,034 + 1 x -0,0269 + 1 x 0,007439.
39
Les rsultats affichs le sont une certaine prcision mais les calculs sont faits avec la prcision
maximum
61
Fort Moyen Nul Pond V0 V2CNP V2CPnd CarPnd V2RNP V2RPnd
Droite 0,0161 0,0133 -0,0294 0,1406 -1 -0,07 -0,470 0,03 -0,29 -2,10
Centre 0,0034 0,0067 -0,0101 0,1094 -1 -0,02 -0,197 0,00 -0,10 -0,88
Gauche -0,0269 -0,0032 0,0301 0,3730 1 0,07 0,196 0,01 0,33 0,88
NiGniD 0,0074 -0,0168 0,0094 0,3770 1 0,01 0,038 0,00 0,06 0,17
Fort Moyen Nul Pond V2RPnd V4CNP V4CPnd CarPnd V4RNP V4RPnd
Droite 0,0161 0,0133 -0,0294 0,1406 -2,10 -0,07 -0,470 0,03 -0,29 -2,08
Centre 0,0034 0,0067 -0,0101 0,1094 -0,88 -0,02 -0,191 0,00 -0,09 -0,85
Gauche -0,0269 -0,0032 0,0301 0,3730 0,88 0,08 0,205 0,02 0,34 0,91
NiGniD 0,0074 -0,0168 0,0094 0,3770 0,17 0,01 0,029 0,00 0,05 0,13
62
non pondrs et pondrs. Par exemple le premier lment -0,22 de V1Rnp = -
0,0391 / 0,1754 et le premier lment -1,02 de V1RPnd = -0,1786 / 0,1754.
Quand on a pondr V1, calcul sa norme et qu'on l'a norm, on recommence
le produit scalaire mais cette fois entre les lignes du tableau et le vecteur rduit
pondr V1RPnd : on obtient le vecteur 2, en colonne cette fois, V2CNP dont par
exemple le premier lment -0,07 est gal 0,0161 x -1,02 + 0,0133 x -0,48 + -
0,0294 x 1,47. On le pondre, on calcule sa norme, on le rduit et le vecteur V2RPnd
sert maintenant de vecteur initial pour la 2e itration. On peut effectuer simplement
les itrations suivantes avec un tableur en dupliquant la premire itration et en
remplaant les valeurs de V0 par celle de V2RPnd.
On rpte les oprations jusqu' fixit des valeurs (ici pas tout fait obtenue
entre V2 et V4, par contre V6, non indiqu ici, redonne les mmes valeurs que V4).
Les valeurs donnes par les programmes sont les vecteurs calibrs pondrs (ici en
gras).
Ce sont les vecteurs non pondrs qui multiplis termes termes et diviss par
leur norme commune redonnent l'approximation40. Par exemple la premire case du
tableau (Droite, fort intrt) 0,018 est gale -0,470 x 0,1406 x -0,274 x 0,2188 /
0,2260
Fort Moyen Nul Pond V6CPnd
Droite 0,018 0,011 -0,029 0,1406 -0,470
Centre 0,006 0,004 -0,009 0,1094 -0,191
Gauche -0,020 -0,013 0,033 0,3730 0,205
NiGniD -0,003 -0,002 0,005 0,3770 0,028
Pond 0,2188 0,4746 0,3066 Norme
V5CPnd -0,274 -0,081 0,321 0,2260
Reconstitution des carts : premier facteur.
Si l'on veut retrouver ce tableau en effectif tel qu'il est prsent plus haut au
tableau 4, il suffit de multiplier chaque case par l'effectif total 512 pour passer des
proportions aux effectifs (aux arrondis prs). 41
En tant cette reconstitution des carts l'indpendance initiaux on trouve un
nouveau reste sur lequel on ritre le processus pour avoir le 2e facteur (ici le
dernier).
40
Cependant comme les programmes usuels donnent la version pondre de ces vecteurs, on
utilise ici cette version et on dpondre en multipliant par la pondration
41
Les coefficients marginaux du tableau 4 sont une simplification des calculs : chaque lment est gal au
vecteur calibr non pondr divis par la racine carre de la norme et multipli par la racine carre de l'effectif.
Par exemple l'lment "droite" du coefficient -3,147 est gal -0,066 (affich -0,07) lment correspondant de
V4CNP, divis par la racine carre de la norme 0,2258 soit 0,4752 multipli par la racine carre de l'effectif total
512 soit 22,63. Du fait de la multiplication terme terme, on retrouve la formule gnrale donne ici.
63
Annexe au chapitre 5 : algorithme du maximum de vraisemblance
Ici encore nous proposons pour le lecteur qui veut ouvrir la "boite noire" de
l'algorithme qui permet de calculer les lments d'une rgression logistique une
prsentation qui lui permettra d'en comprendre la logique. L'algorithme utilis est dit
du maximum de vraisemblance. Pour en comprendre la logique nous commencerons
par un apologue.
Chicago
Nous sommes Chicago dans un salon de jeu o l'on parie sur la sortie d'un
six aux ds. Au bout de 83 coups, le six est sorti 19 fois. Est-ce suspect aux yeux de
la police des jeux ? Pour en avoir le cur net, les inspecteurs Neyman et Pearson
appliquent le test du khi-deux avec une proportion thorique de 1/6e pour le six et de
5/6e pour les autres cas. Cela donne un khi-deux un degr de libert de 2,3
infrieur au seuil critique 10% qui est de 2,7. Donc pas de d pip, pas d'infraction.
Pourtant le commissaire Fisher se pose une question : est-ce que les donnes que
nous avons sous les yeux ne nous conduisent pas supposer une proportion de
sortie du six diffrente de 1/6e et plus vraisemblable? Pour cela il propose d'utiliser la
mthode mise au point par son homonyme statisticien42.
Dans le cas prsent, le d est peut-tre truqu et la proportion de 1/5e ne serait-
elle pas plus vraisemblable que celle de 1/6e ? Pour rpondre cette question on
compare les probabilits de la situation observe selon les deux hypothses.
La probabilit de 19 sorties d'un six au jeu de d qui aurait une probabilit
inconnue sur 83 tirages est de k 19 (1 - )83-19 o k est le nombre de manires
diffrentes d'avoir 19 vnements six dans 83 tirages soit le nombre 83! / 19! (83-
19)! (c'est dire le nombre de pascal (1983).)
1) hypothse 1/6e note H6 .La probabilit de l'ventualit observe dans cette
hypothse est de k (1/6)19 (1 - 1/6)83-19 = k 1.4045 10-20
2) hypothse 1/5e note H5. La probabilit de l'ventualit observe dans cette
hypothse est de k (1/5)19 (1 - 1/5)83-19 = k 3.2910 10-20
Le rapport des probabilits de H5 par rapport H6 est :
k 3.2910 10-20 / k 1.4045 10-20 soit 2.3 et l'on dit donc que H5 est plus de deux fois
vraisemblable que H6 puisque les rapports des probabilits sont dans ce rapport. On
prfrera donc H5 H6 mais une autre hypothse sera peut-tre encore plus
vraisemblable. Notons bien qu' l'inverse de ce qui se fait classiquement o l'on teste
des donnes par rapport une hypothse, ici on fait varier les hypothses pour un
jeu de donnes fixe.
Le rapport des probabilits prises deux deux est appel rapport de
vraisemblance. Par convention on prend comme dnominateur le cas le plus
vraisemblable qui a pour paramtre exact et pour probabilit k exact19 (1 - exact)83-19.
La probabilit individuelle du cas observ est fonction de qui est le paramtre
recherch et gale k 19 (1 - )83-19. Pour trouver la valeur de qui maximise le
42
Fisher, R. A. Contributions to Mathematical Statistics. New York Wiley, 1950
64
rapport la valeur 1 qui sera obtenue quand =exact on a maximiser le rapport
suivant :
k 19 (1 - )83-19 / k exact19 (1 - exact)83-19
ce rapport se simplifie par k et comme exact est fix (bien qu'inconnu), le
rapport peut s'crire :
(1 / (exact19 (1 - exact)83-19 ))x (19 (1 - )83-19 )
Le premier terme est constant et pour maximiser le rapport, il suffit de
maximiser le deuxime terme : 19 (1 - )83-19. Cette quantit est appele
vraisemblance et en gnral nomme L (comme likelihood, vraisemblance)
L = 19 (1 - )83-19
On notera que ce produit est gal au produit de tous les coups jous : les 19 de
probabilit et les (83-19) de probabilit (1-). Ces vnements tant indpendants,
la probabilit de l'ensemble est gal au produit des probabilit individuelles
[19 fois] (1-) (1-) (1-) [83-19] fois. Cette situation est gnrale, la vraisemblance
est toujours le produit des probabilits de chacun des cas observs.
Pour deux raisons allant dans le mme sens on ne cherche pas maximiser
cette expression mais son logarithme naturel qui rend maximum au mme moment
:
1) parce que le calcul est plus simple : log(L) = 19 log() + (83-19) log (1- ) qui
est une expression simple maximiser. Cette premire raison est traditionnelle mais
perd de sa valeur avec l'informatique.
2) log (L), expression appele la log-vraisemblance a d'autres proprits
intressantes en rapport avec ce qu'on appelle information ou entropie. A un facteur
-2 prs, la log-vraisemblance est proche du khi-deux.
On peut maximiser directement log(L). Si un essai fait augmenter log(L), nous
sommes automatiquement dans la bonne direction, si nous montons puis que la
tendance s'inverse c'est que nous sommes passs par le maximum. Cette proprit
est vraie mme quand plusieurs paramtres sont explorer (sauf minimum local, il
faut donc prendre au dpart des valeurs proches du rsultat final).
Soit plusieurs valeurs de (croissantes par pas de 0,05) et ce qu'elles donnent
pour log (L) :
log(L)
0,10 -50,5
0,15 -46,4
0,20 -44,9
0,25 -44,8
0,30 -45,7
0,35 -47,5
0,40 -50,1
On voit que le maximum se situe pour des valeurs de comprises entre 0,20 et
0,30 (cf figure 19)
65
Il suffit de refaire l'exprience prcdente en prenant un incrment plus petit
(pas de 0,01 pour )et une prcision plus grande pour le rsultat:
log(L)
0,20 -44,86
0,21 -44,74
0,22 -44,67
0,23 -44,65
0,24 -44,68
0,25 -44,75 (inutile de continuer)
Le maximum correspond des valeurs situes entre 0,22 et 0,24 (figure 20).
66
Prenons 0,23 comme valeur a deux dcimales : l'algorithme du maximum de
vraisemblance nous a permis de trouver la valeur la plus vraisemblable.
Evidemment, pour ce cas il existe une mthode plus simple, la moyenne, puisque
cette valeur est simplement gale 19/83 mais l'algorithme est utilisable quand ce
calcul direct n'est pas possible ce qui arrive quand on a plusieurs paramtres
estimer et que leur liaison n'est pas linaire. C'est ce que nous allons faire
maintenant avec la recherche des paramtres d'une rgression logistique.
Application
Reprenons les donnes du dbut de ce chapitre o l'on veut expliquer le choix
du niveau style ducatif en fonction du sexe et du niveau d'tude (donnes du
tableau 11).
Le calcul est fait de la manire suivante : on a ici trois paramtres trouver,
celui de l'effet fminin (le sexe masculin est de rfrence), l'effet du niveau suprieur
(le niveau infrieur est de rfrence) et la situation de rfrence (masculin, niveau
infrieur). Pour initier l'algorithme, on part des valeurs donnes par l'analyse tabulaire
dont on a constat qu'elles taient toujours proches de celles donnes par la
rgression logistique. Ces valeurs sont les suivantes :
Situation de rfrence masc., inf. (observe) : 13,3%
Effet fminin : 5,1%
Effet Niveau Suprieur d'tudes : 6,4%
Puisque nous passons en rgression logistique, il faut passer aux chances
(pour la rfrences) et aux rapports de chances (Odds Ratios) pour les deux effets.
Chances de la rfrence : la proportion est p = 0,133 et les chances sont p / (1-
p) = 0,1534
Pour les deux effets, il s'agit du rapport des chances de la situation avec effet
fminin, aux chances de la rfrence prcdemment calcule.
La proportion dans le cas fminin est gal la rfrence 0,133 + l'effet fminin
0,051 = 0,184. Les chances correspondantes sont 0,184 / (1 0,184) = 0,2255
L'OR correspondant = 0,2255 / 0,1534 = 1,4700
Le mme calcul pour l'OR de niveau suprieur donne 1,5991.
L'algorithme consiste calculer la vraisemblance correspondante aux donnes
puis faire varier un par un les paramtres : si la vraisemblance augmente, il faut
67
continuer faire varier les paramtres, si elle ne bouge plus car arrive son
maximum, les paramtres sont maintenant les bons.
Comme le tableau des donnes (tableau 11) a huit cases, nous n'avons que 8
situations lmentaires, chacune devant tre rpte autant de fois que l'effectif de
la case correspondante. Nous allons utiliser cette fin un tableur :
ChRef OR OR
0,15 1,47 1,60
Nouv Niveau Produits
Fmi Effectif Prop. Ln (Prop) Log x Eff
Style Sup ChxOR
1 1 1 31 0,3528 0,261 -1,3440 -41,665
1 1 0 28 0,2205 0,181 -1,7111 -47,911
1 0 1 23 0,2400 0,194 -1,6422 -37,771
1 0 0 18 0,1500 0,130 -2,0369 -36,664
0 1 1 94 0,739 -0,3022 -28,405
0 1 0 115 0,819 -0,1993 -22,915
0 0 1 86 0,806 -0,2151 -18,500
0 0 0 117 0,870 -0,1398 -16,352
Total 512 LogVrais= -250,183
Tableau 18 algorithme : tape initiale
En tte on trouve les 3 paramtres avec des valeurs arrondies. Ce sont les
chances de la rfrence et les OR des deux effets fminin et niveau sup.
Chaque ligne correspond une ligne du tableau des donnes : la premire
ligne correspond la case d'effectif 31 : fminin, niveau suprieur ayant choisi le
nouveau style ducatif (les 1 et les 0 correspondent au choix ou au non-choix).
La colonne "produit" correspond au produit des chances de la rfrence avec
les effets prsents. Pour la premire ligne 0,15 x 1,47 x 1,60 = 0,3528.
A partir de la formule "p issue des chances" on tire la proportion estime =
0,3528 / 1,3528 = 0,2608.
On fait de mme pour les 4 premires lignes qui correspondent au choix du
nouveau style. Pour les 4 lignes suivantes o ce choix n'est pas fait, la proportion est
le complment 1 de la ligne correspondante.
Fminin Niveau sup. Nouveau style p = 0,2608
Fminin Niveau sup. Ancien style p = 1- 0,2606 = 0,7392
Comme la vraisemblance est le produit de toutes les proportions (31 fois la
premire x 28 fois la seconde etc.), la log-vraisemblance est calcule plus facilement
en prenant le logarithme naturel de chaque proportion et en le multipliant par
l'effectif. La somme de toutes les lignes donne la log-vraisemblance globale. Elle est
ngative ce qui veut dire qu'une croissance fera diminuer la valeur absolue.
Avec les paramtres initiaux, la log-vraisemblance est gale -250,183.
68
Nous allons faire varier les paramtres initiaux et examiner si la log-
vraisemblance monte ou diminue. Si elle monte on continue si elle baisse on revient
en arrire.
La situation est comparable celle d'un randonneur qui monterait sur un dme
volcanique rgulier dans le brouillard. Tant qu'il monte, il est dans la bonne direction,
s'il descend, c'est qu'il est sur un flan et il doit changer de direction (quivalent de
changer de paramtre). Quand dans toutes les directions, il ne monte plus, c'est qu'il
est au sommet.
Nous allons faire de mme (mais le droulement complet de l'algorithme doit
tre programm). Commenons par faire voluer le paramtre du niveau suprieur :
OR NivSup Log-Vraisemblance
Dbut 1,60 -250,183
-0,01 1,59 -250,185 Dcroissance Stop
+0,01 1,61 -250,182 Croissance
+0,01 1,62 -250,182 Palier : Stop. Changement de paramtre
Chances rfrence
Dbut 0,150 -250,182
-0,001 0,149 -250,200 Dcroissance Stop
+0,001 0,151 -250,168 Croissance
+0,001 0,152 -250,158 Croissance
+0,001 0,153 -250,151 Croissance
+0,001 0,154 -250,147 Croissance
+0,001 0,155 -250,147 Palier : Stop
Changement de paramtre
OR Fminin Log-Vraisemblance
Dbut 1,47 -250,147
-0,01 1,46 -250,140 Croissance
-0,01 1,45 -250,135 Croissance
-0,01 1,44 -250,131 Croissance
-0,01 1,43 -250,131 Palier : Stop
Bien que les trois paramtres aient t pris en compte, l'algorithme n'est pas
termin car il faut reprendre le premier paramtre avec les valeurs des autres jusqu'
fixit des 3, puis augmenter la prcision en prenant des incrments plus faibles.
A la fin on a la situation suivante qui correspond ce que donnent les
programmes.
69
ChRef OR OR
0,166 1,389 1,506
Nouv Niveau Produits
Fmi Effectif Prop. Ln (Prop) Log x Eff
Style Sup ChxOR
1 1 1 31 0,347244 0,258 -1,3558 -42,029
1 1 0 28 0,230574 0,187 -1,6747 -46,891
1 0 1 23 0,249996 0,200 -1,6095 -37,017
1 0 0 18 0,166000 0,142 -1,9493 -35,088
0 1 1 94 0,742 -0,2981 -28,018
0 1 0 115 0,813 -0,2075 -23,860
0 0 1 86 0,800 -0,2231 -19,190
0 0 0 117 0,858 -0,1536 -17,969
Total 512 LogVrais=-250,062
Tableau 19 algorithme : tat final
A partir des valeurs de ces paramtres, on peut retrouver par les formules vues
les proportions et les effets.
L'originalit de cet algorithme du maximum de vraisemblance rside dans le fait
que les estimations ne sont pas faites directement partir des donnes mais en
trouvant les valeurs les plus compatibles avec les donnes : l'algorithme fait
intervenir les donnes chaque tape.
70
Chapitre 6 : comment faire ?
Le but d'un ouvrage comme celui-ci est d'inciter l'action, dpouiller des
enqutes dj faites43. Je voudrais pour conclure rsumer la suite des oprations
pour l'analyse des correspondances et donner quelques indications complmentaires
pour l'analyse "toutes choses gales par ailleurs"
I Etapes prparatoires
La premire tape est le rassemblement de la documentation ncessaire sur
l'enqute traite : questionnaire de base, documents donnant les raisons de la
rlisation de l'enqute, hypothses poses ce moment, publications dj faites sur
les donnes s'il s'agit d'une analyse secondaire. Par contre, il est trop tt pour lire la
littrature sur la question traite elle-mme : cette tape ne sera fructueuse qu'aprs
de premiers contacts avec l'enqute.
Les donnes de l'enqute ayant t dupliques, on utilisera un logiciel qui ne
modifie jamais les donnes de base mais qui cre des fichiers auxiliaires aprs
chaque modification. On constituera alors un tri plat de toutes les variables de
l'enqute (comptage de chacune des modalits de toutes les questions de l'enqute)
et l'on reportera sur un questionnaire l'effectif de chaque rponse afin de voir
comment chaque question a t reue. On ouvrira un journal de l'enqute pour y
porter les rsultats qui vont maintenant tre obtenus.
Une premire familiarisation avec l'enqute se fera en croisant un nombre
limits de questions correspondant des hypothses pralables ou des questions
simples que l'on peut se poser en utilisant des modalits explicatives classiques
(sexe, ge, niveau d'tude, catgorie sociale, politique, religion). Cette premire
tape permettra d'envisager le recodage de certaines modalits trop disperses : la
gestion des recodages faits doit en priorit figurer dans le journal de bord de
l'enqute. En cas d'hsitation, il faut prvoir deux recodages d'une mme question :
un encore assez dtaill et un autre plus nergique. Pour une modalit juge
stratgique, une analyse des correspondances de plusieurs questions permet de
faire le choix des regroupements. En gnral le recodage se fait par proximits
juges partir de l'intitul lui-mme et, en cas d'hsitation, par un tri crois qui
permet de voir comment se sont opres les associations de modalits.
On prparera avec soin les questions qui sont au cur de l'enqute, les
variables d'intrt, qui vont servir de base pour l'tape suivante.
II Analyse globale
Par le biais d'une variable d'intrt, on dterminera les questions qui serviront
pour l'analyse globale de l'enqute. Cette liste est donne en prenant les questions
43
On trouvera des exemples d'application des prsentes mthodes dans les deux articles suivants : Philippe
Cibois, "La bonne volont scolaire. Expliquer la carrire scolaire d'lves issus de l'immigration" in Philippe
Blanchard et Thomas Ribmont (Dir.), Mthodes et outils des sciences sociales. Innovation et renouvellement,
Paris, L'Harmattan, 2002, coll. "Cahiers politiques", p.111-126 ; et Philippe Cibois, "Technique d'analyse des
donnes d'enqute. Exemple avec l'insmination artificielle et anonymat du donneur, ou comment clairer un
dbat de socit", RSI Recherche en Soins Infirmiers, n85, juin 2006, p.22-35.
71
les plus lies globalement (PEM global) la variable d'intrt. On prendra
suffisamment de questions pour que le total des modalits de ces questions
atteignent environ 200 modalits. Dans le logiciel, il sera alors temps de donner un
nom aux questions, mais aussi aux modalits retenues, mais l'opration pourra se
faire en plusieurs tapes en prenant d'abord les questions les plus lies la variable
d'intrt.
Si le premier plan factoriel obtenu une allure de "comte", on mettra en
supplmentaires les quelques points qui ont cr le ou les premiers facteurs. En
quelques oprations on arrivera procder la "fission" du cur de la comte et
arriver ainsi un premier plan factoriel o les points sont suffisamment rpartis.
Comme 200 points ne sont pas simultanment lisibles (en particulier quand les
points proches n'ont pas encore t dsintriqus) et afin de s'assurer de la
contribution suffisante des points affichs, on diminuera progressivement le niveau
de contribution des points affichs par doublements approximatifs successifs (1 pour
mille, puis 2, puis 5, 10, 20, 50, etc.). On se souviendra que la contribution moyenne
est obtenue en divisant 1000, la base du calcul, par le nombre de modalits actives.
Avec 200 modalits, la moyenne 5 est vite atteinte. Pour les supplmentaires qui par
dfinition sont moins contributives que les actives (puisque issue d'autres
dimensions), le seuil peut tre diffrent et est souvent plus faible que pour les
actives.
En modifiant la variable d'intrt on pourra, si l'on dispose du temps ncessaire,
explorer de faon analogue plusieurs dimensions de l'enqute : c'est ce moment
que l'examen de la littrature sur le sujet deviendra fructueuse car elle permettra de
confronter les rsultats de l'enqute avec ce qui tait su auparavant sur le domaine
de recherche.
C'est galement ce moment que la rdaction du commentaire sur les plans
factoriels obtenus sera utile : ils peuvent tre mis dans le journal en vue d'une
rexploitation ultrieure. Ne pas rdiger au moment de l'analyse conduit bien souvent
devoir recommencer le travail fait, ou perdre beaucoup de rsultats. Inversement,
l'examen ultrieur des commentaires faits chaud permet souvent de se rendre
compte qu'une analyse est trop entre dans le dtail et qu'il faudra finalement n'en
retenir que les aspects les plus importants. En tout tat de cause, le principe (mais il
est difficile suivre) est de toujours rdiger au moment o l'on fait des analyses.
72
>50%) sont souvent rvlateurs d'une redondance, de l'appartenance des deux
modalits un mme univers.
44
Henri Leridon et Laurent Toulemon, Dmographie. Approche statistique et dynamique des
populaitions, Paris, Economica, 1997, p. 252. Exemple d'utilisation dans le numro 415 (septembre 2005) de
Population & Socits.
73
politique. Chaque ligne a un effectif et correspond un pourcentage de choix de la
variable expliquer, ici le style nouveau d'ducation. Il s'agit en sorte d'un tableau
crois deux colonnes o par exemple pour la premire ligne, les 26 individus de
sexe masculin, de mre pratiquante, d'enfant l'heure scolairement, de mre de
droite se rpartissent en 7,7% de nouveau style ducatif (et 100 7,7 = 92,3 qui ne
choisissent pas ce style). On voit que le fait que l'on fasse intervenir 4 questions 2
modalits (sexe, religion et ge scolaire) et 4 pour la politique, miette dj
beaucoup les donnes. En fait toutes les donnes ne sont pas prsentes, il manque
16 individus car sur les 32 lignes possibles (2 x 2 x 2 x 4), seuls 22 sont complets,
c'est--dire ayant un effectif non nul pour le style nouveau et son complment, ce qui
permet de calculer un pourcentage diffrent de zro ou de 100 (qui seraient trs
incertains). On constate dj que les effectifs de chaque ligne sont faibles et que la
situation de rfrence (toutes les modalits marques du R correspondant la
rfrence) ne regroupe que 32 individus.
Sexe Rel AgeS Pol Eff. %
01 Masc R Rel Al'h R Droi 26 7.7
02 Masc R Rel Al'h R NiNi R 34 11.8
03 Masc R Rel Al'h R Gauc 25 8.0
04 Masc R Rel Al'h R Ecol 8 12.5
05 Masc R NRel R EnRe Gauc 4 50.0
06 Masc R NRel R EnRe Ecol 2 50.0
07 Masc R NRel R Al'h R Droi 10 10.0
08 Masc R NRel R Al'h R NiNi R 32 25.0
09 Masc R NRel R Al'h R Gauc 63 15.9
10 Masc R NRel R Al'h R Ecol 28 35.7
11 Fmi Rel EnRe Droi 3 33.3
12 Fmi Rel EnRe Gauc 9 33.3
13 Fmi Rel EnRe Ecol 5 20.0
14 Fmi Rel Al'h R Droi 19 5.3
15 Fmi Rel Al'h R NiNi R 41 19.5
16 Fmi Rel Al'h R Gauc 21 19.0
17 Fmi Rel Al'h R Ecol 17 29.4
18 Fmi NRel R EnRe NiNi R 2 50.0
19 Fmi NRel R Al'h R Droi 10 10.0
20 Fmi NRel R Al'h R NiNi R 48 18.8
21 Fmi NRel R Al'h R Gauc 67 28.4
22 Fmi NRel R Al'h R Ecol 22 27.3
74
Prenons par exemple le cas de l'effet "gauche" dont la rgression logistique
nous dit qu'il est nul et non significatif. L'analyse tabulaire nous en propose la lecture
suivante :
Effet Gauch 4 sous-effets (s-e)
Sous-population
s-e Eff Tot
A Masc Rel Al'h -3.8 59 331
B Masc NRel Al'h -9.1 95 331
C Fmi Rel Al'h -0.5 62 331
D Fmi NRel Al'h 9.6 115 331
moyenne pondre des sous-effets = 0.0
Ecart type pondr en pourcentage = 7.7
*** attention
l'cart-type est plus grand que la valeur absolue de la
moyenne
l'effet moyen est peu fiable du fait des interactions
En analyse tabulaire, la moyenne des sous-effets est effectivement nulle mais
ce rsultat vient de rsultats divergents avec des sous effets tantt positifs (ligne D),
tantt ngatifs (lignes A, B et C). Ces sous-effets se dduisent des donnes de base
de la manire suivante : l'effet A oppose l'orientation politique gauche par rapport
la rfrence (ni gauche ni droite) pour la sous-population "masculin, participation
religieuse, l'heure scolairement". Ceci correspond aux lignes 1 4 des donnes de
base pour chacune des options politiques l'intrieur desquelles l'opposition entre
"gauche" et "ni gauche ni droite" correspond la diffrence entre les lignes 3 et 2.
Pour la gauche de ligne 3, la proportion de nouveau style est de 8,0 % ; pour
l'orientation ni gauche ni droite de la ligne 2, cette mme proportion est de 11,8%, le
sous-effet pour les lignes 2 et 3 est de 8,0 11,8 = - 3,8.
On voit que dans la population "fminin, sans religion l'heure" (lignes 20 et
21), l'effet D est lui positif : l'effet de gauche est positif ou ngatif selon le contexte
mais non nul. Nous sommes en prsence d'interactions.
On constatera aussi que seulement 4 effets sont calculs sur les 8 possibles
car le fait d'tre en retard scolairement est trop peu reprsent dans les donnes de
base (cf. les lignes 5 et 12 de faible effectif et qui n'ont pas de situation de rfrence
observable).
En conclusion c'est donc au vu de l'analyse tabulaire que l'on choisira un
modle de rgression logistique qui puisse conduire, par des effectifs suffisants des
donnes de base, des rsultats fiables.
VI Annexe
On trouvera ci-dessous le dtail complet des calculs de l'analyse tabulaire pour
l'effet gauche avec le dtail des tableaux croiss correspondants (Nouv. dsigne le
nouveau style ducatif, reste l'ancien).
75
Effet Gauch 4 sous-effets (s-e)
Sous-population
s-e Eff Tot
Masc Rel Al'h -3.8 59 331
Nouv Reste Tot Nouv Reste
NiNi 4 30 34 11.8 88.2 100
Gauc 2 23 25 8.0 92.0 100
Tot 6 53 59 10.2 89.8 100
Sous-population
s-e Eff Tot
Masc NRel Al'h -9.1 95 331
Nouv Reste Tot Nouv Reste
NiNi 8 24 32 25.0 75.0 100
Gauc 10 53 63 15.9 84.1 100
Tot 18 77 95 18.9 81.1 100
Sous-population
s-e Eff Tot
Fmi Rel Al'h -0.5 62 331
Nouv Reste Tot Nouv Reste
NiNi 8 33 41 19.5 80.5 100
Gauc 4 17 21 19.0 81.0 100
Tot 12 50 62 19.4 80.6 100
Sous-population
s-e Eff Tot
Fmi NRel Al'h 9.6 115 331
Nouv Reste Tot Nouv Reste
NiNi 9 39 48 18.8 81.2 100
Gauc 19 48 67 28.4 71.6 100
Tot 28 87 115 24.3 75.7 100
moyenne pondre des sous-effets = 0.0
76
Bibliographie
Benzcri, Jean-Paul, et al.; L'analyse des donnes, Paris, Dunod, 1973, vol.1 :
La Taxinomie, vol. 2 : Correspondances. Constitue la rfrence pour l'analyse des
correspondances mais se situe, pour la partie thorique un niveau lev de
comptences mathmatiques.
Cibois, Philippe, "Le PEM, pourcentage de l'cart maximum : un indice de
liaison entre modalits d'un tableau de contingence", Bulletin de mthodologie
sociologique, 1993, n40, p.43-63.
Cibois, Philippe, "Les piges de l'analyse des correspondances", Histoire &
Mesure, 12 (3/4), 1997, pp. 299-320.
Cibois, Philippe, "Modle linaire contre modle logistique en rgression sur
donnes qualitatives", Bulletin de mthodologie sociologique, n64, 1999, p.5-24.
Prsentation de l'analyse tabulaire.
Escofier, Brigitte, Pags, Jrme, Analyses factorielle simples et multiples,
Paris, Dunod, 1988. Prsentation gomtrique mais relativement accessible.
Lebaron, Frdric, L'enqute quantitative en sciences sociales, Paris, Dunod,
2006. Recueil et analyse des donnes sont expliqus dans le cadre de l'analyse
gomtrique des donnes. Des tudes de cas permettent de voir comment la
dmarche est mise en uvre.
Menard, Scott, Applied Logistic Regression Analysis, Thousand Oaks CA, Sage
University Paper series on Quantitiative Applications in the Social Sciences 106,
1995. Beaucoup des prsentations de mthodes de cette collection, partent
d'exemples et sont souvent plus comprhensibles que celles de certains auteurs de
langue franaise (qui parlent surtout le langage mathmatique). Cette prsentation,
associe celle de Pampel dans la mme collection permet de comprendre la
rgression logistique.
Pampel, Fred C., Logistic Regression. A primer, Thousand Oaks CA, Sage
University Paper series on Quantitiative Applications in the Social Sciences 132,
2000
Rouanet, Henry, Le Roux, Brigitte, Analyse des donnes multidimensionnelles,
Paris, Dunod, 1993. Prsentation de l'analyse factorielle et des mthodes drives
dans une approche "gomtrico-formelle".
Logiciel
On trouvera l'accs libre et gratuit au logiciel Trideux partir du site de l'auteur
(utiliser un moteur de recherche partir de "prnom + nom")
77
Table des matires
Introduction
Chapitre 1 : reprer les questions pertinentes
I Premire tape : les pralables - II Slectionner les questions pertinentes
Chapitre 2. Lanalyse factorielle des correspondances
I Dcomposition des carts l'indpendance - II Contributions des modalits,
des tableaux. - III Procdure de codage en tableau de Burt - IV Modalits
supplmentaires - V Rsum - Annexe
Chapitre 3 : rechercher des types de rpondants avec lanalyse des
correspondances
I Premire analyse : la queue de comte - II Analyse finale - III Type : bon
niveau scolaire - IV Type : difficults scolaires - V Type : style ducatif ancien - VI
Type : nouveau style ducatif - VII Retour aux hypothses de dpart - VIII Education
nouvelle et socit - IX Retour lanalyse locale - X Retour la mthode - XI
Construire une nouvelle variable dun type
Chapitre 4 : les figures de lanalyse des correspondances
I Parabole de l'effet Guttman - II Effets des faibles effectifs - III Des types
idaux -
Chapitre 5 : les techniques danalyse toutes choses gales par ailleurs
I Analyse tabulaire multivarie - II La rgression multiple III Chances et
rapport des chances - IV Equation de la rgression logistique - V Utilisation de la
rgression logistique - VI Variations - Annexe
Chapitre 6 : comment faire ?
I Etapes prparatoires - II Analyse globale - III Retour aux donnes - IV Les
variables explicatives - V Les rgressions multiples - VI Annexe.
Bibliographie
78