Vous êtes sur la page 1sur 81

Centre

de recherche
en dmographie
et socits

UCL/IACCHOS/DEMO

Pratique de lanalyse de donnes

SPSS appliqu lenqute Identits et Capital social en Wallonie

3+

Type de variables

Relation entre variables

analyses
univaries
2 quali

1 quanti
1 quali

2
RR, OR

ANOVA

2 quanti

Interdpendance

Dpendance

Type de variables

quanti

quali

ACP
(r)

AFCM
(2)

cluster

quanti

quali

rgression
multiple
(r)

rgression
logistique
(2, OR)

Rafael Costa
et

G. Masuy-Stroobant

Louvain-la-Neuve
2013

Pratique de lanalyse des donnes

Rafael Costa et Godelieve Masuy-Stroobant

Avant-propos
Pour accompagner le chercheur ou ltudiant dans sa recherche personnelle, il nous a
sembl utile de complter louvrage Analyser les donnes en sciences sociales1 (appel ici
Manuel) par une application des techniques qui y sont exposes.
Pour cette srie dapplications, nous avons eu recours au logiciel SPSS version 10. Ce
logiciel a t privilgi ici parce quil est souvent prfr par les personnes souhaitant
sinitier la pratique de lanalyse de donnes. Les exemples sont chaque fois assortis de
la syntaxe2 utilise pour les produire.
Figure 1
Techniques danalyse appliques selon le nombre et le type de variables

Nombre de variables

3+

Type des variables

Relation entre les variables

analyses
univaries
2 quanti

1 quanti
1 quali

2 quali

ANOVA

22
RR, OR

Interdpendance
Type des variables

quanti

quali

ACP
(r)

AFCM
(22)

Dpendance
Type de la variable dpendante

cluster

quanti

quali

rgr.
multiple
(r)

rgr.
logistique
(2,7OR)

1 Masuy-Stroobant G. et Costa R. (dir.) (2013). Analyser les donnes en sciences sociales. De la prparation des donnes
lanalyse multivarie, Bruxelles, P.I.E. Peter Lang.
2 Les chercheurs nayant que peu ou pas dexprience de SPSS trouveront dans le manuel de Paul Kinnear et
Colin Gray (2005). SPSS facile appliqu la psychologie et aux sciences sociales, Bruxelles, de Boeck, un guide leur
permettant de sinitier la manipulation de ce logiciel.

Pratique de lanalyse des donnes


Les applications suivent la mme logique que celle du Manuel (figure 1). Le chercheur
prend connaissance des variables, en identifie le type (qualitative, quantitative) et en
value la qualit avec les outils de lanalyse univarie (distribution de frquences, mode,
mdiane, moyenne et cart-type, sans oublier les reprsentations graphiques) ; ensuite,
une premire analyse des relations stablissant entre couples de variables recourt aux
techniques danalyse bivarie (Khi-deux, tests t et F, coefficient de corrlation et
rgression simple) ; pour enfin en arriver aux analyses multivaries des interdpendances
(analyse en composantes principales (ACP), analyse factorielle des correspondances
multiples (AFCM) et analyse de classification) et des dpendances (rgression multiple et
rgression logistique).
Le Manuel a t rdig loccasion dune demande de lIWEPS3 de Mise en place
doutils de modlisation des phnomnes sociaux auprs de leurs chercheurs. Il est le
rsultat du travail collectif de chercheurs et denseignants qui ont assur des formations
en analyse des donnes au niveau universitaire en se basant sur leurs propres expriences
de recherche. Pour llaboration de son complment, la Pratique de lanalyse des donnes,
lIWEPS nous a autoriss utiliser une partie de la base de donnes issue de lenqute
Identits et capital social en Wallonie, et nous les en remercions.
Une mise en garde simpose ici : les analyses prsentes et commentes dans les pages qui
suivent nont aucunement la prtention dtre le rsultat dune recherche scientifique. En
effet, seul un nombre rduit de variables a t pris en compte et les hypothses proposes
relvent davantage du bon sens que dune analyse approfondie de la littrature.

Godelieve Masuy-Stroobant et Rafael Costa

Institut Wallon de la Prospective et la Statistique www.iweps.be


4

Rafael Costa et Godelieve Masuy-Stroobant

1
Les variables slectionnes
Lenqute Identits et capital social en Wallonie (appele par la suite Capital social), a t
organise en 2007 en Wallonie et Bruxelles par lIWEPS et une quipe de chercheurs
de lUniversit de Lige dirige par le Professeur Marc Jacquemain4. Mene auprs de
1440 Wallons ou Bruxellois gs de 18 ans et plus, lenqute a donn lieu la
constitution dune base de donnes que nous appellerons par la suite Capital social comportant prs de 200 variables. Par souci de simplicit, nous nous sommes cependant
limits un nombre restreint dentre elles : des variables sociodmographiques (tableau 1)
pour situer socialement les personnes enqutes, puis des variables refltant lattachement
la Belgique et ses institutions et, enfin, des variables de participation citoyenne ou
associative qui seront regroupes en un indicateur composite du rle exerc dans la
socit (tableau 2).
Tableau 1
Les variables sociodmographiques
Caractristique
Sexe

ge

Niveau
dinstruction

Variable

Valeurs

sexe

0 : Masculin
1 : Fminin

Dichotomique

ge

age

[18 85] (ans)

Quantitative

classe_age

1 : De 18 24 ans
2 : De 25 44 ans
3 : De 45 64 ans
4 : 65 ans ou plus

Ordinale

Diplme

1 : Primaire ou infrieur
2 : Secondaire infrieur
3 : Secondaire suprieur
4 : Suprieur

Ordinale

[0 28] (ans)

Quantitative

1 : Profession librale
2 : Commerant, artisan,
3 : Ouvrier non qualifi
4 : Ouvrier qualifi
5 : Employ
6 : Employ suprieur, cadre
7 : Aidant familial,
8 : Autres

Nominale

Classe d'ges

Niveau du diplme

Catgorie socioprofessionnelle

annees_instruc

csp

Source : Enqute Identits et capital social en Wallonie, Iweps (2007)

Type

Sexe

Annes dtudes

Catgorie socioprofessionnelle

Code

Enqute "Identits et capital social en Wallonie", CLEO-Ulg, 2007.


5

Pratique de lanalyse des donnes


Tableau 2
Variables dattachement et de participation citoyenne
Caractristique

Variable

Code

Participation
politique

Participation politique
Si le vote n'tait plus obligatoire en
Belgique, iriez-vous toujours voter aux
lections lgislatives ?

toujours_voter

0 : Non
1 : Oui

Dichotomique

Rle dans la
socit

Indicateur composite du rle dans


la socit (somme)*

rolesoc_somme

[4 16]

Quantitative

1 : Jamais
2 : Rarement
3 : De temps en temps
4 : Souvent
5 : Tout le temps

Ordinale

Confbe

1 : Pas du tout confiance


2 : Peu confiance
3 : Confiance moyenne
4 : Grande confiance
5 : Confiance totale

Ordinale

Democbe

1 : Tout fait daccord


2 : Plutt daccord
3 : Plutt pas daccord
4 : Pas du tout daccord

Ordinale

Appartenance la Belgique
Vous arrive-t-il de vous sentir
belge ?

Confiance dans ltat belge


Dans ltat belge, avez-vous ?
Attachement
la Belgique

Confiance dans les mcanismes


dmocratiques belges
Quel est votre degr d'accord avec la
proposition suivante : En Belgique, il
est ais de se faire entendre lorsqu'on
nest pas d'accord avec la manire
dont les choses se passent ?
Indicateur composite dattachement
la Belgique (somme)*

Appartbe

Valeurs

attachbe_somme [3 14]

Source : Enqute Identits et capital social en Wallonie, Iweps (2007)


* Le mode de construction de ces indicateurs composites est dtaill plus loin

Type

Quantitative

Rafael Costa et Godelieve Masuy-Stroobant

2
Analyse univarie
Lobjectif de cette premire application pratique est dexplorer les quelques variables qui
ont t slectionnes, afin, si ncessaire, de les transformer ou de les corriger. Lanalyse
univarie permet aussi de prparer les donnes qui seront utilises ultrieurement dans
les analyses bi- et multivaries.
o On y trouvera des exemples de description des variables qualitatives ( sexe ,
classes dges , catgorie socioprofessionnelle , niveau dinstruction ) et des
variables quantitatives ( ge , annes dtudes , indices composites du rle
dans la socit et d attachement la Belgique ).
o Des exemples de recodage (le sexe a t recod en variable binaire) et
dimputation de donnes manquantes (cration dune modalit pas dactivit
professionnelle dans la variable catgorie socioprofessionnelle partir de la
variable-filtre activit professionnelle rmunre ).
o Des crations dindicateurs composites (qui deviennent des variables
quantitatives) en regroupant les rponses de plusieurs variables ordinales
exprimant des opinions (indicateurs composites d attachement la Belgique et
de rle dans la socit ).
Chacune des variables slectionnes est dcrite en dtail dans des encadrs :
o Les encadrs en pointills se rfrent aux variables brutes telles que disponibles
dans la base de donnes.
o Les encadrs en traits continus prsentent les variables aprs correction,
imputation ou modification. Ce sont ces variables qui feront lobjet des analyses
bi- ou multivaries.
o Les rsultats des analyses ralises avec le logiciel SPSS sont repris tels quels dans
des encadrs et la syntaxe figure dans des encadrs trams de gris.
o Enfin, les tableaux qui ne sont pas produits directement par le logiciel sont
numrots sparment. Ce mode de prsentation est respect dans toutes les
parties.

Pratique de lanalyse des donnes

1. Variables sociodmographiques
1.1. Sexe
Variable :

Sexe

Code :

V1

Valeurs :

1 : Masculin
2 : Fminin

Type :

dichotomique

La variable Sexe (code V1 dans la base de donnes) est une variable dichotomique.
Elle comporte deux valeurs et nous informe sur le genre (masculin/fminin) des individus
interviews.
On notera quelle prend les valeurs 1 ou 2 dans la base de donnes. Nous dcidons de la
recoder en lui attribuant les valeurs 0 et 1. Comme cela a t expos plus en dtails dans
le Manuel [chapitre 1], il est gnralement plus intressant de coder une variable
dichotomique en variable binaire de type prsence/absence dune modalit, ce qui
revient prfrer les valeurs 0 et 1. Dans ce cas, la moyenne correspond la proportion
dindividus cods 1 et cette particularit nous autorise, dans certains cas, traiter cette
variable avec des mthodes danalyse multivarie qui sont en principe rserves aux seules
variables quantitatives.
Il a t dcid de privilgier le sexe fminin et donc de recoder la variable V1 en une
nouvelle variable appele sexe o les femmes sont codes 1 et les hommes 0.
Ainsi :
o les valeurs 1 de V1 deviennent 0 dans la nouvelle variable sexe
o les valeurs 2 de V1 deviennent 1 dans la nouvelle variable sexe.
Variable :

Sexe

Code :

sexe

Valeurs :

0 : Masculin
1 : Fminin

Type :

dichotomique

Les outils descriptifs dune variable qualitative se limitent habituellement la frquence


absolue (les effectifs absolus) et relative de ses modalits. Le recodage ralis permet en
outre le calcul de sa moyenne qui ici correspond la frquence relative de la modalit
femme dans lchantillon.
o

Le tableau de frquences de la variable sexe que produit SPSS (voir syntaxe ciaprs) prsente les effectifs absolus [Effectifs] et les frquences relatives
[Pourcentage] des deux modalits que comporte cette variable. Ce tableau montre
que les femmes reprsentent 52,3% de lchantillon de lenqute Capital
social , soit 754 individus sur le total des 1440 personnes interroges.
8

Rafael Costa et Godelieve Masuy-Stroobant

o Le tableau Statistiques (moyenne, cart-type) se lit comme suit : sur un total de


1440 observations valides, il ny a aucune valeur manquante pour la variable sexe.
La moyenne de 0,52 correspond la frquence des femmes, codes 1, dans
lchantillon.

Syntaxe : recodage dune variable dichotomique


Cration de la variable sexe partir de la variable initiale V1
RECODE V1 (1=0) (2=1) INTO sexe.
VARIABLE LABELS sexe 'Sexe'.
EXECUTE.


Syntaxe : statistiques descriptives dune variable dichotomique : frquences, moyenne, cart-
type
Variable : sexe
FREQUENCIES VARIABLES=sexe
/STATISTICS=STDDEV MEAN
/ORDER=ANALYSIS.

Pratique de lanalyse des donnes

1.2. Catgorie socioprofessionnelle5


Variable :

Catgorie socioprofessionnelle

Code :

V2

Valeurs :

1 : Profession librale (mdecin, avocat, notaire, ...)


2 : Commerant, artisan ou autre indpendant
3 : Ouvrier non qualifi
4 : Ouvrier qualifi
5 : Employ
6 : Employ suprieur, cadre
7 : Aidant familial, aidant dun indpendant non rmunr
8 : Autres

Type :

nominale

La variable Catgorie socioprofessionnelle (code V2 dans la base de donnes) est un


exemple de variable nominale : elle se dcline en 8 modalits, sans quil soit possible de
les ordonner de faon univoque. En effet, quelle hirarchie tablir entre employ
suprieur, cadre et profession librale ?
Lanalyse exploratoire (tableau Statistiques ) de la variable V2 nous apprend que plus
de la moiti des valeurs sont manquantes : cela concerne 729 individus sur un total de
1440. Les valeurs valides regroupent ici lensemble des personnes qui ont prcis leur
catgorie socioprofessionnelle.

En parcourant le questionnaire de lenqute Capital social, on observe que la question sur


la catgorie socioprofessionnelle ntait pas pose la totalit de la population enqute :
elle est en effet prcde dune question qui distingue entre personnes ayant une activit
professionnelle rmunre au moment de lenqute et celles qui nen ont pas. Comme
seules les personnes ayant une activit professionnelle rmunre au moment de
lenqute ont t invites la prciser, les 729 valeurs manquantes sont sans doute pour
une large part des valeurs manquantes structurelles.

Variable :

Activit professionnelle rmunre ( Avez-vous actuellement une activit professionnelle


rmunre ? )

Code :

V3

Valeurs :

1 : Oui
2 : Oui, mais elle est temporairement suspendue
3 : Non

Type :

nominale

Lanalyse de la catgorie socioprofessionnelle se limite cet exemple de traitement de donnes manquantes


structurelles.
10

Rafael Costa et Godelieve Masuy-Stroobant

En combinant les variables Catgorie socioprofessionnelle et Activit professionnelle


rmunre (variable nominale), il est possible de contourner le problme des valeurs
manquantes structurelles. Lide ici est dajouter la variable Catgorie
socioprofessionnelle initiale une modalit quon appellera ici Pas dactivit
professionnelle , qui correspond la modalit Non de la variable Activit
professionnelle rmunre .
Concrtement, une nouvelle variable csp a t cre partir des deux variables V2 et V3
selon les conditions suivantes :
o Si la valeur de V3 est 1 ou 2, la variable csp est gale la variable V2
o Si la valeur de V3 est 3, la variable csp aura la valeur la valeur 9 qui correspondra
la nouvelle modalit Pas dactivit professionnelle .
Variable :

Catgorie socioprofessionnelle

Code :

csp

Valeurs :

1 : Profession librale (mdecin, avocat, notaire, ...)


2 : Commerant, artisan ou autre indpendant
3 : Ouvrier non qualifi
4 : Ouvrier qualifi
5 : Employ
6 : Employ suprieur, cadre
7 : Aidant familial, aidant dun indpendant non rmunr
8 : Autre
9 : Pas dactivit professionnelle

Type :

nominale

Pour dcrire les variables nominales comportant plusieurs modalits, comme la variable
csp, on examine dabord le tableau des frquences [Effectifs, Pourcentage], mais on peut
aussi sintresser au mode (ou modalit la plus frquente) de sa distribution.
o La modalit Pas dactivit professionnelle compte 729 observations, qui
correspondent parfaitement aux observations manquantes de la variable V2. Cest
aussi la modalit la plus frquemment observe (le mode de la variable). noter
quaprs recodage, il subsiste un cas de donne manquante sur la variable
impute Catgorie socioprofessionnelle . Il sagit trs certainement dune
personne qui a dclar exercer une activit professionnelle rmunre (variable
V3), mais qui a omis de prciser sa catgorie socioprofessionnelle (variable V2).
o Alors que certaines modalits sont trs frquentes, comme la modalit
Employ , dautres ont de trs faibles effectifs : cest notamment le cas des
modalits Autres et Aidant familial, aidant dun indpendant non
rmunr . Si les faibles effectifs devaient poser problme lors du passage aux
analyses bi- ou multivaries, il faudra penser y apporter une solution (carter ces
individus, fusionner des modalits, etc.).

11

Pratique de lanalyse des donnes

Le diagramme en btons (barchart) est un outil graphique qui se prte bien la


visualisation de la distribution des frquences (absolues ou relatives) de variables
nominales. Son avantage est de reprer, dun seul coup dil, les modalits les plus
frquentes et celles qui ne concernent que trs peu dindividus. En gnral, un graphique
de ce type ne fait pas lobjet de publications : il sera, le plus souvent, retravaill, afin, par
exemple, de mettre les modalits les plus concernes par la recherche en vidence, ou
encore simplifi, en regroupant les modalits peu frquentes avec dautres modalits qui
leur sont sociologiquement proches.

12

Rafael Costa et Godelieve Masuy-Stroobant

Syntaxe : combinaison de deux variables nominales en une nouvelle variable nominale


Cration de la variable csp partir des V3 et V2
COMPUTE csp=0.
IF (V3 = 3) csp=9.
IF (V3 = 1 | V3 = 2) csp=V2.
EXECUTE.


Syntaxe : statistiques descriptives dune variable nominale
Variable : csp
FREQUENCIES VARIABLES=csp
/STATISTICS=MODE
/BARCHART PERCENT
/ORDER=ANALYSIS.

1.3. Niveau dinstruction


Deux mesures du niveau dinstruction des individus sont disponibles : le Niveau de
diplme (variable ordinale) et le nombre d Annes dtudes (variable quantitative).
1.3.1. NIVEAU DE DIPLME
Variable :

Niveau de diplme

Code :

V4

Valeurs :

1: Sans diplme
2 : Primaire
3 : Secondaire infrieur
4 : Secondaire suprieur professionnel ou apprentissage
5 : Secondaire suprieur technique, artistique
6 : Secondaire suprieur gnral
7 : Post secondaire non suprieur (formation de chef dentreprise)
8 : Suprieur non universitaire de type court
9 : Suprieur non universitaire de type long
10 : Suprieur universitaire
11 : Doctorat avec thse

Type :

ordinale

Le Niveau du diplme est un exemple de variable ordinale, dans la mesure o accder


un diplme de niveau suprieur implique, dans la plupart des cas, que soit acquis le
diplme du niveau infrieur.
On peut sinterroger sur lutilit de retenir autant de modalits pour dcrire le niveau
dinstruction, en particulier si cette variable doit tre traite dans des analyses multivaries
par la suite. Une faon de regrouper les 11 niveaux de diplmes en un nombre plus
restreint de classes, est la suivante :

13

Pratique de lanalyse des donnes


Tableau 3
Recodage de la variable niveau du diplme
Anciennes valeurs (variable V4)

Nouvelles valeurs (variable diplme)

Sans diplme

Primaire

Secondaire infrieur

Secondaire suprieur (professionnel, apprentissage)

Secondaire suprieur (technique, artistique)

Secondaire suprieur gnral

Post secondaire non suprieur

Suprieur non universitaire court

Suprieur non universitaire long

10

Suprieur universitaire

11

Doctorat avec thse

Primaire ou infrieur

Secondaire infrieur

Secondaire suprieur (et postsecondaire


non suprieur)

Postsecondaire suprieur

On obtient de ce fait une nouvelle variable diplme qui se prsente comme suit :
Variable :

Niveau du diplme

Code :

diplme

Valeurs :

1 : Primaire ou infrieur
2 : Secondaire infrieur
3 : Secondaire suprieur (et postsecondaire non suprieur)
4 : Postsecondaire suprieur

Type :

ordinale

o La distribution de frquences absolues [Effectifs] et relatives [Pourcentage] montre


une rpartition assez quilibre de la population interviewe entre ces 4 classes.
o noter que 3 personnes nont pas donn cette information lenquteur : ces cas
ont le statut de donne manquante dans le systme SPSS (Systme manquant), ce
qui va automatiquement (sauf sil y a imputation ultrieurement) les carter de
toutes les analyses bi-ou multivaries qui porteront donc au maximum sur un
chantillon de 1437 individus.

14

Rafael Costa et Godelieve Masuy-Stroobant

Syntaxe : recodage dune variable ordinale


Cration de la variable diplme partir de V4
RECODE V4 (3=2) (1 thru 2=1) (4 thru 7=3) (8 thru 11=4) INTO diplome.
EXECUTE.


Syntaxe : Statistiques descriptives dune variable ordinale
Variable : diplme
FREQUENCIES VARIABLES=diplome
/STATISTICS=MEDIAN
/BARCHART PERCENT
/ORDER=ANALYSIS.

1.3.2. ANNES DTUDES


Le nombre d Annes dtudes est calcul partir de 3 questions :
Variable :

Combien d'annes avez-vous pass dans l'enseignement primaire ?

Code :

annees_prim

Type :

quantitative

Variable :

Combien d'annes avez-vous pass dans l'enseignement secondaire ?

Code :

annees_sec

Type :

quantitative

Variable :

Combien d'annes avez-vous pass dans l'enseignement suprieur ?

Code :

annees_sup

Type :

quantitative

15

Pratique de lanalyse des donnes

En sommant les valeurs des trois variables, on obtient une nouvelle variable quantitative
qui totalise les annes dinstruction : annees_instruc.
Variable :

Annes dtudes

Code :

annees_instruc

Type :

quantitative

o Les paramtres (moyenne, cart-type) de la distribution de cette variable est


dcrite dans le tableau intitul Statistiques , et sa distribution est reprsente
par un Histogramme .
o On notera quelle comporte 5 donnes manquantes et que ses valeurs varient de 0
28 annes, avec une moyenne de 12,6 annes. Lhistogramme montre une
distribution assez symtrique, qui pourra sans doute tre considre comme
approchant une distribution normale. On notera cependant que la valeur 12
annes dtudes est la plus frquente : elle correspond au cumul sans
redoublement des 6 annes dtudes primaires et des 6 annes dtudes
secondaires ou encore au respect de lobligation scolaire en Belgique qui, depuis
1983, va de 6 18 ans.

16

Rafael Costa et Godelieve Masuy-Stroobant

Syntaxe : cration dune variable quantitative partir de la somme de variables quantitatives


Cration annes_instruc partir de annees_prim, annees_sec et annees_sup
COMPUTE annees_instruc=annees_prim + annees_sec + annees_sup.
EXECUTE.


Syntaxe : statistiques descriptives dune variable quantitative
Variable : annees_instruc
FREQUENCIES VARIABLES=annees_instruc
/FORMAT=NOTABLE
/STATISTICS=STDDEV MINIMUM MAXIMUM MEAN
/HISTOGRAM NORMAL
/ORDER=ANALYSIS.

1.4. ge
Tout comme le niveau dinstruction, lge peut tre exprim par une variable quantitative
(annes dge) ou qualitative (classe dges).
1.4.1. ANNES DGE
Variable :

ge

Code :

age

Type :

quantitative

La variable ge est une variable quantitative mesure en nombre dannes de vie.


Cette variable ne compte aucune donne manquante. Comme lenqute Capital social
sadressait aux personnes ges de 18 ans ou plus, elle varie de 18 85 ans, avec un ge
moyen de 47,3 ans et cart-type de 17,7 ans (tableau Statistiques).

LHistogramme montre clairement cet effet dge minimum de participation lenqute,


ainsi quune forte participation de personnes dge actif. Il est difficile ce stade dvaluer
dans quelle mesure la distribution peut tre assimile une distribution normale.

17

Pratique de lanalyse des donnes

1.4.2. CLASSES DGES


Certaines techniques danalyse, comme lanalyse factorielle des correspondances
multiples, traitent exclusivement des variables qualitatives. Crer une variable ordinale
Classe dge partir de la variable quantitative dge ne pose aucun problme. Le
choix du nombre de modalits et la rpartition des ges en classes dpend de ltendue
des valeurs de la variable, de la frquence de ces valeurs (attention aux faibles effectifs) et
des objectifs de la recherche. Dans ce cas-ci, 4 classes dge ont t constitues :
Variable :

Classe dge

Code :

classe_age

Valeurs :

1 : De 18 24 ans
2 : De 25 44 ans
3 : De 45 64 ans
4 : 65 ans ou plus

Type :

ordinale

18

Rafael Costa et Godelieve Masuy-Stroobant

Syntaxe : recodage dune variable quantitative en variable qualitative 6


Cration de la variable classe_age partir de la variable age
RECODE age (18 thru 24=1) (25 thru 44=2) (45 thru 64=3) (ELSE=4) INTO classe_age.
EXECUTE.

6 Pour la syntaxe de lanalyse descriptive dune variable qualitative, voir la variable niveau du diplme et
pour une variable quantitative, le nombre dannes dtudes . Il suffit dans les deux cas de modifier le nom
de la variable.

19

Pratique de lanalyse des donnes

2. La participation politique, la perception des individus par rapport leur


rle dans la socit et leur attachement la Belgique
2.1. La participation politique
Variable :

Participation politique ( Si le vote n'tait plus obligatoire en Belgique, iriez-vous toujours


voter aux lections lgislatives ? )

Code :

V5

Valeurs :

1 : Toujours
2 : La plupart du temps
3 : Parfois
4 : Jamais

Type :

ordinale

La Participation politique fait partie dune srie de questions de lenqute Capital


social concernant le vote. La distribution de cette variable est illustre ci-dessous laide
dun diagramme en btons.

On y observe que les rponses sont fortement polarises entre Jamais et Toujours .
Afin de distinguer les inconditionnels du vote (les Toujours ) des indcis et de ceux qui
ny tiennent pas ( La plupart du temps , Parfois , Jamais ), une variable
dichotomique appele toujours_voter a t cre partir de la variable V5 :
Variable :

Participation politique ( Si le vote n'tait plus obligatoire en Belgique, iriez-vous encore voter
aux lections lgislatives ? )

Code :

toujours_voter

Valeurs :

0 : Non
1 : Oui

Type :

dichotomique

20

Rafael Costa et Godelieve Masuy-Stroobant

La nouvelle variable dichotomique toujours_voter a une frquence relative de 0,49 : 49%


des individus de lchantillon iraient toujours voter aux lections lgislatives, mme si
celles-ci ntaient plus obligatoires (tableau Statistiques). On notera galement que 28
personnes nont pas rpondu cette question.

Syntaxe : recodage dune variable ordinale en variable dichotomique7


Cration de toujours_voter partir de V5
RECODE V5 (1=1) (2 thru 4=0) (ELSE=SYSMIS) INTO toujours_voter.
EXECUTE.

Pour la syntaxe de lanalyse descriptive dune variable qualitative, voir la variable niveau du diplme .
21

Pratique de lanalyse des donnes

2.2. La perception des individus quant leur rle dans la socit


Quatre questions sintressent la perception qua lindividu de son rle dans la socit :
Variable :

J'ai le sentiment de ne pas tre reconnu par la socit

Code :

rolesoc1

Valeurs :

1 : Tout fait daccord


2 : Plutt daccord
3 : Plutt pas daccord
4 : Pas du tout daccord

Type :

ordinale

Variable :

Je pense que la garantie des droits et l'accs au bien-tre pour tous est l'affaire de tout le monde

Code :

rolesoc2

Valeurs :

1 : Tout fait daccord


2 : Plutt daccord
3 : Plutt pas daccord
4 : Pas du tout daccord

Type :

ordinale

Variable :

J'ai le sentiment de jouer un rle utile dans la socit

Code :

rolesoc3

Valeurs :

1 : Tout fait daccord


2 : Plutt daccord
3 : Plutt pas daccord
4 : Pas du tout daccord

Type :

ordinale

Variable :

J'accepterais volontiers de payer des impts supplmentaires si cela pouvait aider les gens les plus
dfavoriss de mon pays

Code :

rolesoc4

Valeurs :

1 : Tout fait daccord


2 : Plutt daccord
3 : Plutt pas daccord
4 : Pas du tout daccord

Type :

ordinale

Comme ces 4 variables ordinales renvoient un mme concept, celui de la perception


qua lindividu de son rle dans la socit, on pourrait, en sommant les scores des 4
variables, crer une nouvelle variable quantitative, qui serait en ralit un indicateur
composite du rle dans la socit .
Pour construire un indicateur de ce type, il faut dabord sassurer que les valeurs
attribues aux rponses des diffrentes questions sinterprtent toutes dans le mme
sens pour quin fine, les valeurs plus leves de lindicateur soient attribues aux
individus qui estiment avoir un rle important dans la socit, et inversement.

22

Rafael Costa et Godelieve Masuy-Stroobant


Ainsi, un individu devra avoir la valeur maximale de lindicateur si :
o Il nest pas du tout daccord avec laffirmation J'ai le sentiment de ne pas tre
reconnu par la socit (score 4 de rolesoc1)
o Il est tout fait daccord avec laffirmation Je pense que la garantie des droits et
l'accs au bien-tre pour tous est l'affaire de tout le monde (score 1 de rolesoc2)
o Il est tout fait daccord avec laffirmation J'ai le sentiment de jouer un rle utile
dans la socit (score 1 de rolesoc3)
o Il est tout fait daccord avec laffirmation J'accepterais volontiers de payer des
impts supplmentaires si cela pouvait aider les gens les plus dfavoriss de mon pays
(score 1 de rolesoc4)
Dans cet exemple, il faut donc, avant den sommer les scores, transformer les variables
rolesoc2, rolesoc3 et rolesoc4. Il sagit, pour chacune de ces variables, dinverser leur
chelle : la valeur 1 devient 4, 2 devient 3, 3 devient 2 et 4 devient 1. Pour ce faire, 3
variables intermdiaires ont d tre cres (rolesoc2aux, rolesoc3aux et rolesoc4aux).
Lindicateur est alors gal la somme des valeurs des variables rolesoc1 + rolesoc2aux +
rolesoc3aux + rolesoc4aux.
L indicateur composite du rle dans la socit (rolesoc_somme) prend la forme dune
variable quantitative, dont les valeurs sont comprises entre 4 (les individus qui ont un
score de 1 pour les 4 variables) et 16 (les individus qui ont un score de 4 pour les 4
variables) (tableau Statistiques).
Variable :

Indicateur composite du rle dans la socit (somme)

Code :

rolesoc_somme

Type :

quantitative

Comme le montre lHistogramme, lindicateur suit une distribution proche de la normale


et a une moyenne de 11,44 et un cart-type de 2,09.
noter que lindicateur na pu tre calcul dans 37 cas : il sagit des individus qui ont
une valeur manquante au moins une des quatre variables partir desquelles il a t
construit.

23

Pratique de lanalyse des donnes

Syntaxe : construction dune variable quantitative partir de variables qualitatives8


Obtention dun indicateur composite partir de la somme des scores rolesoc1, rolesoc2,
rolesoc3 et rolesoc4
RECODE rolesoc2 (1=4) (2=3) (3=2) (4=1) (ELSE=SYSMIS) INTO rolesoc2aux.
RECODE rolesoc3 (1=4) (2=3) (3=2) (4=1) (ELSE=SYSMIS) INTO rolesoc3aux.
RECODE rolesoc4 (1=4) (2=3) (3=2) (4=1) (ELSE=SYSMIS) INTO rolesoc4aux.
COMPUTE rolesoc_somme=(rolesoc1 + rolesoc2aux + rolesoc3aux + rolesoc4aux).
EXECUTE.

Pour la syntaxe de lanalyse descriptive dune variable quantitative, voir la variable nombre dannes
dtudes .
8

24

Rafael Costa et Godelieve Masuy-Stroobant

2.3. Lattachement la Belgique


Lenqute Capital social comporte galement des questions relatives au Sentiment
dappartenance la Belgique , leur Confiance dans ltat et leur Confiance dans
les mcanismes dmocratiques belges :
Variable :

Sentiment dappartenance la Belgique ( Vous arrive-t-il de vous sentir belge ? )

Code :

appartbe

Valeurs :

1 : Jamais
2 : Rarement
3 : De temps en temps
4 : Souvent
5 : Tout le temps

Type :

ordinale

Variable :

Confiance dans ltat belge ( Avez-vous confiance dans ltat belge ? )

Code :

confbe

Valeurs :

1 : Pas du tout confiance


2 : Peu confiance
3 : Confiance moyenne
4 : Grande confiance
5 : Confiance totale

Type :

ordinale

Variable :

Confiance dans les mcanismes dmocratiques belges ( Quel est votre degr d'accord avec
la proposition suivante: En Belgique, il est ais de se faire entendre lorsqu'on nest pas d'accord
avec la manire dont les choses se passent ? )

Code :

democbe

Valeurs :

1 : Tout fait daccord


2 : Plutt daccord
3 : Plutt pas daccord
4 : Pas du tout daccord

Type :

ordinale

partir de ces 3 variables, un indicateur composite dattachement la Belgique a t


construit. La valeur maximale de cet indicateur sera observ chez les personnes qui
cumulent les attitudes suivantes : se sent toujours belge (appartbe = 5), a confiance
totale dans ltat belge (confbe = 5) et a confiance totale dans les mcanismes
dmocratiques en Belgique (democbe = 1). Avant de sommer les scores de ces variables,
lchelle de la variable democbe a t inverse.
Tout comme pour lindicateur du rle dans la socit, on obtient ici une variable
quantitative dont la distribution est lgrement asymtrique vers la droite : on pourra
cependant ( tester) la considrer comme approximativement normale . Les valeurs de
lindicateur vont de 3 (rponse code 1 aux trois variables) 14 (les individus ayant
exprim une attitude trs favorable la Belgique en rponse aux trois questions). noter
que les 32 cas de valeurs manquantes concernent les individus qui nont pas rpondu

25

Pratique de lanalyse des donnes


une au moins des 3 questions impliques dans la construction de lindicateur (tableau
Statistiques).
Variable :

Indicateur composite dattachement la Belgique (somme)

Code :

attachbe_somme

Type :

quantitative

Syntaxe : construction dune variable quantitative partir de variables qualitatives9


Obtention dun indicateur composite partir de la somme des democbe, appartbe et confbe
RECODE democbe (1=4) (2=3) (3=2) (4=1) (ELSE=SYSMIS) INTO democbe_aux.
COMPUTE attachbe_somme=(democbe + appartbe + confbe).
EXECUTE.

Pour la syntaxe de lanalyse descriptive dune variable quantitative, voir la variable nombre dannes
dtudes .
9

26

Rafael Costa et Godelieve Masuy-Stroobant

3
Analyse bivarie
Deux variables qualitatives
La question recherche traite ici est :
Y a-t-il une association entre le niveau dinstruction et la participation politique ?
Pour rpondre cette question, la relation entre les variables Participation politique
(dichotomique) et Niveau du diplme (ordinale) est analyse au moyen dun tableau
de contingence, le test du Khi-deux et un diagramme en btons juxtaposs. Le calcul des
RR (risques relatifs) suit, ainsi que le calcul des IC (intervalles de confiance) 95%
Comme la scolarisation obligatoire prcde en principe le droit de voter, et quil semble
difficile de considrer que de faon gnrale la participation politique puisse influencer le
niveau dinstruction des individus, on considrera ici le niveau de diplme comme
variable indpendante (ou variable explicative) et la participation politique comme
variable dpendante (ou expliquer).

1. Le tableau de contingence
Selon nos conventions, le niveau de diplme (la variable indpendante) formera les
lignes du tableau de contingence et la participation politique (la variable dpendante), les
colonnes.
Mme si la procdure CROSSTABS de SPSS offre la possibilit de calculer toutes les
proportions possibles (en lignes, en colonnes et par rapport la population totale
galement), seules les proportions en lignes ont t retenues.
Le tableau crois rvle une association positive entre la participation politique et le
niveau dinstruction : plus le niveau du diplme est lev, plus forte est la proportion de
personnes qui iraient toujours voter.

27

Pratique de lanalyse des donnes

2. Reprsentations graphiques
La procdure CROSSTABS de SPSS fournit galement un diagramme en barres qui illustre
lassociation positive entre les deux variables. Le graphique fourni par dfaut porte sur les
effectifs absolus : or, comme les effectifs des diffrents niveaux de diplme varient du
simple (227 secondaire infrieur) plus du double (492 secondaire suprieur), les
diffrences dintention daller voter ne peuvent tre compares. En effet, en chiffres
absolus, on peut erronment conclure que ce sont les niveaux secondaire suprieur qui
dserteraient le plus les bureaux de vote si lobligation de vote tait supprime en
Belgique.

Effectifs absolus
Procdure CROSSTABS

28

Rafael Costa et Godelieve Masuy-Stroobant


Le diagramme en barres portant sur les pourcentages de Non et de Oui
lintrieur de chaque niveau de diplme, obtenu par lassistant graphique de SPSS10,
standardise11 les effectifs de chaque niveau de diplme, ce qui autorise la comparaison
des intentions dun niveau de diplme lautre.

Effectifs relatifs (par diplme)


Assistant graphique SPSS

On y observe que :
o Les diffrences dintention de participation au vote sont les plus importantes aux
deux extrmes de lchelle des diplms : les moins instruits (primaire et infrieur)
ne voteraient pas si le vote ntait pas obligatoire, tandis que la majorit des plus
instruits (postsecondaire suprieur) voteraient de toute faon.
o Les niveaux de diplmes intermdiaires (secondaire infrieur et secondaire
suprieur) se rpartissent de faon beaucoup plus galitaire entre ceux qui iraient
et ceux qui niraient pas voter en cas de suppression de lobligation de vote en
Belgique.

2. Le test du Khi-deux
Afin de vrifier si la relation observe dans lchantillon nest pas due au hasard, le test
du Khi-deux a t calcul ( noter que SPSS produit par dfaut dautres statistiques qui ne
nous intressent pas ici) :
La premire ligne du tableau Tests du Khi-deux indique :
o La valeur calcule du Khi-deux (119,81)
o Le nombre de degrs de libert (ddl) que comporte le tableau de contingence
croisant les deux variables : soit ddl = (lignes-1)(colonnes-1) = (41)(21) = 3
o Le niveau de signification du test : ici, p < 0,001 (seuls 3 chiffres significatifs sont
prvus dans les rsultats produits par SPSS : 0,000 veut dire que p (la probabilit
que lhypothse nulle dabsence de relation soit vraie) est infrieure 0,0005 et
10 Lassistant graphique de SPSS est un interface interactiv : la syntaxe en est donc difficilement
comprhensible, cest pourquoi elle nest pas reprise ici.
11 En exprimant les intentions de vote pour 100 personnes de chaque diplme on obtient des effectifs
identiques pour chaque niveau de diplme.

29

Pratique de lanalyse des donnes


donc forcment infrieure 0,001. Il y a donc moins dune chance sur mille pour
que Ho (lhypothse nulle dabsence de relation entre les deux variables) soit
vraie . En dautres termes, linfluence du niveau dinstruction sur lintention
daller voter mme si lobligation de vote tait supprime en Belgique, est trs
significative dans la population de lenqute Capital social.

Syntaxe : obtention dun tableau crois avec les proportions en ligne et le test du Khi-deux
Variable indpendante (en ligne) : diplme; variable dpendante (en colonne) :
toujours_voter

CROSSTABS
/TABLES = diplome BY toujours_voter
/FORMAT= AVALUE TABLES
/STATISTICS = CHISQ
/CELLS = COUNT ROW
/COUNT ROUND CELL
/BARCHART.

4. Le calcul du risque relatif (RR)


Le test du Khi-deux mesure le niveau de signification dune relation bivarie, pas son
intensit ni la forme de cette relation. Cest pourquoi il est intressant de complter ce
test par le calcul des risques relatifs (RR) de ralisation de la variable dpendante (ici la
participation politique) en fonction de chacune des modalits de la variable indpendante
(ici le niveau de diplme). Le Khi-deux calcul prcdemment est alors utilis pour
calculer les intervalles de confiance (IC) avec un minimum de 95% de certitude 12
autour des RR calculs pour chacune des modalits de la variable indpendante.

12 Le niveau de certitude est le complment lunit du niveau de signification : un IC > 95%


correspond donc un niveau de signification < 5% ou encore < 0,05, ce qui est le niveau de signification
seuil frquemment utilis en sciences sociales.

30

Rafael Costa et Godelieve Masuy-Stroobant


Il est noter que SPSS ne calcule pas le RR, ni son IC (95%) directement : on le calculera
donc manuellement13. Pour rappel (voir le Manuel, chapitre 3), on calcule dabord le
risque R daller voter (modalit oui de la variable participation politique) pour chaque
niveau de diplme en divisant le nombre de oui par le total des personnes ayant ce
niveau de diplme. On choisit ensuite un risque de rfrence : ici cest le risque R le plus
faible qui a t slectionn, soit celui des plus faiblement diplms (R = 0,277). Les
risques relatifs RR sobtiennent en divisant les risques R de chaque niveau de diplme
par ce risque de rfrence.
Tableau 4
Niveau de diplme et participation politique : calcul des R, RR et IC(95%)
Diplme

Participation politique
Non
Oui
Total

R= Oui / Total

RR

IC (95%)

Primaire ou moins

196

75

271

0,277

Secondaire infrieur

130

97

227

0,427

1,54

(1,36 1,72)

Secondaire suprieur

258

234

492

0,476

1,72

(1,54 1,90)

Suprieur

131

290

421

0,689

2,49

(2,31 2,67)

Total

715

696

1411

0,493

Lanalyse des proportions de votants potentiels permettait dj de supposer une


association positive entre le niveau dinstruction et lintention de voter : plus le niveau
dinstruction est lev, plus importante est la proportion de votants potentiels. Que cette
relation ne doive rien (ou peu de choses) au hasard a t valid par le Khi-deux qui est ici
trs significatif. Le risque relatif RR, lui, mesure plus prcisment la progression (relative
la modalit de rfrence qui est ici le niveau Primaire ou moins ) de cette intention de
voter. Ainsi, les diplms du secondaire infrieur ont 1,54 le risque daller voter si on
les compare ceux qui nont pas dpass le niveau de lenseignement primaire ; ils sont
suivis de prs par les diplms du secondaire suprieur avec un RR de 1,72 ; les diplms
du suprieur se distancient plus nettement de lensemble des autres groupes de diplms
avec un RR de 2,49, ce qui signifie quils ont prs de 2,5 fois le risque daller voter de
la modalit de rfrence.

5. Le calcul des intervalles de confiance (IC) du RR avec le Khi-deux


Si le seul objectif de ltude est dobserver les diffrences dintention de vote selon le
niveau dinstruction de la population qui a particip lenqute Capital social ,
linterprtation des R et, ventuellement, des RR suffit.
En revanche, si le mode dchantillonnage de lenqute le permet, le chercheur peut
souhaiter largir linterprtation des relations observes la population plus large dont a
t tir lchantillon de lenqute Capital social . Dans ce cas, on doit considrer que
les R et les RR observs - dans cette enqute en particulier - ne sont quune valeur parmi
bien dautres possibles (ceux que dautres chantillons constitus partir de la mme
population de dpart auraient produits).

On verra plus loin que lapplication dune rgression logistique une seule variable indpendante produit
une mesure apparente au RR, lOdds ratio (OR) ou rapport de cotes, dont linterprtation est diffrente.
13

31

Pratique de lanalyse des donnes


Il est donc ncessaire dvaluer, pour chaque RR calcul, la fourchette ou srie de
valeurs que pourraient thoriquement prendre les RR observs ici. On appelle cette
fourchette lintervalle de confiance : il sagit en fait de la srie de valeurs que le RR
peut prendre avec une marge derreur qui est ici fixe 5 %, cest pourquoi on parle dIC
(95%) ou, plus exigeant, dun IC (99%) associ 1% de marge derreur.
Pour le RR, la formule de calcul se base sur le Khi-deux :
IC (95%) = RR (1 + 1,96 / )
IC (99%) = RR (1 + 2,58 / )

Il est important, lors de linterprtation des diffrences de RR, de vrifier si lIC qui leur
est associ comporte la valeur 1. Un RR = 1 signifie en effet que le risque R associ cette
modalit ne diffre pas significativement du R de la modalit de rfrence. Un autre
lment daide linterprtation est de comparer ltendue des IC associs deux
modalits successives : une superposition trop importante des valeurs implique que les R
associs ces deux modalits ne sont pas trs diffrents.
o On note ici quaucun des intervalles de confiance ne comporte la valeur 1, ds
lors les intentions de vote des niveaux dinstruction suprieurs au niveau primaire
diffrent significativement de lintention de vote associ au niveau dinstruction
de rfrence.
o En revanche, les IC des RR calculs pour les Secondaire infrieur et les
Secondaire suprieur recouvrent en grande partie les mmes sries de valeurs
possibles. Ceci veut dire que les intentions de vote de ces deux groupes de
personnes sont trs semblables et ne diffrent pas significativement entre elles. En
dautres termes, on pourrait regrouper lensemble des diplms du secondaire en
une seule modalit sans trop de perte dinformation ou de variabilit.

32

Rafael Costa et Godelieve Masuy-Stroobant

4
Analyse bivarie
Une variable qualitative et une variable quantitative
1. Le test t de diffrences de moyennes
La question-recherche traite ici est :
Ceux qui voteraient toujours aux lections lgislatives,
mme si le vote ne devait plus tre obligatoire, sont-ils plus attachs la Belgique ?
Pour rpondre cette question, la relation entre les variables Participation politique
(dichotomique) et lindicateur d Attachement la Belgique (quantitative) est analyse
en comparant les valeurs moyennes de lindicateur dattachement la Belgique de deux
groupes de personnes : celles qui ont rpondu Oui et celles qui ont rpondu Non
la question sur leur intention de participation aux lections lgislatives. Si diffrence il y
a, le test t de Student servira vrifier si elle est significative. On sattachera galement
vrifier si les conditions de normalit des distributions et dgalit des variances
(homoscdasticit) sont respectes.
Le tableau Statistiques de groupe rvle tout dabord que la variable Participation
politique rpartit les participants lenqute en deux groupes de taille sensiblement
quivalente : 691 ont rpondu Oui la question et 697 ont rpondu Non . Le score
moyen dattachement la Belgique calcul sparment pour ces deux groupes suggre
quil y a une association entre les deux variables : les personnes qui iraient toujours voter,
mme si le vote ntait plus obligatoire, sont en moyenne plus attaches la Belgique,
avec un score moyen de 9,73, alors que celles qui niraient pas toujours voter ont un score
moyen de 8,49.

Le test t permet de vrifier si cette diffrence de moyennes est significative.


Concrtement, on testera si la diffrence des moyennes de lindicateur composite
observe dans lchantillon (9,73 8,49 = 1,24) est significativement diffrente de 0 (une
diffrence = 0 correspond lhypothse nulle Ho du test t).

33

Pratique de lanalyse des donnes


Mais, avant dinterprter les rsultats du test, il convient de vrifier les conditions de
normalit de la distribution de la variable quantitative dans les deux sous-populations
dfinies par la variable qualitative et dhomoscdasticit, qui renvoie lgalit des
variances des deux distributions de la variable dattachement la Belgique.
La normalit svalue le plus souvent visuellement laide des histogrammes de
frquence de la variable quantitative. Comme la montr lanalyse univarie, la
distribution de lindicateur composite dattachement la Belgique sapproche de la
normale (voir chapitre 2, point 2.2).

Lhomoscdasticit est value par le test de Levene dgalit des variances qui est
propos demble par SPSS lors de lapplication du test t (Test dchantillons
indpendants). Le test F (voir point 2 ci-aprs) est ici largement suprieur au F thorique
correspondant avec un risque derreur de p = 0,05 (pour F = 16,776, p < 0,001). On peut
donc rejeter lhypothse nulle Ho dgalit des variances et conclure que les variances
sont diffrentes. Dans ce cas dhtroscdasticit, on interprtera la deuxime ligne du
tableau qui prsente le rsultat dun t ajust cette situation.
o Le test t ajust est trs significatif : avec p<0,001 il y a moins dune chance pour
mille de se tromper si on rejette Ho. On pourra donc conclure une diffrence
significative entre la force de lattachement moyen des belges qui iraient voter
mme si le vote ntait plus obligatoire et ceux qui niraient pas ncessairement
voter dans ces conditions.
o Les intervalles de confiance confirment ce rsultat : la fourchette de valeurs o
pourrait se situer 95% des diffrences de moyennes ne comporte pas la valeur
0 . On rappellera, en effet, que la valeur 0 renvoie ici labsence de diffrence
entre les deux groupes : si cette valeur est comprise dans lIC, cela signifie quune
des valeurs possibles est cette absence de diffrence et dans ce cas, on ne peut
rejeter Ho.
Syntaxe : test t pour la comparaison de moyennes
Variable quantitative : attachbe_somme ; variable dichotomique : toujours_voter
T-TEST GROUPS=toujours_voter(0 1)
/MISSING=ANALYSIS
/VARIABLES=attachbe_somme
/CRITERIA=CI(.95).

34

Rafael Costa et Godelieve Masuy-Stroobant

2. Le test F et lanalyse de la variance ANOVA


La question-recherche traite ici est :
Y a-t-il une association entre le niveau dinstruction et le degr dattachement la Belgique ?
Pour rpondre cette question, deux variables ont t slectionnes : l Indicateur
composite dattachement la Belgique (quantitative) et le Niveau du diplme
(ordinale 4 modalits). Comme la variable qualitative comporte plus de 2 modalits, on
ne peut dans ce cas recourir au test t de comparaison de moyennes.
Le test F opte pour une stratgie un peu diffrente de celle du test t en comparant la part
de la variation de la variable quantitative lintrieur de chacune des strates dfinies par
les diffrents niveaux dinstruction (variation intra-groupes), la part de la variation de la
variable quantitative entre strates (variation inter-groupes). Lide est que si
lattachement la Belgique varie peu lintrieur de chacun des niveaux dinstruction
(intra-groupe), mais quil diffre beaucoup dun niveau dinstruction lautre (intergroupes), il y a une relation entre ces deux variables. Comme ce test se base sur une
comparaison de variances, on lappelle aussi ANOVA pour ANalysis Of Variances.
Le tableau Descriptives donne un bon aperu de la relation entre les deux variables. La
valeur moyenne de lindicateur dattachement la Belgique est plus leve pour les plus
hauts niveaux dinstruction : elle varie entre 8,9 pour le niveau Primaire ou infrieur
9,5 pour le niveau Postsecondaire suprieur . On observe cependant que les intervalles
de confiance (IC) autour des moyennes se recouvrent largement pour les trois premiers
niveaux dinstruction, se distinguant nettement de lIC des Postsecondaire suprieur .
Au vu de ces premiers rsultats, on peut penser que leffet Niveau dinstruction va sans
doute soprer via lcart entre les diplms de lenseignement suprieur et lensemble des
autres niveaux dinstruction.

Les conditions dapplication du test F sont les mmes que pour le test t : il convient donc
de vrifier la normalit des distributions de la variable quantitative lintrieur de
chacune des strates ainsi que lgalit des variances (ou dhomoscdasticit) de ces
distributions.
Contrairement lapplication du test t, le test de Levene nest pas propos demble
quand on ralise une ANOVA. Il convient donc de le demander.

35

Pratique de lanalyse des donnes

Dans ce cas-ci (Test dhomognit des variances), le test de Levene nest pas significatif :
il y a plus de 31% de chances que les variances soient gales (ou homognes) et on ne
peut donc rejeter Ho14. La condition dhomoscdasticit est donc respecte et lanalyse de
la variance peut se poursuivre.

Le tableau ANOVA prsente les rsultats du test F. La valeur de F (7,72) est obtenue en
divisant la variance inter-groupes (28,23) par la variance intra-groupes (3,66). Le test est
trs significatif, avec p<0,001, ce qui confirme que le degr dattachement la Belgique
diffre selon le niveau dinstruction.
Il convient ici de rappeler que le test F envisage la relation dans sa globalit, sans prciser
le ou les niveaux dinstruction qui seraient les plus discriminants en termes dattachement
la Belgique. Lanalyse descriptive vient donc complter linterprtation des rsultats en
prcisant que cest principalement la distinction entre diplms du suprieur et autres
niveaux (plus faibles) dinstruction qui faonne cette relation.
Syntaxe : ANOVA et test F
Variable quantitative : attachbe_somme ; variable nominale : diplome
ONEWAY attachbe_somme BY diplome
/STATISTICS DESCRIPTIVES HOMOGENEITY
/PLOT MEANS
/MISSING ANALYSIS.

14

Dans les cas o une htroscdasticit est constate, on peut analyser le test F avec la correction de
Welsch au lieu du tableau ANOVA. SPSS propose cette option.
36

Rafael Costa et Godelieve Masuy-Stroobant

5
Analyse bivarie
Deux variables quantitatives
La question-recherche traite ici est :
Y a-t-il une association entre lattachement des individus la Belgique
et le rle quils estiment jouer dans la socit ?
Pour analyser cette question, les indicateurs composites d Attachement la Belgique
(quantitative) et de perception du Rle jou dans la socit (quantitative) ont t
slectionns. Leur relation est dabord reprsente par un diagramme de dispersion, puis
leur association mesure par un coefficient de corrlation r et, enfin, la rgression
simple du degr dattachement la Belgique sur la perception (positive) du rle jou dans
la socit permettra dvaluer leffet de lattachement sur cette perception.

1. Le diagramme de dispersion
Le diagramme de dispersion met en relation lindicateur du Rle dans la socit
(variable dpendante, en ordonne) et lindicateur d Attachement la Belgique
(variable indpendante, en abscisse).
On saperoit que le nuage de points form par les observations nest pas trs clair. Les
deux indicateurs composites ayant t construits partir dun nombre limit de variables
ordinales, ils se comportent comme des variables discrtes, ce qui entrane une
superposition de points sur le diagramme de dispersion en rfrence aux valeurs entires
que prennent ces variables. On observe toutefois une plus grande densit de points dans
une zone allant de la partie infrieure gauche la partie suprieure droite du diagramme
(les points sont plus foncs), ce qui suggre une association positive entre lattachement
la Belgique et la perception (positive) du rle jou dans la socit.

37

Pratique de lanalyse des donnes

La syntaxe SPSS, qui a produit ce diagramme de dispersion, est donne ici titre
indicatif : le diagramme a t construit laide de lassistant graphique de SPSS, comme
cela a dj t prcis (Chapitre 3, note 10).

Syntaxe : cration dun diagramme de dispersion


Variable dpendante (en ordonne) : rolesoc_somme ; variable indpendante (en abscisse) :
attachbe_somme
GGRAPH
/GRAPHDATASET NAME="graphdataset" VARIABLES=attachbe_somme rolesoc_somme
MISSING=LISTWISE
REPORTMISSING=NO
/GRAPHSPEC SOURCE=INLINE.
BEGIN GPL
SOURCE: s=userSource(id("graphdataset"))
DATA: attachbe_somme=col(source(s), name("attachbe_somme"))
DATA: rolesoc_somme=col(source(s), name("rolesoc_somme"))
GUIDE: axis(dim(1), label("Indicateur composite d'attachement la Belgique (somme)"))
GUIDE: axis(dim(2), label("Indicateur composite du rle dans la socit (somme)"))
ELEMENT: point(position(attachbe_somme*rolesoc_somme))
END GPL.

38

Rafael Costa et Godelieve Masuy-Stroobant

2. La matrice des coefficients de corrlations


Le calcul du coefficient de corrlation qui mesure la part de variation commune de deux
variables quantitatives se base sur les paramtres (moyenne, cart-type) des distributions
des deux variables. Comme le coefficient de corrlation r est une mesure standardise, il
est une trs bonne mesure comparative.
Comme, dans ce cas-ci, lanalyse du diagramme de dispersion nest pas vraiment
concluante, le calcul de la corrlation entre les deux variables devrait permettre
dobjectiver lexistence dune relation linaire entre ces deux variables.
Le tableau Corrlations prsente la matrice des corrlations entre 4 variables : les
indicateurs d Attachement la Belgique et du Rle jou dans la socit , auxquels l
ge et le Nombre dannes dtudes ont t ajoutes. Il sagit de deux variables
quantitatives, dont il pourrait tre utile de contrler leffet sur la relation stablissant
entre lattachement la Belgique et la perception quont les personnes enqutes du rle
quelles jouent dans la socit.

Pour chaque couple de variables, SPSS donne le coefficient de corrlation r, son niveau
de signification et le nombre dunits dobservations sur lequel r a t calcul.
La matrice des coefficients de corrlation r est symtrique : la diagonale principale qui
spare la matrice des r en deux triangles redondants est compose des corrlations de
chacune des variables avec elle-mme (r = 1 dans ce cas).
Comme il sagit de corrlations ralises au niveau individuel, il nest pas tonnant
quaucune dentre elles dpasse le niveau des 40%, tout en tant significatives et parfois
mme trs significatives, lexception de la relation entre lge et la perception du rle
dans la socit (p = 0,084 pour r = 4,6%). Le coefficient de corrlation entre lattachement

39

Pratique de lanalyse des donnes


la Belgique et la perception du rle dans la socit est la fois positif (r = 26,2 %) et trs
significatif (p<0,001), ce qui confirme limpression dgage par lexamen du diagramme
de dispersion. On observe galement une corrlation positive et trs significative (r =
26,3% ; p<0,001) entre le nombre dannes dtudes et la perception du rle dans la
socit, tandis que la relation entre le nombre dannes dtudes et lattachement la
Belgique est la fois moins intense (r = 6,2%) et moins significatif (p<0,05).

Syntaxe : cration dune matrice des coefficients de corrlation


Corrlations bilatrales entre les variables age, annees_instruc, attachbe_somme et
rolesoc_somme
CORRELATIONS
/VARIABLES=age annees_instruc attachbe_somme rolesoc_somme
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.

3. La rgression simple
Opter pour lapplication dun modle de rgression simple, implique quon assigne un
rle particulier chacune des deux variables en prsence : celui de dpendante ou
variable expliquer, dune part, et dindpendante ou variable explicative, dautre part.
Comme ctait le cas de la corrlation r, la forme de la relation est suppose tre une
droite. Le modle de rgression se prsente donc comme lquation dune droite, dont on
estimera les paramtres a, lintercept et b, la pente de la droite.
Le modle de rgression simple de la perception du rle jou dans la socit (variable
dpendante Y) sur le degr dattachement la Belgique (variable indpendante X) se
prsente comme suit :
Perception du rle jou dans la socit = a + b [Degr dattachement la Belgique]
Le premier rsultat que fournit SPSS est un tableau Rcapitulatif des modles qui, pour
lessentiel, donne le coefficient de dtermination R ainsi que le R ajust pour le
nombre de variables indpendantes prises en compte. Comme la rgression simple ne
comporte quune seule variable indpendante, le R ajust est ici identique au R.
noter que le R est gal au carr du coefficient de corrlation r entre ces deux variables
[0,262 = 0,068]. Le R est assez faible ici15 : le degr d Attachement la Belgique rend
compte de 6,8% de la variance de la perception du Rle dans la socit .

15 Un R de 6,8% nest pas exceptionnel dans des analyses ralises au niveau individuel. Par ailleurs, il est
rassurant dun point de vue sociologique dobserver que le degr dattachement la Belgique ne peut lui
seul rendre compte de lentiret de la variation individuelle de la perception du rle jou dans la socit :
pour cela, davantage de dterminants doivent tre pris en compte.

40

Rafael Costa et Godelieve Masuy-Stroobant

Le niveau de signification du coefficient de dtermination R se trouve dans le tableau


ANOVA o le test F rapporte la part de variation estime par le modle la part de
variation que le modle nexplique pas : le test F est ici trs significatif avec p<0,001.

Les coefficients a et b de lquation de rgression figurent dans un 3me tableau intitul


Coefficients :
o Dans la colonne A figurent les valeurs de la constante a [a = 8,894], qui est
lintercept de la droite de rgression correspondant la valeur estime de Y quand
X = 0, et du coefficient de rgression b [b = 0,282], qui mesure leffet de
lattachement la Belgique sur la perception du rle jou dans la socit. Ces
deux coefficients sont exprims en units de mesure de la variable dpendante
(perception du rle jou dans la socit).
o La colonne suivante reprend les erreurs-types a et b de ces deux coefficients : ils
sont ncessaires au calcul des intervalles de confiance qui figurent dans les deux
dernires colonnes.
o La colonne Bta donne le coefficient de rgression standardis , surtout utile
dans le cas de rgressions multiples. noter que dans ce cas il ny a pas
dintercept : raliser une rgression sur des variables standardises annule la
constante.
o Le test t permet dvaluer le niveau de signification des deux coefficients a et b :
ils sont tous deux trs significatifs avec p<0,001.
o Les intervalles de confiance a 95% autour des coefficients a et b [a +/1,96 a] et [b
+/ 1,96 b]. Le fait que la valeur 0 nest pas comprise dans les IC (95%) confirme
le rsultat des tests de signification : les coefficients a et b de la rgression diffrent
significativement de 0, au moins au niveau p>0,05.

41

Pratique de lanalyse des donnes

Pour vrifier le respect des conditions dapplication de la rgression linaire, on examine


les rsidus :
o La distribution des rsidus doit tre au moins approximativement normale.
Cela svalue par un examen visuel de la comparaison de la forme de
lhistogramme des frquences des rsidus la distribution normale qui est dfinie
par la moyenne et lcart-type de la distribution des rsidus. On peut dans ce casci conclure raisonnablement une distribution normale : les coefficients a et b ne
sont donc pas biaiss.

o La condition dhomoscdasticit est vrifie par lexamen du diagramme de


dispersion associant les rsidus standardiss et les valeurs prdites (standardises)
de la variable dpendante. Mme si la superposition des points en rend
linterprtation malaise, on conclura que le nuage de points ne prsente pas de
structure particulire, ce qui plaide en faveur dune variance gale des rsidus
(homoscdasticit).

42

Rafael Costa et Godelieve Masuy-Stroobant

En rsum, on retiendra de cette rgression simple que lindicateur dattachement la


Belgique est positivement et significativement associ la perception (positive) du rle
dans la socit. La part de variation explique par le modle de rgression simple est assez
faible, mais significative.
Syntaxe : rgression simple
Variable dpendante : rolesoc_somme ; variable indpendante : attachbe_somme
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT rolesoc_somme
/METHOD=ENTER attachbe_somme
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HISTOGRAM(ZRESID).

43

Pratique de lanalyse des donnes

6
Analyse multivarie
Analyse en composantes principales
Lanalyse en composantes principales - qui est un cas particulier danalyse factorielle
est un outil danalyse des relations stablissant entre plusieurs variables quantitatives
sans leur attribuer de rles de dpendante et dindpendante(s) comme dans les analyses
de rgression. Lhypothse la base des analyses factorielles (aussi appeles analyses
dimensionnelles) est que, si plusieurs variables sont corrles entre elles, cela est d une
ou plusieurs dimension(s) ou facteur(s) sous-jacents qui leur sont communs. La mesure
dassociation de base de lACP est le coefficient de corrlation r.
Une premire question de recherche serait alors :
Quelles sont les dimensions communes aux indicateurs d Attachement la Belgique , de
perception du Rle jou dans la socit , l ge et au Niveau dinstruction ?

1. La slection des variables initiales


Lanalyse en composantes principales (ACP) sapplique en principe16 des variables
quantitatives : on cherche donc ici identifier les dimensions communes des
indicateurs quantitatifs dattitude17, tels que l Attachement la Belgique et la
perception du Rle jou dans la socit et et des variables didentification sociale
comme l ge et les Annes dtudes .
Comme ces variables ont des units de mesure diffrentes, lACP va dabord les
standardiser pour leur accorder le mme poids dans les analyses, ce qui ne modifie en
rien leur coefficient de corrlation. noter que, de ce fait, chacune des variables a une
moyenne = 0 et une variance = 1. lespace multidimensionnel des 4 variables initiales
correspond donc une variance totale de 4.

16 LACP peut aussi, dans certains cas, sappliquer des variables ordinales (voir point 1.4. ci-aprs) et des
variables binaires (codes 0,1).
17 Pour le dtail de la construction de ces indicateurs voir le chapitre 2.

44

Rafael Costa et Godelieve Masuy-Stroobant


Le recours une ACP pour identifier les dimensions qui structurent lespace
multidimensionnel des variables initiales opre classiquement en deux temps :
(1) aprs examen de la matrice des coefficients de corrlation entre variables initiales,
les composantes principales sont extraites et on analyse la matrice des saturations
(corrlations) entre variables initiales et composantes ;
(2) aprs avoir dcid du nombre de composantes retenir, on procde si
ncessaire une rotation des axes dfinis par ces composantes, afin de les
rapprocher de groupes de variables initiales, ce qui, en principe, permet de donner
du sens aux nouvelles variables synthtiques construites par lACP.

2. Lextraction des composantes principales


Lanalyse de la Matrice de corrlation rvle que les 4 variables initiales sont
modrment18 associes les unes aux autres, mais ces corrlations sont toutes significatives
au niveau p<0,05.

Par dfaut, SPSS nextrait que les composantes dont la valeur propre19 est suprieure 1.
Pour pouvoir disposer de lensemble de linformation sur la totalit des composantes (le
nombre maximal de composantes quil est possible dextraire est gal au nombre de
variables initiales), il faut donc le prciser.
Le tableau Variance totale explique donne un rsum du pouvoir explicatif (au sens
statistique de variance explique) des 4 composantes. Les deux sries de trois colonnes se
rptent ici :
o La premire colonne reprend les valeurs propres de chaque composante ;

18 Pour mmoire, les coefficients de corrlation sont gnralement moins levs dans des analyses menes au
niveau individuel que dans le cas danalyses menes au niveau agrg (communes, arrondissements, pays).
19 La valeur propre dune composante est la somme des carrs des saturations (ou corrlations) de cette
composante avec les variables initiales.

45

Pratique de lanalyse des donnes


o La deuxime colonne relve la proportion de variance totale reprsente par
chaque composante successive (obtenue en rapportant la valeur propre au total de
la variance initiale expliquer, ici la variance = 4) ;
o La troisime colonne donne le cumul de la variance initiale explique mesure que
sont extraites les composantes. Au total, les 4 composantes puisent la totalit de
la variance des 4 variables initiales.

On observera que la part de variance explique diminue mesure que le processus


dextraction de composantes se poursuit : la premire composante reprsente elle seule
plus de 35% de la variance totale et est ici le meilleur rsum (statistique) une
dimension dun espace-variables initial qui en comporte 4 au dpart.
Les rsultats les plus importants de lACP sont prsents dans la Matrice des
composantes. Ce tableau dtaille les saturations (corrlations) de chaque variable sur
chaque composante.
En se limitant (par convention) aux saturations suprieures 0,50, on observe que :
o La premire composante reprsente assez bien le niveau dinstruction (saturation
de 0,771) et la perception du rle jou dans la socit (0,692).
o La seconde composante est positivement associe lge (0,751) et lattachement
la Belgique (0,618), qui sature aussi ngativement sur la troisime composante
0,642).
o Les autres saturations sont moins importantes, en particulier sur la quatrime
composante.

46

Rafael Costa et Godelieve Masuy-Stroobant


Seules les deux premires composantes prsentent des saturations importantes sur plus
dune variable initiale et ce sont aussi ces deux composantes qui ont des valeurs-propres
suprieures 1. Selon ce critre, on peut dcider de se dsintresser par la suite des
composantes 3 et 4 qui reprsentent moins de variance initiale quune quelconque des
variables initiales (valeur-propre <1).
Avec 4 composantes, la totalit de la variance de chacune des 4 variables initiales prises
isolment est explique : les communauts (gales la somme des carrs des
saturations de la variable sur les composantes considres) sont toutes gales 1, comme
le montre la colonne Extraction du tableau Qualit de la reprsentation.

3. La rotation Varimax des 2 premires composantes


La dcision de recourir une rotation rpond au souci de pouvoir mieux interprter les
dimensions qui ont t identifies via lACP. Concrtement, il sagit de rapprocher les
composantes de sous-groupes de variables initiales, plutt que de les maintenir dans un
rle de synthse de lensemble des variables.
En appliquant une rotation Varimax20 aux deux premires composantes, on conserve la
proportion de variance initiale quelles reprsentent globalement (67%), de mme que
lindpendance des axes aprs rotation, mais leurs valeurs propres respectives se sont
modifies : elles sont proches de 1,34 toutes les deux (dernire partie du tableau Variance
totale explique).

Dautres stratgies de rotation orthogonale (Equimax, Equimin) ou de rotation non-orthogonale sont


disponibles sur SPSS. La rotation Varimax est couramment utilise.
20

47

Pratique de lanalyse des donnes


La Matrice des composantes aprs rotation dtaille les saturations des variables initiales
sur les deux premires composantes aprs rotation. La structure des variables rvle par
les facteurs21 aprs rotation est trs diffrente de celle des deux premires composantes
principales : ici, le premier facteur rsume la variation commune des indices
dattachement la Belgique et de perception du rle jou dans la socit (saturations de
0,75 et 0,79 respectivement). La variation des variables didentification sociale est en
grande partie absorbe par le deuxime facteur qui oppose lge (saturation de -0,81) au
niveau dinstruction (saturation de 0,79) : ce sont globalement les personnes les plus
jeunes qui sont aussi les plus instruites.

Comme ces facteurs varient indpendamment lun de lautre (la rotation Varimax
maintient lorthogonalit entre facteurs), on peut conclure une indpendance entre,
dune part, les caractristiques sociales des rpondants (ge et niveau dinstruction) et,
dautre part, leur implication dans la socit mesure ici par leur attachement la
Belgique et leur perception du rle quils jouent dans la socit.
En additionnant le carr des saturations de chaque variable sur les deux facteurs issus de
la rotation Varimax des deux premires composantes principales, on obtient les mmes
communauts que pour les deux premires composantes : autour de 70% de la variation
de chacune des deux variables didentification sociale et de la perception du rle jou
dans la socit sont absorbs par les deux premiers facteurs. Lindicateur dattachement
la Belgique est un peu moins bien reprsent (moins de 60%).

21 Le terme composantes est en principe strictement rserv aux composantes principales qui reprsentent
les vecteurs-propres de la matrice des corrlations des variables initiales. Les facteurs obtenus par la rotation
perdent certaines des caractristiques de ces composantes, comme le fait que la premire composante est le
meilleur rsum statistique en une variable de lespace multidimensionnel des variables initiales.

48

Rafael Costa et Godelieve Masuy-Stroobant

Syntaxe : Analyse en composantes principales sans rotation sur la totalit des composantes
Variables : age, annees_instruc, attachbe_somme et rolesoc_somme
FACTOR
/VARIABLES age annees_instruc attachbe rolesoc_somme
/MISSING LISTWISE
/ANALYSIS age annees_instruc attachbe rolesoc_somme
/PRINT INITIAL CORRELATION SIG EXTRACTION
/CRITERIA FACTORS(4) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION.


Syntaxe : Analyse en composantes principales avec rotation sur les composantes dont la valeur
propre est suprieure 1 ; les facteurs aprs rotation sont sauvegards : par dfaut ils
sappellent FAC1_2 et FAC2_2
Variables : age, annees_instruc, attachbe_somme et rolesoc_somme
FACTOR
/VARIABLES age annees_instruc attachbe_somme rolesoc_somme
/MISSING LISTWISE
/ANALYSIS age annees_instruc attachbe_somme rolesoc_somme
/PRINT UNIVARIATE INITIAL CORRELATION SIG EXTRACTION ROTATION
/PLOT EIGEN ROTATION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/SAVE REG(ALL)
/METHOD=CORRELATION.

49

Pratique de lanalyse des donnes


4. Les reprsentations graphiques
Les analyses factorielles en gnral et lACP en particulier sont aussi des outils de
visualisation (graphique) des donnes. Deux types de graphiques peuvent tre produits : le
premier est le diagramme des saturations des variables initiales dans le plan dfini par
chaque couple de composantes (ou facteurs). Le second situe les units dobservation
dans les plans dfinis par chaque couple de composantes (ou facteurs) : les coordonnes
sont ici les notes en facteur ou valeurs que prennent les units dobservation sur les
nouvelles variables synthtiques que sont les composantes (ou facteurs). Mme sil est
possible de produire ces graphiques pour toutes les combinaisons de couples de
composantes (ou facteurs), on se limite en principe aux composantes (ou facteurs) qui ont
du sens ou plus classiquement aux deux premires composantes (ou deux premiers
facteurs aprs rotation).
Variables et facteurs. Le Diagramme de composantes dans lespace aprs rotation illustre
la position des 4 variables dans lespace bidimensionnel cr par lACP aprs rotation. Les
points-variables sont dautant plus proches des axes que leur saturation sur les
composantes est leve. Par ailleurs, plus les points-variables sont distants de lorigine
(lorigine correspond une saturation = 0) et se rapprochent dune saturation = 1 (qui
correspond une corrlation parfaite), mieux ces variables sont reprsentes par les
dimensions.
Lors de linterprtation de ce graphique, il ne faut pas oublier que la mesure de
ressemblance entre variables initiales et facteurs est le coefficient de corrlation, dont les
valeurs se situent strictement dans lintervalle [-1, 1]. Ces valeurs extrmes correspondent
la frontire dessine par la circonfrence du cercle de rayon = 1 qui a t superpos ici
au graphique produit par SPSS.

50

Rafael Costa et Godelieve Masuy-Stroobant


Units dobservation et facteurs. Les facteurs (ou composantes) sont de nouvelles
variables standardises dont la valeur pour chaque unit dobservation peut tre calcule.
Un des rsultats de lACP est de visualiser la position des units dobservation (ici les
1440 individus qui ont particip lenqute Capital social) sur le plan dfini par les deux
facteurs identifis aprs rotation. On interprte alors la densit des points dans les 4
quadrants dfinis par les facteurs en tenant compte de ce que ces facteurs reprsentent.
Projection des units dobservation sur le premier plan factoriel (aprs rotation)

Cest par une commande spcifique de SPSS [/SAVE REG(ALL)] (voir syntaxe ci-dessous) que
les notes en facteur de chacune des composantes retenues sont enregistres comme
nouvelles variables. Il faut ensuite recourir au gnrateur de graphiques de SPSS pour
construire le graphique prsentant la projection des units dobservation sur le (ou les)
plan(s) factoriel(s)22.
On publie rarement ce type de graphique quand le nombre dunits dobservation est trs
important, comme cest le cas ici : limage est en effet trs dense et se prte moins bien
linterprtation que des tudes sintressant des diffrences spatiales, comme ctait le
cas de lanalyse de la mortalit infantile par arrondissement prsente dans le Manuel,
chapitre 6. Ceci tant, des rgles dinterprtation sont prcises ci-aprs :
Linterprtation des axes sopre en rfrence au graphique des saturations (voir le
Diagramme de composantes dans lespace aprs rotation produit par SPSS :
o Le premier facteur oppose (valeur ngative) les personnes peu attaches la
Belgique et qui nont pas limpression de jouer un rle dans la socit, aux
personnes sestimant trs attaches la Belgique (valeur positive sur ce facteur),
etc.
22 Dans cet exemple, seuls deux facteurs ont t conservs : ils dfinissent donc un seul plan factoriel. Si
davantage de facteurs (Fn) sont considrs comme intressants, les projections dunits dobservation
peuvent soprer sur plusieurs plans : lanalyse du premier plan [F1, F2] est alors complte par lanalyse des
plans [F1, F3] et [F2, F3] dans la situation trois facteurs, etc.

51

Pratique de lanalyse des donnes


o Le deuxime facteur opre une partition de ces deux types de personnes en un
groupe plus jeune et plus instruit se situant dans la partie suprieure du plan
(valeur positive sur le deuxime facteur) et un groupe plus g et moins instruit
(valeur ngative sur ce facteur).
o La superposition de ces deux dimensions va donc permettre didentifier 4 groupes
de personnes, dont le caractristiques sont dautant plus marques quelles sont
loignes du centre de gravit du plan (l o les deux facteurs se croisent au point
de coordonnes [0, 0].
Linterprtation des ressemblances entre units dobservation se mesure ici en termes de
distance : plus deux units sont proches, plus elles ont des valeurs semblables sur les deux
composantes et donc en principe - sur les variables initiales qui sont suffisamment
rsumes par ces composantes.
Pour pouvoir correctement visualiser et interprter ces distances/proximits, il est
impratif de veiller, lors de llaboration du graphique, ce que lunit de mesure des
chelles verticale et horizontale soit identique : les composantes sont des variables
standardises et leur unit de mesure est identique23.
Une faon intressante dapprofondir linterprtation du graphique des notes en facteur
est de caractriser visuellement les points-units dobservation par lune ou lautre variable
initiale considre comme intressante et qui na pas t rsume par lACP : on pourrait
ainsi les distinguer selon le sexe, lorientation politique ou le lieu de rsidence
(urbain/rural) en fonction dhypothses formuler.
Le plan factoriel ci-dessous distingue les individus selon quils aient (o) ou non (*)
lintention de voter si lobligation de vote tait supprime en Belgique.

o On observe tout naturellement une densit plus leve de personnes qui iraient
toujours voter (icne o) dans le cadrant dfini par des valeurs positives des deux
facteurs : ce cadrant concentre en effet les personnes les plus instruites et les plus
attaches la Belgique.

23

Lunit de mesure est lcart-type ( en positif ou ngatif) par rapport la moyenne.


52

Rafael Costa et Godelieve Masuy-Stroobant


o loppos, le cadrant dfini par des valeurs ngatives sur les deux facteurs
concentre davantage de personnes qui dserteraient les bureaux de vote sils
ntaient plus obligs de voter (icne *). Ce sont les personnes les moins instruites
et les moins attaches la Belgique .

Syntaxe : Construction dun nuage des points reprsentant les points individus sur les deux
premiers facteurs de lACP aprs rotation.

REC GGRAPH
/GRAPHDATASET NAME="graphdataset" VARIABLES=FAC1_2 FAC2_2 MISSING=LISTWISE
REPORTMISSING=NO
/GRAPHSPEC SOURCE=INLINE.
BEGIN GPL
SOURCE: s=userSource(id("graphdataset"))
DATA: FAC1_2=col(source(s), name("FAC1_2"))
DATA: FAC2_2=col(source(s), name("FAC2_2"))
GUIDE: axis(dim(1), label("Notes en facteur - composante 1"))
GUIDE: axis(dim(2), label("Notes en facteur - composante 2"))
ELEMENT: point(position(FAC1_2*FAC2_2))
END GPL.


Syntaxe : Projection des units dobservation sur le premier plan factoriel (aprs rotation) en
distinguant les individus selon le comportement de vote

GGRAPH
/GRAPHDATASET NAME="graphdataset" VARIABLES=FAC1_1 FAC2_1 toujours_voter
MISSING=LISTWISE
REPORTMISSING=NO
/GRAPHSPEC SOURCE=INLINE.
BEGIN GPL
SOURCE: s=userSource(id("graphdataset"))
DATA: FAC1_1=col(source(s), name("FAC1_1"))
DATA: FAC2_1=col(source(s), name("FAC2_1"))
DATA: toujours_voter=col(source(s), name("toujours_voter"), unit.category())
GUIDE: axis(dim(1), label("Notes en facteur - composante 1"))
GUIDE: axis(dim(2), label("Notes en facteur - composante 2"))
GUIDE: legend(aesthetic(aesthetic.color.exterior), label("'Si le vote n'tait plus obligatoire ",
"en Belgique, iriez-vous toujours voter aux lections lgislatives ?'"))
SCALE: cat(aesthetic(aesthetic.color.exterior), include("0", "1"))
ELEMENT: point(position(FAC1_1*FAC2_1), color.exterior(toujours_voter))
END GPL.

53

Pratique de lanalyse des donnes


5. La cration dindicateurs composites partir dune ACP
Les composantes extraites de lACP sont en ralit de nouvelles variables : pour une
composante donne, une note en facteur est attribue chaque individu de la base de
donnes, reprsentant sa position par rapport cette composante. Il en dcoule quune
composante peut tre utilise en tant quindicateur composite rsumant les variables qui
la dterminent.
Disposant de 4 variables ordinales censes situer la reprsentation que se font les
personnes du rle quelles jouent dans la socit, deux modes de construction dun
indicateur synthtique ont t tentes :
o Classiquement, dans ce cas, on cre une nouvelle variable qui rsulte de la
sommation des scores attribus par les individus aux 4 questions sur leur
perception (positive): du rle quelles jouent dans la socit. Il sagit de la variable
rolesoc_somme (voir la Partie 1 Analyse univarie ) qui a t utilise dans lACP
prcdente.
o On peut aussi tenter de les rsumer via une ACP, mme sil est vrai que cette
application nest pas rigoureuse au sens statistique : les variables du rle dans la
socit sont qualitatives, mais ordonnes, alors que lACP est une mthode
approprie aux variables quantitatives. Elle aboutit cependant des rsultats
satisfaisants, comme on le verra par la suite.
Une ACP a t applique aux 4 variables ordinales abordant chacune une facette de la
perception du rle social, chacune de celles-ci comportant 4 catgories. Lobjectif tant de
construire un indicateur unique rsumant la variation des variables initiales de faon
optimale, aucune rotation na t ralise. Les notes en facteur de la premire
composante ont t enregistres et cette nouvelle variable a t nomme rolesoc_acp .
Les principaux rsultats de lACP sont prsents ci-dessous : on y constate que la variance
explique par la premire composante est de 1,46, soit 36,5% [1,46/4 = 0,365] de la
variance initiale des 4 variables. Par ailleurs, toutes les variables ont une saturation
suprieure 0,5 sur la premire composante.

54

Rafael Costa et Godelieve Masuy-Stroobant

Variable :

Indicateur composite du rle dans la socit (ACP)

Code :

rolesoc_acp

Type :

quantitative

Pour valider lindicateur rolesoc_acp cr par ACP, il a t compar lindicateur de


rfrence construit partir de la somme des scores des 4 variables
initiales rolesoc_somme. Le diagramme de dispersion croisant pour chaque unit
dobservation les valeurs des deux indicateurs rvle une forte association entre ces deux
indicateurs, association qui est confirme par leur coefficient de corrlation (r = 98,5%).

Ce mme exercice a t ralis pour crer un nouvel indicateur composite dattachement


la Belgique partir des 3 variables ordinales de base. Quoique un peu moins
importante (r =79%), lassociation entre lindicateur attachbe_somme (Chapitre 2 :

55

Pratique de lanalyse des donnes


Analyse univarie) et lindicateur construit partir dune ACP, attachbe_acp, est aussi
trs leve.
Variable :

Indicateur composite dattachement la Belgique (ACP)

Code :

attachbe_acp

Type :

quantitative

La validit dun indicateur synthtique construit partir dune ACP dpend bien sr de
limportance des saturations des variables initiales sur la premire composante, mais aussi
de la capacit de cette composante rsumer suffisamment lensemble des variables sur
laquelle elle se base.
Ces deux exemples montrent aussi que lACP peut sappliquer des variables ordinales
comportant un nombre suffisant de modalits rparties de faon quilibre dans la
population.
Syntaxe : Cration de lindicateur composite du rle dans la socit (ACP). Analyse en
composantes principales : sauvegarde des composantes sans rotation (par dfaut, lACP ne
conserve que les composantes dont la valeur propre > 1.
FACTOR
/VARIABLES rolesoc1 rolesoc2aux rolesoc3aux rolesoc4aux
/MISSING LISTWISE
/ANALYSIS rolesoc1 rolesoc2aux rolesoc3aux rolesoc4aux
/PRINT INITIAL CORRELATION SIG EXTRACTION
/CRITERIA FACTORS(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/SAVE REG(ALL)
/METHOD=CORRELATION.

56

Rafael Costa et Godelieve Masuy-Stroobant

7
Analyse multivarie
Analyse factorielle des correspondances multiples
Lanalyse factorielle des correspondances (AFC) et son extension lanalyse factorielle des
correspondances multiples (AFCM) sont des outils danalyse des relations stablissant
entre deux ou plusieurs variables qualitatives sans leur attribuer les rles de dpendante
et dindpendante(s) comme dans les analyses de rgression.
Comme pour lACP, lhypothse la base des analyses factorielles (aussi appeles analyses
dimensionnelles) est que, si plusieurs variables sont associes entre elles, cela est d une
ou plusieurs dimension(s) ou facteur(s) sous-jacents qui leur sont communs.
La mesure dassociation la base des AFC est le Khi-deux.
La question de recherche propose ici part des trois variables dopinion partir desquelles
ont t construits les deux indicateurs dattachement la Belgique attachbe_somme
(chapitre 2, analyse univarie) et attachbe_acp (chapitre 6 : analyse en composantes
principales). En construisant ces indicateurs, les interdpendances entre les trois variables
dopinion nont pas t explores.
Quelles sont les dimensions communes aux variables dattachement la Belgique et
aux caractristiques sociodmographiques de la population enqute ?

1. La slection des variables initiales


Pour identifier ces dimensions, une AFCM a t ralise sur 6 variables actives issues de
de la base de donnes Capital social, soit trois variables sociodmographiques et trois
variables dattachement la Belgique, totalisant 22 modalits :
Le Sexe (sexe) : 2 modalits
La Classe dge (classe_age) : 4 modalits
Le Niveau du diplme (diplome) : 4 modalits
Le Sentiment dappartenance la Belgique comme rponse la question :
Vous arrive-t-il de vous sentir belge ? (appartbe) : 5 modalits
o La Confiance dans ltat belge en rponse la question : Dans ltat belge, avezvous (confbe) : 5 modalits
o La Confiance dans les mcanismes dmocratiques en rponse la question :
En Belgique, il est ais de se faire entendre lorsqu'on est pas d'accord avec la manire dont
les choses se passent (democbe) : 4 modalits
o
o
o
o

57

Pratique de lanalyse des donnes

Outre ces variables, la Participation politique (toujours_voter) a t utilise en tant


que variable illustrative : celle-ci ne contribue donc pas la construction des dimensions,
mais sera projete sur les plans factoriels. La Participation politique peut tre
considre ici comme variable dpendante : sa position sur la toile de fond construit
par lAFCM permettra dtudier la relation entre la participation politique et les
dimensions de lattachement la Belgique et des caractristiques sociodmographiques de
la population.

2. Le choix du nombre de facteurs


Le nombre maximal de facteurs que peut extraire une AFCM est gal au nombre de
modalits M le nombre de variables V : soit dans ce cas-ci 246 = 17. Ce nombre est
bien entendu trop important et le souci de synthtiser cet espace multidimensionnel de
faon optimale conduit retenir les facteurs les plus performants statistiquement
parlant- en termes de synthse de linformation et ceux qui ont du sens par rapport
lespace variables initial.
Linertie totale du nuage de points dpend du nombre total de modalits M et du
nombre total de variables V, soit [I=(MV)/V], soit dans ce cas-ci : I=[(246)/6]=3.
On retient en gnral les facteurs ayant une valeur propre suprieure 1 ou encore une
inertie (variation explique) suprieure 1/V, soit une inertie suprieure linertie
moyenne dune variable active. Dans ce cas-ci, cette valeur-seuil stablit 0,167 (= 1/6).
Le tableau Rcapitulatif des modles produit par SPSS a retenu les 4 premiers facteurs sur
base de ces critres : ensemble ils rendent compte de 30,0% de linertie totale du nuage
de points (0,902/3=0,300), ce qui est une proportion importante dans le cadre de
lAFCM24.

Le tableau 5 dtaille les coordonnes des modalits des 6 variables actives par rapport aux
4 dimensions retenues : il a t construit partir des 6 tableaux partiels (un par variable
24 Globalement, la variance explique par les facteurs dune AFCM est sous-estime et les chercheurs
tiennent rarement compte de cette statistique : limportant est de pouvoir donner du sens aux facteurs retenus
et de visualiser lespace complexe des variables initiales en cartant ce qui est considr comme du bruit.

58

Rafael Costa et Godelieve Masuy-Stroobant


active) que produit SPSS. Ce tableau est une aide linterprtation des plans factoriels
quon peut constituer partir des coordonnes des modalits sur chaque couple de
facteurs.

3. Linterprtation du premier plan factoriel


Lobjectif dune AFCM tant doffrir une visualisation interprtable dun espace-variables
complexe, le sens donn aux axes et lanalyse des proximits entre variables et modalits25
sont gnralement labors partir des plans factoriels. On se limitera ici au premier plan
factoriel, compos par les deux premiers facteurs qui reprsentent ensemble prs de 20%
de la variance initiale (0,496/3 = 0,165 avec 0,496 = 0,271 + 0,225) (tableau 5). Les
modalits ordonnes des variables ont t relies entre elles afin de reprer la forme de
leur positionnement dans lespace des axes factoriels (diagramme ci-aprs).
o La premire dimension est surtout dtermine par le niveau dinstruction et
lge : elle oppose clairement les niveaux dinstruction plus levs
( postsecondaire suprieur et secondaire suprieur ) aux plus faibles
( secondaire infrieur et primaire ou infrieur ). De mme, lge contribue
cette dimension : plus les personnes enqutes sont ges, plus elles sloignent
ngativement- de la valeur moyenne de cet axe. Les jeunes adultes (2544) ont une
valeur positive, tandis que les plus jeunes (1824) se positionnent plus clairement
sur la deuxime dimension.
o Cest le sentiment dappartenance la Belgique qui se positionne le plus
clairement le long de la deuxime dimension : elle oppose les individus ayant un
sentiment plus fort dappartenance ( Tout le temps , Souvent ) aux autres.
Cest aussi un axe qui oppose les plus gs ( 65 ans ou plus ) au plus jeunes (1824 ans).
o Il est intressant dobserver que la confiance en ltat belge contribue fortement
la construction des deux dimensions, mais pas dune faon linaire : ce sont en
effet les positions extrmes ( Pas du tout confiance et Confiance totale ) qui
sopposent la position moyenne ( Confiance moyenne ) pour dterminer le
premier axe, tandis que la passage de Confiance totale Pas du tout
confiance saligne de faon tout fait ordonne le long du deuxime axe. Le
sentiment de confiance dans les mcanismes dmocratiques saligne plutt sur la
premire dimension, mais oppose trs clairement les personnes qui estiment
pouvoir faire entendre leur voix celles qui ne sont pas daccord avec cette
position le long du deuxime axe.
o Les modalits Hommes et Femmes se situent proximit du barycentre du
graphique, ce qui veut dire que mme si les opinions et caractristiques des
hommes et des femmes diffrent (leurs modalits sont lgrement distantes lune
de lautre), elles ne contribuent que faiblement la construction des axes
LAFCM considre chaque modalit comme une variable, mais lors de linterprtation on
conservera le lien entre les modalits et la variable qui les a produites. On notera galement que
mme si lAFCM permet en principe de projeter simultanment les points-individus et les pointsvariables (reprsentes par leurs modalits) sur un mme plan factoriel, on vite en gnral de
projeter les points-individus quand ceux-ci sont trop nombreux, comme cest le cas ici.
25

59

Pratique de lanalyse des donnes


factoriels. Il sagit cependant dun effet de perspective : le sexe contribue un peu
plus la construction de la troisime dimension (voir tableau 5), ce qui nest
videmment pas visible sur le premier plan factoriel.
Tableau 5
Coordonnes des modalits sur les 4 premiers facteurs identifis par lAFCM26
Variable

Modalit

Dimensions
1

Sexe

Masculin
Fminin

0,105
-0,099

-0,066
0,061

0,567
-0,516

-0,350
0,321

Classe d'ge

De 18 24 ans
De 25 44 ans
De 45 64 ans
65 ans ou plus

0,058
0,622
-0,224
-0,813

-0,710
-0,286
-0,110
1,019

-0,929
0,195
0,352
-0,439

-2,021
0,337
0,147
0,140

Niveau du diplme

Primaire ou infrieur
Secondaire infrieur
Secondaire suprieur
Postsecondaire suprieur

-0,945
-0,579
0,092
0,806

0,688
-0,134
-0,467
0,189

0,108
-0,234
-0,299
0,404

0,328
-0,175
-0,654
0,647

Jamais
Rarement
De temps en temps
Souvent
Tout le temps

-0,453
0,233
0,565
0,312
-0,272

-1,065
-1,473
-0,680
0,135
0,406

-0,331
0,296
0,771
-0,436
-0,001

-0,435
0,685
-0,142
0,186
-0,041

Pas du tout confiance


Peu confiance
Confiance moyenne
Grande confiance
Confiance totale

-1,518
-0,376
0,419
0,345
-1,129

-0,913
-0,556
0,183
0,726
2,016

1,327
-0,515
-0,182
0,755
0,468

0,336
0,155
0,108
-0,787
-1,804

Tout fait daccord


Plutt daccord
Plutt pas daccord
Pas du tout daccord

0,407
0,540
0,060
-1,104

1,060
0,364
-0,389
-0,434

0,491
0,068
-0,576
0,555

-0,793
-0,264
0,421
0,097

Appartenance la Belgique
( Vous arrive-t-il de vous sentir belge ? )

Confiance dans ltat belge


( Dans l'tat belge, avez-vous ... )

Confiance dans les mcanismes


dmocratiques belges
( En Belgique, il est ais de se faire

entendre lorsqu'on n'est pas d'accord avec la


manire dont les choses se passent )

26 Ce sont les modalits les plus distantes du barycentre (qui correspondant aux coordonnes 0,0) qui
contribuent le plus la construction des axes. Pour rappel, le barycentre correspond au comportement
moyen de toutes les variables, ainsi plus une modalit scarte de ce comportement moyen , plus elle
caractrise des personnes qui diffrent de ce comportement moyen.

60

Rafael Costa et Godelieve Masuy-Stroobant

Les proximits entre les modalits des 6 variables actives mettent en vidence des profils
intressants quant lattachement la Belgique :
o La proximit entre les modalits 65 ans ou plus et Primaire ou infrieur
rvle le faible niveau dinstruction des personnes plus ges (ce qui a t
dmontr par ailleurs par la corrlation ngative et significative entre lge et les
annes dtudes, (chapitre 5). Ces individus plus gs et peu instruits sont trs
proches dun fort sentiment dappartenance la Belgique (ils se sentent belges
Tout le temps ) et font confiance dans ltat belge (ils se situent entre les
modalits Grande confiance et Confiance totale ).
o Les adultes gs de 45 64 ans , de niveau dinstruction moyen (ils se situent
entre les modalits Secondaire infrieur et Secondaire suprieur ), ont peu
confiance dans les institutions dmocratiques ( Plutt pas daccord ou Pas du
tout daccord avec laffirmation concernant les mcanismes dmocratiques).
o Les plus jeunes ( De 18 24 ans et De 25 44 ans ) assez instruits
( Secondaire suprieur Postsecondaire suprieur ) ont un sentiment
dappartenance la Belgique relativement faible (se sentent belges De temps en
temps et les plus jeunes sont les plus proches des modalits Rarement et
Jamais ).

61

Pratique de lanalyse des donnes


o Enfin, le niveau dinstruction le plus lev ( Postsecondaire suprieur ) est
associ une confiance moyenne, voire forte, dans ltat belge ( Confiance
moyenne , Grande confiance ) et dans la dmocratie ( Plutt daccord ,
Tout fait daccord ). De plus, ces individus se sentent Souvent belges. Ce
profil semble tre fortement dtermin par le niveau dinstruction, plutt que par
lge : ainsi, les individus trs instruits auraient ces valeurs dattachement la
Belgique quel que soit leur ge.
La participation politique (variable dpendante) a t projete comme variable
illustrative sur ce premier plan factoriel. En analysant la position des modalits de la
variable Participation politique par rapport aux profils dgags, on observe que :
o La modalit Non de cette variable est proche du deuxime profil : le fait de ne
pas toujours aller voter est, sur ce premier plan factoriel, associ un niveau
dinstruction plus faible, aux ges plus levs, un faible sentiment
dappartenance ainsi quune faible confiance dans les institutions.
o Les Oui (intention de voter, mme si le vote ntait plus obligatoire)
sassocient, en revanche, un niveau dinstruction lev et une forte confiance
dans les mcanismes dmocratiques belges.
En se basant sur le seul premier plan factoriel, lAFCM a dj permis de clarifier de
multiples relations entre les variables dattachement la Belgique, les caractristiques
sociodmographiques et la participation politique. Elle a en outre permis didentifier des
profils dattachement la Belgique. Comme ces rsultats se sont bass sur les projections
de points-modalits sur un seul plan factoriel, il convient de les stabiliser par lexamen de
la proximit de leurs projections sur dautres plans considrs comme pertinents (dun
point de vue statistique ou du sens accord aux axes suivants).
Syntaxe : analyse factorielle des correspondances multiples (extraction de 4 dimensions et
enregistrement de celles-ci)
Variables actives : diplome, classe_age, democbe, confbe et appartbe ;
Variable illustrative : toujours_voter
MULTIPLE CORRES VARIABLES=V1 diplome classe_age democbe confbe appartbe toujours_voter
/ANALYSIS=V1(WEIGHT=1) diplome(WEIGHT=1) classe_age(WEIGHT=1) democbe(WEIGHT=1)
confbe(WEIGHT=1)
appartbe(WEIGHT=1) toujours_voter
/MISSING=V1(PASSIVE,MODEIMPU) diplome(PASSIVE,MODEIMPU) classe_age(PASSIVE,MODEIMPU)
democbe(PASSIVE,MODEIMPU) confbe(PASSIVE,MODEIMPU) appartbe(PASSIVE,MODEIMPU)
toujours_voter(PASSIVE,MODEIMPU)
/SUPPLEMENTARY=VARIABLE(toujours_voter)
/DIMENSION=4
/NORMALIZATION=VPRINCIPAL
/MAXITER=100
/CRITITER=.00001
/PRINT=CORR HISTORY DISCRIM QUANT(V1 democbe confbe appartbe diplome classe_age)
/PLOT=OBJECT(20) CATEGORY(V1 democbe confbe appartbe diplome classe_age toujours_voter) (20)
JOINTCAT(V1 democbe confbe appartbe diplome classe_age toujours_voter) (20) DISCRIM (20)
/SAVE=OBJECT.

62

Rafael Costa et Godelieve Masuy-Stroobant

8
Analyse multivarie
Analyse de classification
Les analyses factorielles synthtisent linformation apporte par un ensemble de variables
initiales en se basant sur leurs associations, mesures par le coefficient de corrlation dans
le cas de variables quantitatives (ACP) ou par le Khi-deux dans le cas de variables
qualitatives. De faon complmentaire, les analyses de classification (Cluster analyses)
oprent un regroupement des units danalyse en se basant sur leurs similitudes dans
lespace-variables considr.
Les analyses de classification peuvent tre utilises en premire instance directement sur
un ensemble de variables slectionnes par le chercheur, mais elles peuvent aussi tre
ralises la suite danalyses factorielles, en vue notamment didentifier une typologie
dunits danalyse dans lespace dfini par un nombre slectionn de facteurs.
La question de recherche propose ici part des profils dattachement la Belgique
esquisss partir de lanalyse du premier plan factoriel issu de lAFCM qui vient dtre
prsente :
En tenant compte des 4 premires dimensions de lAFCM,
obtient-on une typologie dattachement la Belgique qui confirme les profils esquisss
partir de lanalyse du premier plan factoriel ?

1. La slection des variables initiales


Si on souhaite regrouper les personnes observes par lenqute Capital social en un
nombre rduit de groupes homognes en tenant compte la fois de leurs caractristiques
sociodmographiques et de leurs sentiments de confiance et dappartenance la Belgique,
il faut procder une transformation des variables initiales. La technique danalyse de
classification qui est prsente ici (classification hirarchique mthode de Ward),
sapplique en effet des variables quantitatives : or, les variables qui nous intressent ici
sont toutes qualitatives.
Un mode de transformation de variables qualitatives en variables quantitatives passe par
lapplication dune AFCM lensemble des variables qualitatives dintrt : les facteurs
issus dune AFCM sont des variables quantitatives. Si la totalit des facteurs extraits sont
retenus, le nouvel espace-variables dfini par les facteurs reprsente la mme variance
totale que celle de lensemble des variables initiales. On peut galement appliquer une

63

Pratique de lanalyse des donnes


analyse de classification un nombre plus rduit de facteurs, qui sont, soit slectionns
pour leur capacit bien rsumer lespace-variable initial, soit ces facteurs auxquels le
chercheur a pu donner du sens.
En suivant cette logique, la classification hirarchique ascendante (mthode de Ward) a
t applique aux notes en facteurs des 4 dimensions extraites de lAFCM (chapitre 7),
qui reprsentent, ensemble, 30% de la variation initiale des variables suivantes :
Le Sexe (sexe) : 2 modalits
La Classe dge (classe_age) : 4 modalits
Le Niveau du diplme (diplome) : 4 modalits
Le Sentiment dappartenance la Belgique comme rponse la question :
Vous arrive-t-il de vous sentir belge ? (appartbe) : 5 modalits
o La Confiance dans ltat belge en rponse la question : Dans ltat belge, avezvous (confbe) : 5 modalits
o La Confiance dans les mcanismes dmocratiques en rponse la question :
En Belgique, il est ais de se faire entendre lorsqu'on est pas d'accord avec la manire dont
les choses se passent (democbe) : 4 modalits.
o
o
o
o

Pour raliser une analyse de classification hirarchique, on procde par tapes : en partant
du regroupement progressif des units danalyse sur base de leur ressemblance dans
lespace variables slectionn (1), on dcide du nombre de groupes retenir sur base dun
certain nombre de critres (2), pour enfin interprter la typologie issue de ce
regroupement laide des modalits des variables initiales qui distinguent ces groupes (3).

2. Le processus de regroupement
On dispose au dpart de 1440 individus classer. La classification hirarchique
ascendante produit une suite de 1339 fusions, regroupant les individus dans de groupes
de plus en plus importants et de moins en moins nombreux. Cette suite de fusions est
prsente au tableau Regroupement des classes, qui indique la perte dinformation
(mesure par le critre de Ward qui sapparente la variance) associe chaque tape du
processus27. Ainsi, ltape 1, les groupes28 342 et 1440 ont t fusionns, ce qui a
entrain une perte dinertie (calcule par la mthode de Ward) infrieure 0,00029, et
ainsi de suite.

27 Etant donn que le tableau cr pour cet exemple compte 1439 lignes, seules les premires et les dernires
sont reprises ici.
28 Pour rappel, la premire tape de la classification, toutes les observations sont considres comme tant
des groupes ; dans cet exemple, on dispose de 1440 groupes au dpart.
29 Au dbut du processus, ce sont les units dobservation ayant des caractristiques identiques sur les
variables initiales et qui ont donc des notes en facteur identiques sur les 4 facteurs pris en compte qui
sont fusionnes : do une perte dinertie < 0,00.

64

Rafael Costa et Godelieve Masuy-Stroobant


Regroupement des classes

3. Le nombre de groupes retenir


Cest partir de ce tableau qua t cre la figure 1 retraant la perte dinformation
rsultant de chaque regroupement additionnel30. Celui-ci met en vidence un saut
important de perte additionnelle dinformation lorsquon passe de ltape 1435 (5
groupes) ltape 1435 (4 groupes). Le Dendrogramme des 20 fusions terminales est une
faon plus complte de reprsenter le processus de regroupement : son observation
confirme bien entendu le saut important de perte dinformation additionnelle lors du
passage de 5 4 groupes. Cest donc sur base de ce critre quil a t dcid darrter le
processus de regroupement ltape 1435 et de conserver 5 groupes.
Une partition en 5 groupes implique une perte dinformation de 2886,38231, ce qui
reprsente 49,8% de linertie initiale avant toute fusion : cette inertie totale correspond
au cumul des pertes dinformations occasionnes par chaque regroupement depuis le
dbut du processus jusquau regroupement total en un seul groupe final (total cumul =
5796,545).
De faon complmentaire, une perte dinformation de 49,8%

30
31

Ce graphique a t cr sur Excel partir des donnes exportes de SPSS.


Cette inertie est calcule selon la formule de Ward qui sapparente la variance (cf. chapitre 8 du Manuel).
65

Pratique de lanalyse des donnes


(288,382/5796,545=0,498) veut dire que regrouper les 1440 units de dpart en 5
groupes permet de conserver (1-0,498=0,502) 50,2% de linformation initiale.
Figure 1 : Graphe de la perte dinertie due chaque groupement additionnel

Dendrogramme32 des 20 fusions terminales

32 La construction dun dendrogramme se fait en rfrence au processus de fusion, mais doit respecter un
ordonnancement prcis des units danalyse figurant (de faon peu lisible ici) gauche du dendrogramme.
Quand un nombre rduit dunits danalyse est trait (comme par exemple, les 43 arrondissements
administratifs en Belgique) les logiciels prcisent linformation sur la faon de placer ces units lors de la
construction du dendrogramme.

66

Rafael Costa et Godelieve Masuy-Stroobant

4. Description de la typologie en 5 groupes


Aprs avoir choisi le nombre de groupes retenir, il faut relancer lanalyse sur SPSS afin
didentifier lappartenance des units dobservation leur groupe. Cela sopre via la
cration dune nouvelle variable qui compte autant de modalits que le nombre de groupes
retenus. Il s'agit d'une variable quantitative nominale, qui a un nom par dfaut du type
CLU5_1 et qui sajoute la base de donnes.
C'est l'aide de cette nouvelle variable quil est possible de dcrire les groupes: il suffit pour
cela de raliser des analyses bivaries entre, d'une part, la nouvelle variable nominale et,
d'autre part, les variables que l'on souhaite analyser l'intrieur des groupes (tableau 6).
Tableau 6
Une typologie en 5 groupes en fonction des 6 variables actives initiales
Variable

Groupes

Modalit

Sexe

Masculin
Fminin

Classe d'ge

De 18 24 ans
De 25 44 ans
De 45 64 ans
65 ans ou plus

0,3
10,1
24,4
65,2

2,6
58,2
35,8
3,5

0,8
30,5
54,7
14,1

0,0
61,8
36,9
1,3

90,2
2,8
4,9
2,1

10,1
37,6
31,5
20,9

Niveau du diplme

Primaire ou infrieur
Secondaire infrieur
Secondaire suprieur
Postsecondaire suprieur

46,0
17,7
16,9
19,4

4,9
10,9
34,4
49,7

38, 9
26,2
24,6
10,3

1,8
14,6
53,5
30,1

7,8
25,5
66,0
0,7

19,0
16,2
34,8
30,0

Appartenance la Belgique

Jamais
Rarement
De temps en temps
Souvent
Tout le temps

1,8
0,8
3,0
23,7
70,7

4,4
3,8
23,2
23,2
45,3

11,0
7,1
22,1
13,4
46,5

10,7
9,3
11, 6
32, 9
35, 6

21,8
4,2
13,4
21,8
38,7

7,0
4,2
14,8
23,9
50,3

Pas du tout confiance


Peu confiance
Confiance moyenne
Grande confiance
Confiance totale

2,5
30,0
52,8
10,2
4,6

1,7
9,7
67,6
19,6
1,5

81,1
15,0
3,2
0,8
0,0

2,2
49,6
48,2
0,0
0,0

4,9
34,5
45,8
12,0
2,8

9,4
24,4
52,6
11,5
2,1

Pas du tout daccord


Plutt pas daccord
Plutt daccord
Tout fait daccord

26,2
33,2
30,3
10,4
396

11,9
16,5
59,8
11,9
549

77,3
15,6
7,0
0,0
128

10,0
81,0
9,1
0,0
225

22,9
32,1
37,9
7,1
143

22,5
32,6
36,9
8,1
1440

F moyen

0,708

0,614

0,602

0,412

0,816

t moyen

0,070

0,342

-0,142

-0,125

-0,919

Vous arrive-t-il de vous sentir belge ?

Confiance dans ltat belge


Dans l'tat belge, avez-vous ...

Confiance dans les mcanismes


dmocratiques belges
En Belgique, il est ais de se faire entendre
lorsqu'on n'est pas d'accord avec la manire dont
les choses se passent

2
64,1
35,9

3
60,9
39,1

4
20,9
79,1

5
53,1
46,9

Total

1
33,8
66,2

Lgende : les modalits dont la frquence est sensiblement suprieure la frquence moyenne sont mises
en vidence : elles sont encadres quand elles sont suprieures au double de la frquence moyenne et en
grasses quand elles se situent entre 1,25 et 1,75 fois la frquence moyenne.

Les principales caractristiques des 5 groupes retenus sont prsentes au tableau 6. Cest
en comparant les distributions de frquence des modalits des variables dun groupe

67

47,6
52,4

Pratique de lanalyse des donnes


lautre, et par rapport la frquence gnrale, quune typologie de lattachement la
Belgique pourra tre tablie. Les tests t et F dhomognit des groupes ainsi que leur
taille figurent au bas du tableau.
La moyenne (calcule sur lensemble des variables de chaque classe) des tests
dhomognit F et t (calculs partir des notes en facteurs) indiquent que les 5 groupes
sont bien constitus : ils reprsentent bien de sous-ensembles homognes qui diffrent les
uns des autres. En effet, toutes les valeurs des tests F sont infrieures 1, ce qui indique
que les variances entre les groupes sont suprieures aux variances internes aux groupes.
Notons cependant que certains groupes sont plus homognes que dautres. Ainsi, la
valeur moyenne du test t du groupe 1 est plus proche de 0 que celle du groupe 5, ce
dernier tant plus homogne.
En isolant les modalits dont la frquence scarte trs fort de leur frquence moyenne,
on peut tenter desquisser une typologie des personnes observes par lenqute Capital
social dans lunivers des variables considres ici :
1. Le type 1 est plutt fminin (66%) et concentre la plupart dindividus gs (65% ont
65 ans ou plus) et peu instruits (prs de la moiti a le niveau primaire ou infrieur).
Cette classe se distingue par un fort sentiment dappartenance la Belgique : 70% des
individus se sentent tout le temps belge.
2. Le type 2 est le plus important avec 549 individus. Il est plutt masculin (64%) et se
compose de jeunes adultes (58% sont gs de 25 44 ans) ayant un niveau
dinstruction lev (50% postsecondaire suprieur et 35% sont diplms du
secondaire suprieur et 50% du suprieur). Ils ont plus confiance dans ltat belge et
ses mcanismes dmocratiques que la moyenne de lchantillon, mais leur sentiment
dappartenance la Belgique est proche de la moyenne gnrale.
3. Le type 3 ne compte que 128 individus. Il sagit majoritairement dhommes (60%)
gs de 45 64 ans (54%). Ils se sentent un peu moins souvent belges que les types 1
et 2, mais ce qui les distingue cest leur manque de confiance dans ltat belge (80%
nont pas du tout confiance) et dans les mcanismes dmocratiques (77% estiment
quil nest pas du tout ais de se faire entendre ).
4. Le type 4 est rsolument fminin (80%) et surtout compos de jeunes adultes (62%
sont gs de 25 44 ans), plutt instruits (83% ont au minimum un diplme du
secondaire suprieur). linstar du type 3, le type 4 se caractrise par un manque de
confiance dans les institutions, bien que les opinions soient moins tranches (ce sont
les catgories Peu confiance et Plutt pas daccord qui sont majoritaires). Leur
sentiment dappartenance la Belgique est un peu moins fort que ce que manifestent
les types prcdents, mais lexception des positions extrmes, ne sloigne pas trop
de la moyenne gnrale.
5. Le type 5 concentre les plus jeunes (90% ont entre 18 et 24 ans), qui ont, pour la
plupart, un niveau dinstruction lev (66% de diplms du secondaire suprieur).
Leur sentiment dappartenance la Belgique est particulirement faible (22% dentre
eux ne se sentent jamais belge ), alors que leur confiance dans ltat belge et ses
mcanismes dmocratiques est assez proche de la moyenne.

68

Rafael Costa et Godelieve Masuy-Stroobant


En bref, lanalyse de classification confirme tout en la prcisant lesquisse de typologie
labore lors de linterprtation des proximits des modalits des variables actives sur le
premier plan de lAFCM.
Comme la variable Classe ou Type est une nouvelle variable produite par lanalyse
de classification, il est aussi possible denrichir lanalyse du comportement des classes
constitues partir des variables actives en croisant la variables Classe avec dautres
variables dattitude ou dopinion disponibles dans la base de donnes.
Syntaxe : Analyse de classification (enregistrement dune variable regroupant les observations
en 5 groupes)
Variables : AFCM_dimension1, AFCM_dimension2, AFCM_dimension3 et AFCM_dimension4
CLUSTER AFCM_dimension1 AFCM_dimension2 AFCM_dimension3 AFCM_dimension4
/METHOD WARD
/MEASURE=SEUCLID
/PRINT SCHEDULE
/PLOT DENDROGRAM VICICLE
/SAVE CLUSTER(5).

69

Pratique de lanalyse des donnes

9
Analyse multivarie
Rgression multiple
La rgression simple ralise au chapitre 4 a rvl un effet significatif de lattachement
la Belgique sur le rle que les individus estiment jouer dans la socit.
La question de recherche traite ici est :
Leffet de l Attachement la Belgique sur la perception du Rle jou dans la socit
se modifie-t-il quand on contrle le Niveau dinstruction ?

1. La variable dpendante et les variables indpendantes


Comme la variable dpendante est une variable quantitative et quil sagit de traiter plus
dune variable indpendante pour en expliquer la variation, la rgression linaire
multiple simpose. Les trois variables du modle sont ds lors : lindicateur composite de
la perception du Rle jou dans la socit (variable dpendante : rolesoc_acp),
lindicateur composite d Attachement la Belgique (variable indpendante
principale : attachbe_acp) et le Nombre dannes dtudes (variable indpendante
contrler : annees_instruc). noter que les indicateurs de perception du Rle jou
dans la socit et d Attachement la Belgique ont t construits partir dune
Analyse en composantes principale (ACP) (chapitre 6), dont ils constituent chaque fois
la premire composante. Il sagit donc de variables standardises de moyenne = 0 et de
variance = 1 (Manuel, encadr 7, chapitre 9)33.

2. Deux modles comparer


Comme SPSS offre la possibilit dintroduire les variables indpendantes dans le modle
selon un ordre donn, deux modles successifs ont t estims : le premier avec la

33 Les indicateurs du mme nom traits dans lapplication de la rgression simple et du coefficient de
corrlation (chapitre 5), ont t obtenus en sommant les scores correspondant aux items de rponses aux
mmes variables initiales de sentiment dattachement et de perception. On se rappellera que les deux modes
de construction de ces indicateurs (somme des scores et ACP) donnent des rsultats similaires.

70

Rafael Costa et Godelieve Masuy-Stroobant


variable indpendante principale et le second auquel la variable contrler (niveau
dinstruction) a t ajoute.
o Modle 1 : rolesoc _ acp = a + (b1 attachbe _ acp)
o Modle 2 : rolesoc _ acp = a + (b1 attachbe _ acp) + (b2 annees _ instruc )
Le tableau Rcapitulatif des modles rvle une importante augmentation du R2 lorsquon
introduit la variable Nombre dannes dtudes : le modle 1 rend compte de 7,3% de
la variation de la variable dpendante, alors que, globalement, le modle 2 rend compte
de 13,2% de la variance de la variable dpendante. Le test F, quant lui (tableau
ANOVA), est significatif pour les deux modles. noter que SPSS produit galement un
R ajust qui tient compte du nombre de variables indpendantes incluses dans les
modles et offre, de ce fait, une meilleure comparaison de leur pouvoir explicatif. Dans ce
cas, il y a trs peu de diffrences entre les R bruts et ajusts.

71

Pratique de lanalyse des donnes


Les coefficients estims pour les deux modles sont prsents dans un mme tableau : le
tableau Coefficients :
o La rgression simple (modle 1 : analyse bivarie) suggre une association positive
et significative (p<0 ,001) entre lattachement la Belgique et la perception du
rle jou dans la socit, comme ctait le cas de lanalyse bivarie prsente au
chapitre 5. noter que comme les deux variables en prsence sont standardises
(parce quissues dune ACP), lintercept est trs proche de 0, dont il ne diffre pas
significativement.
o La rgression multiple (modle 2) indique que le niveau dinstruction a un
impact positif et significatif sur la variable indpendante : ainsi, toutes choses
gales par ailleurs, une anne dtudes supplmentaire impliquerait une
augmentation de 0,06 de lindicateur composite du rle dans la socit.
Simultanment on observe un trs lger changement de la valeur du coefficient
de rgression partiel de la variable perception du rle jou dans la socit qui
passe de 0,271 0,249, tout en restant trs significatif. Lintroduction dune
variable non standardise comme le nombre dannes dtudes amne lintercept
avoir une valeur qui diffre de 0 et qui ici est trs significative (p<0,001).

o partir des valeurs R2 obtenus pour les deux modles de rgression, il est possible
de raliser un test conjoint F (voir chapitre 4). Ce test permet de comparer, dune
part, le modle complet contenant toutes les variables et, dautre part, le modle
ne contenant que la variable indpendante d Attachement la Belgique . Le
test est statistiquement significatif (p < 0,0001)34, ce qui indique que linclusion de
la variable ge amliore le modle de manire significative.
o Comme toutes les variables ne sont pas standardises, les coefficients b1 et b2 ne
sont pas directement comparables. Les deux variables indpendantes ont, en effet,
des domaines de variation trs diffrents : lindicateur d Attachement la
Belgique est une mesure standardise dont les valeurs varient de 3 et +3, avec
une moyenne 0, alors que le nombre dannes dtudes se mesure ici en annes
entires et varie de 0 28. Pour comparer leffet de ces deux variables, il faut se
baser sur les coefficients de rgression standardiss 1 et 2 qui ont des valeurs
trs proches ici avec 1 = 0,25 et 2 = 0,24.
La valeur F avec 1 et 1372 degrs de libert est de 91,57. Le calcul de ce test est dtaill dans le chapitre 4
du Manuel.
34

72

Rafael Costa et Godelieve Masuy-Stroobant


o En comparant le changement de valeur des coefficients de rgression standardiss
de la variables Attachement la Belgique lors du passage de lanalyse bivarie
(modle 1) au modle multivari, on observe que cet effet passe de 0,27 0,25
lors de la prise en compte du Nombre dannes dtudes . Cette faible perte
deffet est due lassociation (faiblement) positive qui a t observe
prcdemment entre ces deux variables indpendantes (chapitre 5).

3. Introduction dune variable qualitative


Il est possible dinclure des variables nominales dans un modle de rgression,
condition de les recoder en codage binaire signifiant la prsence (code 1) ou labsence de
la caractristique (code 0) (voir Manuel, encadr 6, chapitre 9). Si la variable comporte un
nombre important de modalits, il faut tenir compte du fait que le codage binaire des
modalits aura comme consquence lajout de n1 variables indpendantes dans le
modle de rgression, si n est le nombre de modalits de cette variable. La modalit omise
est celle qui servira de rfrence linterprtation des coefficients de rgression.
La variable binaire Sexe a t ajoute (modle 3) la rgression. Cette variable compte
2 modalits et comme les femmes ont t codes 1, le coefficient de rgression de la
variable Sexe qui concerne les seules femmes, sinterprte en rfrence aux hommes
(modalit omise) qui sont cods 0.

Globalement, la prise en compte de la variable Sexe (tableau Coefficients, modle 3)


bien que tout juste significative (p=0,05), napporte que peu dexplication additionnelle
la perception du Rle jou dans la socit (le R et le R ajust passent de 13,2%
13,3%) (tableau non prsent ici). Cette variable ne modifie gure les coefficients (les
effets) des deux autres variables indpendantes. Tout au plus peut-on remarquer que, par

73

Pratique de lanalyse des donnes


rfrence aux hommes de mme degr dattachement la Belgique et de mme niveau
dinstruction, les femmes ont une perception moindre (coefficients b et sont ngatifs)
du rle quelles jouent dans la socit. On ne tiendra donc pas compte de cette variable
par la suite.

4. Vrification du respect des conditions dapplication dune rgression


La confrontation de lhistogramme des frquences des rsidus avec la loi normale
correspondante (Histogramme) permet daccepter lhypothse dune distribution normale
des rsidus.

Aucune forme particulire ne se dgage de lexamen du diagramme de dispersion (Nuage


de points) associant la valeur estime de la dpendante et les rsidus (ce qui nest pas
expliqu par le modle 2 variables), ce qui permet aussi de conclure
lhomoscdasticit des rsidus.

74

Rafael Costa et Godelieve Masuy-Stroobant

Syntaxe : rgression multiple


Variable dpendante : rolesoc_acp ; variable indpendante ajoute au premier modle :
attachbe_acp ; variable indpendante ajoute au second modle : annees_instruc
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT rolesoc_acp
/METHOD=ENTER attachbe_acp
/METHOD=ENTER annees_instruc
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HISTOGRAM(ZRESID).

75

Pratique de lanalyse des donnes

10
Analyse multivarie
Rgression logistique
La question recherche analyse ici est :
Y a-t-il une relation entre sentiment dappartenance et participation politique ?
Le sentiment dappartenance la Belgique augmente-t-il les chances daller toujours voter
si les lections ntaient plus obligatoires ?

1. La variable dpendante et les variables indpendantes


La variable dpendante Participation politique se rfre la question Mme si le vote
n'tait plus obligatoire en Belgique, iriez-vous toujours voter aux lections lgislatives ? . Il sagit
dune variable dichotomique code 1 pour les personnes qui iraient toujours voter et
0 pour lensemble des autres. Avec une dpendante dichotomique, cest la rgression
logistique qui est privilgie.
La variable indpendante principale est le sentiment d Appartenance la Belgique en
rponse la question Vous arrive-t-il de vous sentir belge ? , qui comporte 5
modalits ordonnes : Jamais , Rarement , De temps en temps , Souvent , Tout
le temps (appartbe).
Le Niveau de diplme (variable qualitative) et l ge (variable quantitative) ont tous
deux le statut de variables de contrle (ou de confusion).

2. Les modles
Trois modles ont t estims. Le modle 0 inclut la seule constante : il servira estimer
la variance expliquer. Le modle 1 ninclut que la variable indpendante principale, afin
den estimer leffet brut. Enfin, le modle 2 tient compte galement des deux variables de
contrle.
Les trois modles se prsentent comme suit :
Modle 0 : ln (p 1 p) =
Modle 1 : ln (p 1 p ) = + (1 appartb e )
Modle 2 : ln(p 1 p) = + (1 appartbe) + ( 2 diplome) + (3 age )

76

Rafael Costa et Godelieve Masuy-Stroobant

3. La prparation des donnes


Quand on ralise une rgression logistique avec SPSS, il faut choisir la modalit de
rfrence de chacune des variables indpendantes qualitatives. Celles-ci sont recodes
automatiquement par le logiciel : il sagit dune transformation des variables nominales
en autant de variables dichotomiques quelle comptent de modalits sauf une. Cest cette
modalit omise qui servira de rfrence lors de linterprtation des coefficients ou des
OR (Odds ratios).
Cette transformation est rsume au tableau Codages des variables nominales :
o Pour le niveau de diplme, la modalit Primaire ou infrieur a t choisie comme
modalit de rfrence. Ceci est indiqu par la prsence de 0,00 dans toutes les
colonnes Codage des paramtres du tableau ci-dessous. Cest donc en rfrence
cette modalit omise de la rgression - que seront interprts les OR (ou les
coefficients ) des autres modalits de la variable niveau de diplme. Les autres
modalits de la variable niveau de diplme sont transformes en variables
dichotomiques, comme lindiquent les valeurs 1,000 dans les colonnes (1) (3) du
tableau en regard des modalits conserves du niveau de diplme.
o Pour la variable sentiment dappartenance la Belgique, la modalit Jamais a t
choisie comme rfrence et les autres modalits ont t recodes en variables
dichotomiques en suivant la mme logique que pour le niveau de diplme.

4. Les rsultats
Contrairement la rgression multiple, lorsquon ralise une rgression logistique sur
SPSS, les rsultats de lestimation des diffrents modles sont prsents sparment.
4.1. Le modle 0 avec la seule constante.
SPSS cre par dfaut un premier modle ne contenant que la seule constante. Les
rsultats de lapplication de ce modle ne sont pas dtaills ici, mais on retiendra que la
statistique -2lnL (indique ci-aprs comme -2log de vraisemblance, tableau Historique des
itrations) est de 1955,409. Cette statistique sert essentiellement valuer le pouvoir
explicatif des variables indpendantes qui seront introduites dans les modles successifs :

77

Pratique de lanalyse des donnes


une diminution du -2lnL indique que linclusion dune variable supplmentaire
contribue diminuer la variance expliquer.

Le modle 1 une seule variable indpendante mesure leffet brut du sentiment


dappartenance la Belgique. Dans le tableau des Tests de spcification du modle
figurent les statistiques du Khi-deux, ainsi que leurs niveaux de signification. Le test du
Khi-deux tmoigne dun effet significatif au niveau p<0,001 du sentiment dappartenance
la Belgique sur la participation politique.

Le tableau Rcapitulatif des modles signale trois statistiques dvaluation globale du


modle : le -2lnL (-2log de vraisemblance), le R2 de Cox & Snell et le R de Nagelkerke.
Les deux R sont des exemples de pseudo R2. Lobjectif de ces coefficients est de fournir
une mesure quivalente au R2 de la rgression linaire. Comme ils ne reprsentent pas
exactement la variance explique par le modle, ils sont rarement interprts dans la
littrature : on leur prfre gnralement la mesure -2lnL. On observe ici que le modle 1
a un -2lnL diminu en valeur absolue par rapport au -2lnL du modle sans variable
indpendante : il passe en effet dune valeur de 1955,409 1908,934. Ceci confirme
lutilit de la prise en compte de lindicateur dappartenance la Belgique (variable
indpendante) pour expliquer la participation politique (variable dpendante).

78

Rafael Costa et Godelieve Masuy-Stroobant


Le tableau Variables dans lquation35 est certainement le plus intressant : il prsente les
coefficients estims, leur niveau de signification, ainsi que les odds ratio (OR). Les
coefficients de la rgression (la constante et les coefficients associs chaque
modalit de la variable indpendante) figurent dans la colonne (A) ; les erreurs types (ES)
se trouvent dans la colonne suivante. Cest partir de ces valeurs quest calcule la
statistique de Wald qui, des degrs de libert donns (ddl), permet de tester le niveau
de signification des coefficients (Sig.).
o Le niveau de signification global de la variable Appartenance la Belgique
(appartbe) est donn en premier lieu : ici, p<0,001, elle est donc trs significative.
o Suivent les niveaux de signification associs aux diffrentes modalits de la
variable (appartbe) qui signalent si chacune delle exerce un effet significativement
diffrent de celui de la modalit de rfrence, qui est ici, rappelons-le, la rponse
Jamais la question Vous arrive-t-il de vous sentir belge ? . Ici, la modalit
Rarement (appartbe(1)) ne diffre pas significativement de la modalit de
rfrence Jamais (p > 0,05), tandis que toutes les autres modalits ont des p trs
significatifs. Ceci veut dire quon pourrait regrouper les deux modalits
Rarement et Jamais et leur opposer toutes les autres : en dautres termes, il
faut au moins se sentir De temps en temps Belge (appartbe(2)), pour
quaugmente la tendance aller voter, mme si le vote ntait plus obligatoire.
o Le niveau de signification de la constante est lui aussi prcis.
o Enfin, les OR (ou exponentielle des coefficients ), ainsi que lexponentielle de la
constante sont donns en dernire colonne. Comme la modalit Rarement
(appartbe(1)) nest pas significativement diffrente de la modalit de rfrence
Jamais , on ninterprtera pas lOR de 1,55 comme un odds multipli par 1,55
daller voter. Par contre, les OR des autres modalits qui augmentent de 2,44
4,01, mesure que croit le sentiment dtre belge, montrent bien un effet positif
important de cette variable sur lintention daller voter.

Comme les modalits des variables indpendantes ne sont pas documentes dans le tableau cr
par SPSS, il faut retourner au tableau Codage des variables nominales afin de les identifier.
35

79

Pratique de lanalyse des donnes


4.2. Le modle 2 3 variables mesure leffet net du sentiment dappartenance la
Belgique aprs contrle de lge et du niveau de diplme.
o Le Khi-deux est toujours significatif pour ce modle. On observe aussi une
importante augmentation des pseudos R2, et surtout une diminution importante
de la variance rsiduelle signale par un passage de -2lnL de 1908,9 du modle 1
variable indpendante un -2lnL de 1784,97 pour le modle 3 variables.
o Lorsquon inclut les variables de contrle, les OR de toutes les modalits de la
variable appartenance la Belgique diminuent. Leur niveau de signification reste
trs lev partir de la modalit Souvent , mais diminue pour la modalit De
temps en temps et reste non-significative pour la modalit Rarement .
o Le niveau de diplme a un effet trs significatif sur les comportements de vote.
Par rapport aux personnes ayant un niveau Primaire ou infrieur (diplme), les
Secondaire infrieur (diplome(1)) doublent presque lodds daller toujours
voter, les Secondaire suprieur le multiplient par 2,5, tandis que lodds des
Postsecondaire suprieur (diplome(3)) est de 6 fois celui des Primaire ou
infrieur .
o Lge na pas deffet significatif sur lintention de vote, sans doute en raison de
son lien avec le niveau de diplme (voir analyses prcdentes).

80

Rafael Costa et Godelieve Masuy-Stroobant

En bref, la rgression logistique a montr une forte association entre le sentiment


dappartenance la Belgique et la participation politique : plus les individus se sentent
belges, plus il y a des chances quils iraient toujours voter si les lections ntaient pas
obligatoires. Une partie de cette relation passe toutefois par le niveau dinstruction, qui
est fortement associ au comportement de vote : la prise en compte du niveau du diplme
dans le modle attnue leffet du sentiment dappartenance la Belgique, mais celui-ci
reste significatif. Curieusement, lge nexerce pas deffet : on pourrait, dans ce cas-ci, en
tester leffet dans un modle qui ninclut pas le niveau de diplme, pour valuer dans
quelle mesure ces deux variables nexercent pas un effet concurrent sur lintention daller
voter.

Syntaxe : rgression logistique


variable dpendante : toujours_voter ; variable indpendante ajoute au premier modle :
appartbe ; variables indpendantes ajoutes au second modle : dilplome et age.
LOGISTIC REGRESSION VARIABLES toujours_voter
/METHOD=ENTER appartbe
/METHOD=ENTER diplome age
/CONTRAST (diplome)=Indicator(1)
/CONTRAST (appartbe)=Indicator(1)
/PRINT=ITER(1) CI(95)
/CRITERIA=PIN(.05) POUT(.10) ITERATE(20) CUT(.5).

81