Académique Documents
Professionnel Documents
Culture Documents
L'Analyse Discriminante Sous SPSS
L'Analyse Discriminante Sous SPSS
Propos de ce document
Ce document a t cr dans le but daider toute personne qui dbute dans SPSS, logiciel
tr puissant mais trs peu sympathique.
Ce document se base sur la version 11.0 Base de SPSS, en version anglaise. La plupart
des exemples sont issus des dictatiels du programme SPSS en lui-mme.
Toutes les remarques, tant sur le fond que sur la forme, sont les bienvenues. Nhsitez
pas me contacter ladresse suivante : <lemoal@lemoal.org> ou venir visiter mon
site internet : http://www.lemoal.org/spss/
Merci.
Introduction
Le but de lanalyse discriminante est dtudier les relations entre une variable qualitative
et un ensemble de variables explicatives quantitatives. Cest une mthode utilise
notamment par les banques pour le scoring
Trois objectifs principaux peuvent tre assigns lanalyse discriminante :
Dterminer les variables explicatives les plus discriminantes vis vis des classes
dtermines
Dterminer quel groupe appartient un individu partir de ses caractristiques
Mais surtout valider une classification ou faire un choix entre plusieurs
classifications pour savoir laquelle est la plus pertinente. Lanalyse discriminante
intervient donc a posteriori dune classification.
Deux conditions sont remplir :
Les variables explicatives doivent tre mtriques
Elles ne doivent pas tre trop corrles entre elles. Cela se vrifie par lobservation
des corrlations entre les variables. Si cest le cas, on peut passer par une analyse
factorielle qui permet de rduire les donnes quelques axes. Ces axes sont, par
proprit, non corrls entre eux.
Dans Grouping Variable (i.e. les critre de regroupement), il faut indiquer la variable
expliquer en la slectionnant dans la partie de droite puis en cliquant sur la flche qui
pointe vers la droite. SPSS demande alors de dfinir lintervalle, cest--dire les
diffrentes modalits que la variable peut prendre.
Dans Independents (i.e. les variables explicatives), il faut indiquer les variables
mtriques que lon souhaite intgrer lanalyse. Il est important de choisir Use
stepwise method (i.e. la mthode pas pas).
Trois options soffrent alors nous : Statistics , Method et Classify . On ne
touchera pas aux diffrentes options de Mthod
1. Statistics
La bote de dialogue Discriminant Analysis : Statistics apparat.
2. Classify
La bote de dialogue Discriminant Analysis : Classification apparat.
Dans la bote qui apparat, il convient de cocher Summary Table (option qui permet
laffichage de la matrice de confusion) et Leave-one-out classification dans
Display .
En absence dinfluence
Moyenne ou variance
Diffrence
Similitude
Test du F
F lev
F faible
<= 0,90
Tend vers 1
Lambda de Wilks
Cette premire analyse permet de dterminer quelles sont les variables qui sont les plus
discriminantes entre les groupes.
Les moyennes et cart-types sobservent dans le tableau Group Statistics . Les
variables Years with current employes , Years at current adress , Debt to income
ration et Credit card debt dans lexemple ci-dessous semblent tre les variables les
plus discriminantes.
Group Statistics
Previously defaulted
No
Yes
Total
Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands
Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands
Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands
Valid N (listwise)
Unweighted
Weighted
517
517,000
517
517,000
Mean
35,5145
1,6596
Std. Deviation
7,70774
,90443
9,5087
6,66374
517
517,000
8,9458
7,00062
517
517,000
47,1547
34,22015
517
517,000
8,6793
5,61520
517
517,000
1,2455
1,42231
517
517,000
2,7734
33,0109
1,9016
2,81394
8,51759
,97279
517
183
183
517,000
183,000
183,000
5,2240
5,54295
183
183,000
6,3934
5,92521
183
183,000
41,2131
43,11553
183
183,000
14,7279
7,90280
183
183,000
2,4239
3,23252
183
183,000
3,8628
34,8600
1,7229
4,26368
7,99734
,92821
183
700
700
183,000
700,000
700,000
8,3886
6,65804
700
700,000
8,2786
6,82488
700
700,000
45,6014
36,81423
700
700,000
10,2606
6,82723
700
700,000
1,5536
2,11720
700
700,000
3,0582
3,28755
700
700,000
Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands
Wilks'
Lambda
,981
,987
F
13,482
9,301
,920
df1
1
1
df2
698
698
Sig.
,000
,002
60,759
698
,000
,973
19,402
698
,000
,995
3,533
698
,061
,848
124,889
698
,000
,940
44,472
698
,000
,979
15,142
698
,000
Le test de Box.
La corrlation globale.
Le Lambda de Wilks.
Approx.
df1
df2
Sig.
364,962
36,182
10
552413,8
,000
Le M doit tre le plus lev possible. La significativit du test de F doit tendre vers 0. Sil
est suprieur 0,05, lanalyse nest pas valide.
La corrlation globale se mesure quant elle se retrouve dans le tableau Eigenvalues
(Valeurs propres).
Eigenvalues
Function
1
Eigenvalue % of Variance
,395a
100,0
Cumulative %
100,0
Canonical
Correlation
,532
Wilks' Lambda
Test of Function(s)
1
Wilks'
Lambda
,717
Chi-square
231,524
df
4
Sig.
,000
Plus la valeur du Lambda de Wilks (deuxime colonne) est faible, plus le modle est bon.
On observe galement sa significativit : plus elle est tend vers 0, meileur, plus le
modle est bon.
-,120
-,037
,075
,312
,058
Unstandardized coefficients
4. Qualit de la reprsentation.
on observe la qualit de la reprsentation : on sassure que la fonction discriminante
classifie bien les individus en sous-groupes. Pour cela, on analyse la matrice de confusion
qui regroupe les individus bien classs et les mal classs :
Groupes prvus (ou thoriques)
Groupes
rels (ou
observs)
Groupe
1
Groupe 2
Total
Groupe 1
22
26
Groupe 2
18
22
Total
26
22
48
Ainsi, dans notre exemple, 22 lments du groupe 1 ont t bien reclasss grce la
fonction discriminante et 4 lont mal t. De mme, pour le groupe 2, 4 individus ont t
mal reclasss et 18 bien reclasss. Au total, cest donc 40 individus (22 + 18) qui ont t
correctement reclasss soit 83% de russite (40 / 48 = 83%).
Sous SPSS, la matrice de confusion sobserve dans le tableau Classification Results .
Classification Resultsb,c
Original
Count
Cross-validated a
Count
%
Previously defaulted
No
Yes
Ungrouped cases
No
Yes
Ungrouped cases
No
Yes
No
Yes
Predicted Group
Membership
No
Yes
391
126
42
141
96
54
75,6
24,4
23,0
77,0
64,0
36,0
391
126
43
140
75,6
24,4
23,5
76,5
Total
517
183
150
100,0
100,0
100,0
517
183
100,0
100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that
case.
b. 76,0% of original grouped cases correctly classified.
c. 75,9% of cross-validated grouped cases correctly classified.