Vous êtes sur la page 1sur 7

Lanalyse discriminante

Propos de ce document ....................................................................... 1


Introduction ........................................................................................ 1
La dmarche suivre sous SPSS ............................................................. 2
1. Statistics .................................................................................... 2
2. Classify ...................................................................................... 2
Analyse des rsultats ............................................................................ 3
1. Vrification de lexistence de diffrences entre les sous-groupes. ............ 3
2. Vrification de la validit de ltude. .................................................. 5
3. Estimation des coefficients de la fonction discriminante. ........................ 6
4. Qualit de la reprsentation. ............................................................ 6

Propos de ce document
Ce document a t cr dans le but daider toute personne qui dbute dans SPSS, logiciel
tr puissant mais trs peu sympathique.
Ce document se base sur la version 11.0 Base de SPSS, en version anglaise. La plupart
des exemples sont issus des dictatiels du programme SPSS en lui-mme.
Toutes les remarques, tant sur le fond que sur la forme, sont les bienvenues. Nhsitez
pas me contacter ladresse suivante : <lemoal@lemoal.org> ou venir visiter mon
site internet : http://www.lemoal.org/spss/
Merci.

Introduction
Le but de lanalyse discriminante est dtudier les relations entre une variable qualitative
et un ensemble de variables explicatives quantitatives. Cest une mthode utilise
notamment par les banques pour le scoring
Trois objectifs principaux peuvent tre assigns lanalyse discriminante :
Dterminer les variables explicatives les plus discriminantes vis vis des classes
dtermines
Dterminer quel groupe appartient un individu partir de ses caractristiques
Mais surtout valider une classification ou faire un choix entre plusieurs
classifications pour savoir laquelle est la plus pertinente. Lanalyse discriminante
intervient donc a posteriori dune classification.
Deux conditions sont remplir :
Les variables explicatives doivent tre mtriques
Elles ne doivent pas tre trop corrles entre elles. Cela se vrifie par lobservation
des corrlations entre les variables. Si cest le cas, on peut passer par une analyse
factorielle qui permet de rduire les donnes quelques axes. Ces axes sont, par
proprit, non corrls entre eux.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

La dmarche suivre sous SPSS


Aller dans Analyse > Classify > Discriminant La bote de dialogue suivante apparat
alors :

Dans Grouping Variable (i.e. les critre de regroupement), il faut indiquer la variable
expliquer en la slectionnant dans la partie de droite puis en cliquant sur la flche qui
pointe vers la droite. SPSS demande alors de dfinir lintervalle, cest--dire les
diffrentes modalits que la variable peut prendre.
Dans Independents (i.e. les variables explicatives), il faut indiquer les variables
mtriques que lon souhaite intgrer lanalyse. Il est important de choisir Use
stepwise method (i.e. la mthode pas pas).
Trois options soffrent alors nous : Statistics , Method et Classify . On ne
touchera pas aux diffrentes options de Mthod

1. Statistics
La bote de dialogue Discriminant Analysis : Statistics apparat.

Dans la bote qui apparat, il convient de cocher Means (moyennes), Univariate


ANOVAs (ANOVA 1 facteur) et Boxs M (Test de Box) dans Descriptives et
Fischers ainsi que Unstandardized dans Function Coefficients .

2. Classify
La bote de dialogue Discriminant Analysis : Classification apparat.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Dans la bote qui apparat, il convient de cocher Summary Table (option qui permet
laffichage de la matrice de confusion) et Leave-one-out classification dans
Display .

Analyse des rsultats


Une analyse discriminante se droule en 3 tapes :
1. On vrifie lexistence de diffrences entre les groupes.
2. On valide ltude.
3. On vrifie le pouvoir discriminant des axes.
4. On juge la qualit de la reprsentation du modle.
La 3 me tape peut tre passe dans la plupart des cas.

1. Vrification de lexistence de diffrences entre les sousgroupes.


On vrifie sil existe bien des diffrences entre les groupes grce trois indicateurs : la
moyenne ou la variance, le test du F et le Lambda de Wilks. Ils sinterprtent de la faon
suivante :
En cas dinfluence

En absence dinfluence

Moyenne ou variance

Diffrence

Similitude

Test du F

F lev

F faible

Sig F tend vers 0,000

SIG F >= 0,01 ou 0,05

<= 0,90

Tend vers 1

Lambda de Wilks

Cette premire analyse permet de dterminer quelles sont les variables qui sont les plus
discriminantes entre les groupes.
Les moyennes et cart-types sobservent dans le tableau Group Statistics . Les
variables Years with current employes , Years at current adress , Debt to income
ration et Credit card debt dans lexemple ci-dessous semblent tre les variables les
plus discriminantes.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Group Statistics

Previously defaulted
No

Yes

Total

Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands
Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands
Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands

Valid N (listwise)
Unweighted
Weighted
517
517,000
517
517,000

Mean
35,5145
1,6596

Std. Deviation
7,70774
,90443

9,5087

6,66374

517

517,000

8,9458

7,00062

517

517,000

47,1547

34,22015

517

517,000

8,6793

5,61520

517

517,000

1,2455

1,42231

517

517,000

2,7734
33,0109
1,9016

2,81394
8,51759
,97279

517
183
183

517,000
183,000
183,000

5,2240

5,54295

183

183,000

6,3934

5,92521

183

183,000

41,2131

43,11553

183

183,000

14,7279

7,90280

183

183,000

2,4239

3,23252

183

183,000

3,8628
34,8600
1,7229

4,26368
7,99734
,92821

183
700
700

183,000
700,000
700,000

8,3886

6,65804

700

700,000

8,2786

6,82488

700

700,000

45,6014

36,81423

700

700,000

10,2606

6,82723

700

700,000

1,5536

2,11720

700

700,000

3,0582

3,28755

700

700,000

Le test du F et du Lambda de Wilks sobserve dans le tableau Tests of Equality of Group


Means .
Lexamen du F dans notre exemple nous confirme que ce sont bien les variables Years
at current address , Credit card debt in thousands , Years with current employer ,
et Debt to income ratio (x100) qui sont les plus discriminantes.
De plus, daprs le test du Lambda de Wilks, seule la variable Debt to income ratio
(x100) semble avoir une influence.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Tests of Equality of Group Means

Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands

Wilks'
Lambda
,981
,987

F
13,482
9,301

,920

df1
1
1

df2
698
698

Sig.
,000
,002

60,759

698

,000

,973

19,402

698

,000

,995

3,533

698

,061

,848

124,889

698

,000

,940

44,472

698

,000

,979

15,142

698

,000

2. Vrification de la validit de ltude.


On estime la validit dune analyse discriminante partir de indicateurs :

Le test de Box.

La corrlation globale.

Le Lambda de Wilks.

On observe le test de Box grce au tableau Test Results .


Test Results
Box's M
F

Approx.
df1
df2
Sig.

364,962
36,182
10
552413,8
,000

Tests null hypothesis of equal population covariance matrices.

Le M doit tre le plus lev possible. La significativit du test de F doit tendre vers 0. Sil
est suprieur 0,05, lanalyse nest pas valide.
La corrlation globale se mesure quant elle se retrouve dans le tableau Eigenvalues
(Valeurs propres).
Eigenvalues
Function
1

Eigenvalue % of Variance
,395a
100,0

Cumulative %
100,0

Canonical
Correlation
,532

a. First 1 canonical discriminant functions were used in the


analysis.

On observe notamment la colonne Canonical Correlation (Corrlation Canonique).


Plus elle est proche de 1, meilleur est le modle.
Le Lambda de Wilks sobserve quant lui dans le tableau Wilks Lambda .

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Wilks' Lambda
Test of Function(s)
1

Wilks'
Lambda
,717

Chi-square
231,524

df
4

Sig.
,000

Plus la valeur du Lambda de Wilks (deuxime colonne) est faible, plus le modle est bon.
On observe galement sa significativit : plus elle est tend vers 0, meileur, plus le
modle est bon.

3. Estimation des coefficients de la fonction discriminante.


On observe le pouvoir discriminant des axes grce au tableau Canonical Discriminant
Function Coefficients .
Canonical Discriminant Function Coefficients
Function
1
Years with current
employer
Years at current address
Debt to income ratio
(x100)
Credit card debt in
thousands
(Constant)

-,120
-,037
,075
,312
,058

Unstandardized coefficients

Ce tableau permet dobtenir la fonction discriminante. Dans notre exemple, la fonction


est gale :
0,058 0,12*(Years with current employer) 0,037*(Years at current adress) +
0,075*(Debet to income ratio) + 0,312*(Credit card ddebt in thousands)

4. Qualit de la reprsentation.
on observe la qualit de la reprsentation : on sassure que la fonction discriminante
classifie bien les individus en sous-groupes. Pour cela, on analyse la matrice de confusion
qui regroupe les individus bien classs et les mal classs :
Groupes prvus (ou thoriques)

Groupes
rels (ou
observs)

Groupe
1

Groupe 2

Total

Groupe 1

22

26

Groupe 2

18

22

Total

26

22

48

Ainsi, dans notre exemple, 22 lments du groupe 1 ont t bien reclasss grce la
fonction discriminante et 4 lont mal t. De mme, pour le groupe 2, 4 individus ont t
mal reclasss et 18 bien reclasss. Au total, cest donc 40 individus (22 + 18) qui ont t
correctement reclasss soit 83% de russite (40 / 48 = 83%).
Sous SPSS, la matrice de confusion sobserve dans le tableau Classification Results .

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Classification Resultsb,c

Original

Count

Cross-validated a

Count
%

Previously defaulted
No
Yes
Ungrouped cases
No
Yes
Ungrouped cases
No
Yes
No
Yes

Predicted Group
Membership
No
Yes
391
126
42
141
96
54
75,6
24,4
23,0
77,0
64,0
36,0
391
126
43
140
75,6
24,4
23,5
76,5

Total
517
183
150
100,0
100,0
100,0
517
183
100,0
100,0

a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that
case.
b. 76,0% of original grouped cases correctly classified.
c. 75,9% of cross-validated grouped cases correctly classified.

La note (b.) nous indique le pouvoir de reclassement de la fonction discriminante, ici


76,0%. On peut retrouver ce chiffre en additionnant les observations bien reclasses (ici
398 et 138 soit un total de 536) et en les divisant par le nombre total dobservations
classes (dans le cas prsent 700 soit 517 + 183)
Il existe une dernire tape qui consiste observer les mal-classs et savoir si cest d
un atypisme ou une dfaillance de la fonction discriminante. Sil sagit dun atypisme, il
convient de les enlever et de recommencer ltude.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Vous aimerez peut-être aussi