L'Analyse Discriminante Sous SPSS

Lanalyse discriminante
Propos de ce document ....................................................................... 1

Introduction ........................................................................................ 1
La dmarche suivre sous SPSS ............................................................. 2
1. Statistics .................................................................................... 2
2. Classify ...................................................................................... 2
Analyse des rsultats ............................................................................ 3
1. Vrification de lexistence de diffrences entre les sous-groupes. ............ 3
2. Vrification de la validit de ltude. .................................................. 5
3. Estimation des coefficients de la fonction discriminante. ........................ 6
4. Qualit de la reprsentation. ............................................................ 6
Propos de ce document
Ce document a t cr dans le but daider toute personne qui dbute dans SPSS, logiciel
tr puissant mais trs peu sympathique.
Ce document se base sur la version 11.0 Base de SPSS, en version anglaise. La plupart
des exemples sont issus des dictatiels du programme SPSS en lui-mme.
Toutes les remarques, tant sur le fond que sur la forme, sont les bienvenues. Nhsitez
pas me contacter ladresse suivante : <lemoal@lemoal.org> ou venir visiter mon
site internet : http://www.lemoal.org/spss/
Merci.
Introduction
Le but de lanalyse discriminante est dtudier les relations entre une variable qualitative
et un ensemble de variables explicatives quantitatives. Cest une mthode utilise
notamment par les banques pour le scoring
Trois objectifs principaux peuvent tre assigns lanalyse discriminante :
Dterminer les variables explicatives les plus discriminantes vis vis des classes
dtermines
Dterminer quel groupe appartient un individu partir de ses caractristiques
Mais surtout valider une classification ou faire un choix entre plusieurs
classifications pour savoir laquelle est la plus pertinente. Lanalyse discriminante
intervient donc a posteriori dune classification.
Deux conditions sont remplir :
Les variables explicatives doivent tre mtriques
Elles ne doivent pas tre trop corrles entre elles. Cela se vrifie par lobservation
des corrlations entre les variables. Si cest le cas, on peut passer par une analyse
factorielle qui permet de rduire les donnes quelques axes. Ces axes sont, par
proprit, non corrls entre eux.
LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002
La dmarche suivre sous SPSS

Aller dans Analyse > Classify > Discriminant La bote de dialogue suivante apparat
alors :
Dans Grouping Variable (i.e. les critre de regroupement), il faut indiquer la variable
expliquer en la slectionnant dans la partie de droite puis en cliquant sur la flche qui
pointe vers la droite. SPSS demande alors de dfinir lintervalle, cest--dire les
diffrentes modalits que la variable peut prendre.
Dans Independents (i.e. les variables explicatives), il faut indiquer les variables
mtriques que lon souhaite intgrer lanalyse. Il est important de choisir Use
stepwise method (i.e. la mthode pas pas).
Trois options soffrent alors nous : Statistics , Method et Classify . On ne
touchera pas aux diffrentes options de Mthod
1. Statistics
La bote de dialogue Discriminant Analysis : Statistics apparat.
Dans la bote qui apparat, il convient de cocher Means (moyennes), Univariate

ANOVAs (ANOVA 1 facteur) et Boxs M (Test de Box) dans Descriptives et
Fischers ainsi que Unstandardized dans Function Coefficients .
2. Classify
La bote de dialogue Discriminant Analysis : Classification apparat.
Dans la bote qui apparat, il convient de cocher Summary Table (option qui permet
laffichage de la matrice de confusion) et Leave-one-out classification dans
Display .
Analyse des rsultats

Une analyse discriminante se droule en 3 tapes :
1. On vrifie lexistence de diffrences entre les groupes.
2. On valide ltude.
3. On vrifie le pouvoir discriminant des axes.
4. On juge la qualit de la reprsentation du modle.
La 3 me tape peut tre passe dans la plupart des cas.
1. Vrification de lexistence de diffrences entre les sousgroupes.

On vrifie sil existe bien des diffrences entre les groupes grce trois indicateurs : la
moyenne ou la variance, le test du F et le Lambda de Wilks. Ils sinterprtent de la faon
suivante :
En cas dinfluence
En absence dinfluence
Moyenne ou variance
Diffrence
Similitude
Test du F
F lev
F faible
Sig F tend vers 0,000
SIG F >= 0,01 ou 0,05
<= 0,90
Tend vers 1
Lambda de Wilks
Cette premire analyse permet de dterminer quelles sont les variables qui sont les plus
discriminantes entre les groupes.
Les moyennes et cart-types sobservent dans le tableau Group Statistics . Les
variables Years with current employes , Years at current adress , Debt to income
ration et Credit card debt dans lexemple ci-dessous semblent tre les variables les
plus discriminantes.
Group Statistics
Previously defaulted
No
Yes
Total
Age in years
Level of education
Years with current
employer
Years at current address
Household income in
thousands
Debt to income ratio
(x100)
Credit card debt in
thousands
Other debt in thousands
Age in years
Level of education
Years with current
employer
Household income in
thousands
(x100)
Credit card debt in
thousands
Age in years
Level of education
Years with current
employer
Household income in
thousands
(x100)
Credit card debt in
thousands
Valid N (listwise)
Unweighted
Weighted
517
517,000
517
517,000
Mean
35,5145
1,6596
Std. Deviation
7,70774
,90443
9,5087
6,66374
517
517,000
8,9458
7,00062
517
517,000
47,1547
34,22015
517
517,000
8,6793
5,61520
517
517,000
1,2455
1,42231
517
517,000
2,7734
33,0109
1,9016
2,81394
8,51759
,97279
517
183
183
517,000
183,000
183,000
5,2240
5,54295
183
183,000
6,3934
5,92521
183
183,000
41,2131
43,11553
183
183,000
14,7279
7,90280
183
183,000
2,4239
3,23252
183
183,000
3,8628
34,8600
1,7229
4,26368
7,99734
,92821
183
700
700
183,000
700,000
700,000
8,3886
6,65804
700
700,000
8,2786
6,82488
700
700,000
45,6014
36,81423
700
700,000
10,2606
6,82723
700
700,000
1,5536
2,11720
700
700,000
3,0582
3,28755
700
700,000
Le test du F et du Lambda de Wilks sobserve dans le tableau Tests of Equality of Group

Means .
Lexamen du F dans notre exemple nous confirme que ce sont bien les variables Years
at current address , Credit card debt in thousands , Years with current employer ,
et Debt to income ratio (x100) qui sont les plus discriminantes.
De plus, daprs le test du Lambda de Wilks, seule la variable Debt to income ratio
(x100) semble avoir une influence.
Tests of Equality of Group Means
Age in years
Level of education
Years with current
employer
Household income in
thousands
(x100)
Credit card debt in
thousands
Wilks'
Lambda
,981
,987
F
13,482
9,301
,920
df1
1
1
df2
698
698
Sig.
,000
,002
60,759
698
,000
,973
19,402
698
,000
,995
3,533
698
,061
,848
124,889
698
,000
,940
44,472
698
,000
,979
15,142
698
,000
2. Vrification de la validit de ltude.

On estime la validit dune analyse discriminante partir de indicateurs :
Le test de Box.
La corrlation globale.
Le Lambda de Wilks.
On observe le test de Box grce au tableau Test Results .

Test Results
Box's M
F
Approx.
df1
df2
Sig.
364,962
36,182
10
552413,8
,000
Tests null hypothesis of equal population covariance matrices.
Le M doit tre le plus lev possible. La significativit du test de F doit tendre vers 0. Sil
est suprieur 0,05, lanalyse nest pas valide.
La corrlation globale se mesure quant elle se retrouve dans le tableau Eigenvalues
(Valeurs propres).
Eigenvalues
Function
1
Eigenvalue % of Variance
,395a
100,0
Cumulative %
100,0
Canonical
Correlation
,532
a. First 1 canonical discriminant functions were used in the

analysis.
On observe notamment la colonne Canonical Correlation (Corrlation Canonique).

Plus elle est proche de 1, meilleur est le modle.
Le Lambda de Wilks sobserve quant lui dans le tableau Wilks Lambda .
Wilks' Lambda
Test of Function(s)
1
Wilks'
Lambda
,717
Chi-square
231,524
df
4
Sig.
,000
Plus la valeur du Lambda de Wilks (deuxime colonne) est faible, plus le modle est bon.
On observe galement sa significativit : plus elle est tend vers 0, meileur, plus le
modle est bon.
3. Estimation des coefficients de la fonction discriminante.

On observe le pouvoir discriminant des axes grce au tableau Canonical Discriminant
Function Coefficients .
Canonical Discriminant Function Coefficients
Function
1
Years with current
employer
(x100)
Credit card debt in
thousands
(Constant)
-,120
-,037
,075
,312
,058
Unstandardized coefficients
Ce tableau permet dobtenir la fonction discriminante. Dans notre exemple, la fonction

est gale :
0,058 0,12*(Years with current employer) 0,037*(Years at current adress) +
0,075*(Debet to income ratio) + 0,312*(Credit card ddebt in thousands)
4. Qualit de la reprsentation.
on observe la qualit de la reprsentation : on sassure que la fonction discriminante
classifie bien les individus en sous-groupes. Pour cela, on analyse la matrice de confusion
qui regroupe les individus bien classs et les mal classs :
Groupes prvus (ou thoriques)
Groupes
rels (ou
observs)
Groupe
1
Groupe 2
Total
Groupe 1
22
26
Groupe 2
18
22
Total
26
22
48
Ainsi, dans notre exemple, 22 lments du groupe 1 ont t bien reclasss grce la
fonction discriminante et 4 lont mal t. De mme, pour le groupe 2, 4 individus ont t
mal reclasss et 18 bien reclasss. Au total, cest donc 40 individus (22 + 18) qui ont t
correctement reclasss soit 83% de russite (40 / 48 = 83%).
Sous SPSS, la matrice de confusion sobserve dans le tableau Classification Results .
Classification Resultsb,c
Original
Count
Cross-validated a
Count
%
Previously defaulted
No
Yes
Ungrouped cases
No
Yes
Ungrouped cases
No
Yes
No
Yes
Predicted Group
Membership
No
Yes
391
126
42
141
96
54
75,6
24,4
23,0
77,0
64,0
36,0
391
126
43
140
75,6
24,4
23,5
76,5
Total
517
183
150
100,0
100,0
100,0
517
183
100,0
100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that
case.
b. 76,0% of original grouped cases correctly classified.
c. 75,9% of cross-validated grouped cases correctly classified.
La note (b.) nous indique le pouvoir de reclassement de la fonction discriminante, ici

76,0%. On peut retrouver ce chiffre en additionnant les observations bien reclasses (ici
398 et 138 soit un total de 536) et en les divisant par le nombre total dobservations
classes (dans le cas prsent 700 soit 517 + 183)
Il existe une dernire tape qui consiste observer les mal-classs et savoir si cest d
un atypisme ou une dfaillance de la fonction discriminante. Sil sagit dun atypisme, il
convient de les enlever et de recommencer ltude.

L&#39;Analyse Discriminante Sous SPSS

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

L&#39;Analyse Discriminante Sous SPSS

Transféré par

Droits d'auteur :

Formats disponibles

Lanalyse discriminante

Propos de ce document ....................................................................... 1

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

La dmarche suivre sous SPSS

Dans la bote qui apparat, il convient de cocher Means (moyennes), Univariate

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Analyse des rsultats

1. Vrification de lexistence de diffrences entre les sousgroupes.

Sig F tend vers 0,000

SIG F >= 0,01 ou 0,05

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Le test du F et du Lambda de Wilks sobserve dans le tableau Tests of Equality of Group

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Tests of Equality of Group Means

2. Vrification de la validit de ltude.

On observe le test de Box grce au tableau Test Results .

Tests null hypothesis of equal population covariance matrices.

a. First 1 canonical discriminant functions were used in the

On observe notamment la colonne Canonical Correlation (Corrlation Canonique).

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

3. Estimation des coefficients de la fonction discriminante.

Ce tableau permet dobtenir la fonction discriminante. Dans notre exemple, la fonction

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

La note (b.) nous indique le pouvoir de reclassement de la fonction discriminante, ici

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Vous aimerez peut-être aussi

L'Analyse Discriminante Sous SPSS

L'Analyse Discriminante Sous SPSS