Vous êtes sur la page 1sur 7

Lanalyse discriminante

Propos de ce document ....................................................................... 1 Introduction ........................................................................................ 1 La dmarche suivre sous SPSS ............................................................. 2 1. Statistics .................................................................................... 2 2. Classify ...................................................................................... 2 Analyse des rsultats ............................................................................ 3 1. Vrification de lexistence de diffrences entre les sous-groupes. ............ 3 2. Vrification de la validit de ltude. .................................................. 5 3. Estimation des coefficients de la fonction discriminante. ........................ 6 4. Qualit de la reprsentation. ............................................................ 6

Propos de ce document
Ce document a t cr dans le but daider toute personne qui dbute dans SPSS, logiciel tr puissant mais trs peu sympathique. Ce document se base sur la version 11.0 Base de SPSS, en version anglaise. La plupart des exemples sont issus des dictatiels du programme SPSS en lui-mme. Toutes les remarques, tant sur le fond que sur la forme, sont les bienvenues. Nhsitez pas me contacter ladresse suivante : <lemoal@lemoal.org> ou venir visiter mon site internet : http://www.lemoal.org/spss/ Merci.

Introduction
Le but de lanalyse discriminante est dtudier les relations entre une variable qualitative et un ensemble de variables explicatives quantitatives. Cest une mthode utilise notamment par les banques pour le scoring Trois objectifs principaux peuvent tre assigns lanalyse discriminante : Dterminer les variables explicatives les plus discriminantes vis vis des classes dtermines Dterminer quel groupe appartient un individu partir de ses caractristiques Mais surtout valider une classification ou faire un choix entre plusieurs classifications pour savoir laquelle est la plus pertinente . Lanalyse discriminante intervient donc a posteriori dune classification. Deux conditions sont remplir : Les variables explicatives doivent tre mtriques Elles ne doivent pas tre trop corrles entre elles. Cela se vrifie par lobservation des corrlations entre les variables. Si cest le cas, on peut passer par une analyse factorielle qui permet de rduire les donnes quelques axes. Ces axes sont, par proprit, non corrls entre eux.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

La dmarche suivre sous SPSS


Aller dans Analyse > Classify > Discriminant La bote de dialogue suivante apparat alors :

Dans Grouping Variable (i.e. les critre de regroupement), il faut indiquer la variable expliquer en la slectionnant dans la partie de droite puis en cliquant sur la flche qui pointe vers la droite. SPSS demande alors de dfinir lintervalle, cest--dire les diffrentes modalits que la variable peut prendre. Dans Independents (i.e. les variables explicatives), il faut indiquer les variables mtriques que lon souhaite intgrer lanalyse. Il est important de choisir Use stepwise method (i.e. la mthode pas pas). Trois options soffrent alors nous : Statistics , Method et Classify . On ne touchera pas aux diffrentes options de Mthod

1. Statistics
La bote de dialogue Discriminant Analysis : Statistics apparat.

Dans la bote qui apparat, il convient de cocher Means (moyennes), Univariate ANOVAs (ANOVA 1 facteur) et Boxs M (Test de Box) dans Descriptives et Fischers ainsi que Unstandardized dans Function Coefficients .

2. Classify
La bote de dialogue Discriminant Analysis : Classification apparat.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Dans la bote qui apparat, il convient de cocher Summary Table (option qui permet laffichage de la matrice de confusion) et Leave-one-out classification dans Display .

Analyse des rsultats


Une analyse discriminante se droule en 3 tapes : 1. On vrifie lexistence de diffrences entre les groupes. 2. On valide ltude. 3. On vrifie le pouvoir discriminant des axes. 4. On juge la qualit de la reprsentation du modle. La 3 me tape peut tre passe dans la plupart des cas.

1. Vrification de lexistence de diffrences entre les sousgroupes.


On vrifie sil existe bien des diffrences entre les groupes grce trois indicateurs : la moyenne ou la variance, le test du F et le Lambda de Wilks. Ils sinterprtent de la faon suivante : En cas dinfluence Moyenne ou variance Test du F Diffrence F lev Sig F tend vers 0,000 Lambda de Wilks <= 0,90 En absence dinfluence Similitude F faible SIG F >= 0,01 ou 0,05 Tend vers 1

Cette premire analyse permet de dterminer quelles sont les variables qui sont les plus discriminantes entre les groupes. Les moyennes et cart-types sobservent dans le tableau Group Statistics . Les variables Years with current employes , Years at current adress , Debt to income ration et Credit card debt dans lexemple ci-dessous semblent tre les variables les plus discriminantes.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Group Statistics Valid N (listwise) Unweighted Weighted 517 517,000 517 517,000 517 517 517 517 517 517 183 183 183 183 183 183 183 183 700 700 700 700 700 700 700 700 517,000 517,000 517,000 517,000 517,000 517,000 183,000 183,000 183,000 183,000 183,000 183,000 183,000 183,000 700,000 700,000 700,000 700,000 700,000 700,000 700,000 700,000

Previously defaulted No

Yes

Total

Age in years Level of education Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Credit card debt in thousands Other debt in thousands Age in years Level of education Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Credit card debt in thousands Other debt in thousands Age in years Level of education Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Credit card debt in thousands Other debt in thousands

Mean 35,5145 1,6596 9,5087 8,9458 47,1547 8,6793 1,2455 2,7734 33,0109 1,9016 5,2240 6,3934 41,2131 14,7279 2,4239 3,8628 34,8600 1,7229 8,3886 8,2786 45,6014 10,2606 1,5536 3,0582

Std. Deviation 7,70774 ,90443 6,66374 7,00062 34,22015 5,61520 1,42231 2,81394 8,51759 ,97279 5,54295 5,92521 43,11553 7,90280 3,23252 4,26368 7,99734 ,92821 6,65804 6,82488 36,81423 6,82723 2,11720 3,28755

Le test du F et du Lambda de Wilks sobserve dans le tableau Tests of Equality of Group Means . Lexamen du F dans notre exemple nous confirme que ce sont bien les variables Years at current address , Credit card debt in thousands , Years with current employer , et Debt to income ratio (x100) qui sont les plus discriminantes. De plus, daprs le test du Lambda de Wilks, seule la variable Debt to income ratio (x100) semble avoir une influence.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Tests of Equality of Group Means Wilks' Lambda ,981 ,987 ,920 ,973 ,995 ,848 ,940 ,979 F 13,482 9,301 60,759 19,402 3,533 124,889 44,472 15,142 df1 1 1 1 1 1 1 1 1 df2 698 698 698 698 698 698 698 698 Sig. ,000 ,002 ,000 ,000 ,061 ,000 ,000 ,000

Age in years Level of education Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Credit card debt in thousands Other debt in thousands

2. Vrification de la validit de ltude.


On estime la validit dune analyse discriminante partir de indicateurs : Le test de Box. La corrlation globale. Le Lambda de Wilks.

On observe le test de Box grce au tableau Test Results .


Test Results Box's M F Approx. df1 df2 Sig. 364,962 36,182 10 552413,8 ,000

Tests null hypothesis of equal population covariance matrices.

Le M doit tre le plus lev possible. La significativit du test de F doit tendre vers 0. Sil est suprieur 0,05, lanalyse nest pas valide. La corrlation globale se mesure quant elle se retrouve dans le tableau Eigenvalues (Valeurs propres).
Eigenvalues Function 1 Eigenvalue % of Variance ,395a 100,0 Cumulative % 100,0 Canonical Correlation ,532

a. First 1 canonical discriminant functions were used in the analysis.

On observe notamment la colonne Canonical Correlation (Corrlation Canonique). Plus elle est proche de 1, meilleur est le modle. Le Lambda de Wilks sobserve quant lui dans le tableau Wilks Lambda .

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

Wilks' Lambda Test of Function(s) 1 Wilks' Lambda ,717 Chi-square 231,524 df 4 Sig. ,000

Plus la valeur du Lambda de Wilks (deuxime colonne) est faible, plus le modle est bon. On observe galement sa significativit : plus elle est tend vers 0, meileur, plus le modle est bon.

3. Estimation des coefficients de la fonction discriminante.


On observe le pouvoir discriminant des axes grce au tableau Canonical Discriminant Function Coefficients .
Canonical Discriminant Function Coefficients Function 1 Years with current employer Years at current address Debt to income ratio (x100) Credit card debt in thousands (Constant) Unstandardized coefficients -,120 -,037 ,075 ,312 ,058

Ce tableau permet dobtenir la fonction discriminante. Dans notre exemple, la fonction est gale : 0,058 0,12*(Years with current employer) 0,037*(Years at current adress) + 0,075*(Debet to income ratio) + 0,312*(Credit card ddebt in thousands)

4. Qualit de la reprsentation.
on observe la qualit de la reprsentation : on sassure que la fonction discriminante classifie bien les individus en sous-groupes. Pour cela, on analyse la matrice de confusion qui regroupe les individus bien classs et les mal classs : Groupes prvus (ou thoriques) Groupe 1 Groupe 1 Groupe 2 Total 22 4 26 Groupe 2 4 18 22 Total 26 22 48

Groupes rels (ou observs)

Ainsi, dans notre exemple, 22 lments du groupe 1 ont t bien reclasss grce la fonction discriminante et 4 lont mal t. De mme, pour le groupe 2, 4 individus ont t mal reclasss et 18 bien reclasss. Au total, cest donc 40 individus (22 + 18) qui ont t correctement reclasss soit 83% de russite (40 / 48 = 83%). Sous SPSS, la matrice de confusion sobserve dans le tableau Classification Results .

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002

b,c Classification Results

Original

Count

Cross-validated a

Count %

Previously defaulted No Yes Ungrouped cases No Yes Ungrouped cases No Yes No Yes

Predicted Group Membership No Yes 391 126 42 141 96 54 75,6 24,4 23,0 77,0 64,0 36,0 391 126 43 140 75,6 24,4 23,5 76,5

Total 517 183 150 100,0 100,0 100,0 517 183 100,0 100,0

a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 76,0% of original grouped cases correctly classified. c. 75,9% of cross-validated grouped cases correctly classified.

La note (b.) nous indique le pouvoir de reclassement de la fonction discriminante, ici 76,0%. On peut retrouver ce chiffre en additionnant les observations bien reclasses (ici 398 et 138 soit un total de 536) et en les divisant par le nombre total dobservations classes (dans le cas prsent 700 soit 517 + 183) Il existe une dernire tape qui consiste observer les mal-classs et savoir si cest d un atypisme ou une dfaillance de la fonction discriminante. Sil sagit dun atypisme, il convient de les enlever et de recommencer ltude.

LAnalyse Discriminante sous SPSS Ludovic LE MOAL 2002